ปัญญาประดิษฐ์ใน Yandex.Browser ยานเดกซ์เริ่มใช้โครงข่ายประสาทเทียมในนักแปลเพื่อปรับปรุงการแปลโครงข่ายประสาทเทียมของนักแปลยานเดกซ์

Yandex.Translator ได้เรียนรู้ที่จะผูกมิตรกับโครงข่ายประสาทเทียมและมอบข้อความคุณภาพสูงให้กับผู้ใช้ ยานเดกซ์เริ่มใช้ระบบการแปลแบบไฮบริด: ในตอนแรกระบบทางสถิติใช้งานได้และตอนนี้ก็เสริมด้วยเทคโนโลยี การเรียนรู้ของเครื่องแคทบูสท์ จริงอยู่มีสิ่งหนึ่ง จนถึงตอนนี้สำหรับการแปลจากภาษาอังกฤษเป็นภาษารัสเซียเท่านั้น

ยานเดกซ์อ้างว่านี่เป็นแนวทางการแปลที่ได้รับความนิยมมากที่สุด โดยคิดเป็น 80% ของทั้งหมด

CatBoost เป็นสิ่งที่ชาญฉลาดเมื่อได้รับเวอร์ชันแปลสองเวอร์ชันแล้วเปรียบเทียบโดยเลือกเวอร์ชันที่มีลักษณะคล้ายมนุษย์มากที่สุด

ในเวอร์ชันทางสถิติ การแปลมักจะแบ่งออกเป็นวลีและคำแต่ละคำ Neuroness ไม่ได้ทำเช่นนี้ ฉันวิเคราะห์ประโยคโดยรวมโดยคำนึงถึงบริบทหากเป็นไปได้ ดังนั้นจึงคล้ายกับการแปลโดยมนุษย์มาก เนื่องจากโครงข่ายประสาทเทียมสามารถคำนึงถึงข้อตกลงของคำด้วย อย่างไรก็ตาม วิธีการทางสถิติก็มีข้อดีเช่นกัน เมื่อไม่ได้เพ้อฝันหากเห็นสิ่งที่หายากหรือ คำที่ไม่รู้จัก- โครงข่ายประสาทเทียมอาจพยายามสร้างสรรค์

หลังจากประกาศในวันนี้ จำนวนข้อผิดพลาดทางไวยากรณ์ในการแปลอัตโนมัติควรลดลง ตอนนี้พวกเขาผ่านโมเดลภาษาแล้ว ตอนนี้คุณไม่ควรเจอช่วงเวลาเช่น "พ่อจากไป" หรือ "ความเจ็บปวดสาหัส"

ในเวอร์ชั่นเว็บค่ะ ช่วงเวลานี้ผู้ใช้สามารถเลือกเวอร์ชันการแปลที่ดูเหมือนว่าถูกต้องและประสบความสำเร็จมากที่สุดสำหรับพวกเขา มีทริกเกอร์แยกต่างหากสำหรับสิ่งนี้

หากคุณสนใจข่าวสารจากโลกไอทีเช่นเดียวกับเรา สมัครรับข้อมูลช่อง Telegram ของเรา วัตถุดิบทั้งหมดจะปรากฏที่นั่นโดยเร็วที่สุด หรืออาจจะสะดวกกว่าสำหรับคุณ? เรายังอยู่ใน.

คุณชอบบทความนี้หรือไม่?

หรืออย่างน้อยก็แสดงความคิดเห็นอย่างมีความสุขเพื่อที่เราจะได้รู้ว่าหัวข้อใดน่าสนใจสำหรับผู้อ่านมากที่สุด นอกจากนี้ยังเป็นแรงบันดาลใจให้เรา แบบฟอร์มความคิดเห็นอยู่ด้านล่าง

มีอะไรผิดปกติกับเธอ? สามารถแสดงความไม่พอใจได้ที่ [ป้องกันอีเมล]- เราจะพยายามคำนึงถึงความปรารถนาของคุณในอนาคตเพื่อปรับปรุงคุณภาพของเนื้อหาของไซต์ ตอนนี้เรามาใช้จ่ายกัน งานการศึกษากับผู้เขียน

หรือปริมาณพัฒนาไปสู่คุณภาพหรือไม่?

บทความจากสุนทรพจน์ในการประชุม RIF+KIB 2017

การแปลด้วยเครื่องประสาท: ทำไมตอนนี้เท่านั้น?

พวกเขาพูดคุยเกี่ยวกับโครงข่ายประสาทเทียมมาเป็นเวลานานและดูเหมือนว่าจะเป็นเช่นนั้น ปัญหาคลาสสิก ปัญญาประดิษฐ์– การแปลด้วยเครื่อง – เพียงแค่ขอให้แก้ไขบนพื้นฐานของเทคโนโลยีนี้

อย่างไรก็ตาม ต่อไปนี้เป็นพลวัตของความนิยมในการค้นหาข้อความค้นหาเกี่ยวกับโครงข่ายประสาทเทียมโดยทั่วไป และเกี่ยวกับการแปลด้วยเครื่องประสาทโดยเฉพาะ:

เห็นได้อย่างชัดเจนว่าจนกระทั่งเมื่อไม่นานมานี้ ยังไม่มีอะไรอยู่ในเรดาร์เกี่ยวกับการแปลด้วยเครื่องนิวรัล และ ณ สิ้นปี 2559 บริษัทหลายแห่งได้สาธิตเทคโนโลยีใหม่และระบบการแปลด้วยเครื่องโดยใช้โครงข่ายประสาทเทียม รวมถึง Google, Microsoft และ SYSTRAN ปรากฏเกือบจะพร้อมกัน ห่างกันหลายสัปดาห์หรือหลายวันด้วยซ้ำ ทำไมเป็นอย่างนั้น?

เพื่อตอบคำถามนี้ จำเป็นต้องเข้าใจว่าการแปลด้วยเครื่องตามโครงข่ายประสาทเทียมคืออะไร และอะไรคือความแตกต่างที่สำคัญจากระบบสถิติแบบคลาสสิกหรือ ระบบวิเคราะห์ซึ่งใช้ในปัจจุบันสำหรับการแปลด้วยเครื่อง

ตัวแปลระบบประสาทจะขึ้นอยู่กับกลไกของโครงข่ายประสาทที่เกิดซ้ำแบบสองทิศทาง (โครงข่ายประสาทเทียมที่เกิดซ้ำแบบสองทิศทาง) ซึ่งสร้างขึ้นจากการคำนวณเมทริกซ์ ซึ่งช่วยให้คุณสามารถสร้างแบบจำลองความน่าจะเป็นที่ซับซ้อนมากขึ้นได้อย่างมีนัยสำคัญมากกว่าเครื่องแปลทางสถิติ

เช่นเดียวกับการแปลทางสถิติ การแปลประสาทต้องใช้คลังข้อมูลแบบขนานสำหรับการฝึกอบรม ทำให้คุณสามารถเปรียบเทียบการแปลอัตโนมัติกับการแปลแบบ "มนุษย์" มาตรฐานได้ เฉพาะในกระบวนการเรียนรู้เท่านั้นที่จะดำเนินการไม่ใช่กับแต่ละวลีและวลี แต่ใช้กับทั้งประโยค ปัญหาหลักคือการฝึกอบรมระบบดังกล่าวต้องใช้พลังการประมวลผลเพิ่มขึ้นอย่างมาก

เพื่อเร่งกระบวนการให้เร็วขึ้น นักพัฒนาใช้ GPU จาก NVIDIA รวมถึงหน่วยประมวลผล Tensor (TPU) ของ Google ซึ่งเป็นชิปที่เป็นกรรมสิทธิ์ซึ่งดัดแปลงมาสำหรับเทคโนโลยีการเรียนรู้ของเครื่องโดยเฉพาะ ชิปกราฟิกได้รับการปรับให้เหมาะสมในตอนแรกสำหรับอัลกอริธึมการคำนวณเมทริกซ์ ดังนั้นประสิทธิภาพที่เพิ่มขึ้นจึงอยู่ที่ 7-15 เท่าเมื่อเทียบกับ CPU

อย่างไรก็ตาม การฝึกแบบจำลองประสาทเดี่ยวจะใช้เวลา 1 ถึง 3 สัปดาห์ ในขณะที่แบบจำลองทางสถิติที่มีขนาดเท่ากันจะใช้เวลาในการฝึก 1 ถึง 3 วัน และความแตกต่างนี้จะเพิ่มขึ้นเมื่อขนาดเพิ่มขึ้น

อย่างไรก็ตามไม่เพียงเท่านั้น ปัญหาทางเทคโนโลยีเป็นตัวขัดขวางการพัฒนาโครงข่ายประสาทเทียมในบริบทของงานแปลด้วยเครื่อง ในท้ายที่สุด เป็นไปได้ที่จะฝึกโมเดลภาษาตั้งแต่เนิ่นๆ แม้ว่าจะช้ากว่า แต่ก็ไม่มีอุปสรรคพื้นฐานใดๆ

แฟชั่นสำหรับโครงข่ายประสาทเทียมก็มีบทบาทเช่นกัน หลายคนกำลังพัฒนาภายใน แต่พวกเขาก็ไม่รีบร้อนที่จะประกาศ เพราะกลัวว่าบางทีพวกเขาจะไม่ได้รับการเพิ่มขึ้นในคุณภาพที่สังคมคาดหวังจากวลี Neural Networks นี่อาจอธิบายความจริงที่ว่ามีการประกาศนักแปลประสาทหลายคนทีละคน

คุณภาพการแปล: คะแนน BLEU ของใครหนากว่ากัน?

ลองทำความเข้าใจว่าคุณภาพการแปลที่เพิ่มขึ้นนั้นสอดคล้องกับความคาดหวังสะสมและต้นทุนที่เพิ่มขึ้นที่มาพร้อมกับการพัฒนาและการสนับสนุนโครงข่ายประสาทเทียมสำหรับการแปลหรือไม่
Google ในการวิจัยแสดงให้เห็นว่าการแปลด้วยเครื่องประสาทให้การปรับปรุงสัมพัทธ์จาก 58% เป็น 87% ขึ้นอยู่กับคู่ภาษา เมื่อเปรียบเทียบกับวิธีการทางสถิติแบบคลาสสิก (หรือการแปลด้วยเครื่องแบบวลี หรือ PBMT หรือที่เรียกอีกอย่างว่า)

SYSTRAN ดำเนินการศึกษาซึ่งมีการประเมินคุณภาพการแปลโดยเลือกจากตัวเลือกที่นำเสนอหลายตัวเลือก ระบบต่างๆเช่นเดียวกับการแปล "มนุษย์" และเขากล่าวว่าการแปลระบบประสาทของเขาเป็นที่ต้องการมากกว่าการแปลโดยมนุษย์ใน 46% ของกรณี

คุณภาพการแปล: มีความก้าวหน้าหรือไม่?

แม้ว่า Google จะอ้างว่ามีการปรับปรุง 60% ขึ้นไป แต่ก็มีตัวเลขที่จับได้เล็กน้อย ตัวแทนของบริษัทพูดคุยเกี่ยวกับ "การปรับปรุงสัมพัทธ์" นั่นคือพวกเขาจัดการกับคุณภาพของการแปลโดยมนุษย์ได้ใกล้เคียงเพียงใดโดยสัมพันธ์กับสิ่งที่อยู่ในเครื่องมือแปลทางสถิติแบบคลาสสิก

ผู้เชี่ยวชาญในอุตสาหกรรมที่วิเคราะห์ผลลัพธ์ที่นำเสนอโดย Google ในบทความ “ระบบการแปลด้วยเครื่องประสาทของ Google: การเชื่อมโยงช่องว่างระหว่างการแปลของมนุษย์และด้วยเครื่อง” ค่อนข้างไม่มั่นใจเกี่ยวกับผลลัพธ์ที่นำเสนอ และกล่าวว่าในความเป็นจริงแล้ว คะแนน BLEU ได้รับการปรับปรุงเพียง 10% เท่านั้น และ ความก้าวหน้าที่สำคัญสามารถสังเกตได้ชัดเจนเมื่อใด การทดสอบง่ายๆจากวิกิพีเดียซึ่งมีแนวโน้มมากที่สุดที่จะใช้ในกระบวนการฝึกอบรมเครือข่าย

ภายใน PROMT เราเปรียบเทียบการแปลในข้อความต่างๆ ของระบบของเรากับคู่แข่งเป็นประจำ ดังนั้นเราจึงมีตัวอย่างอยู่เสมอซึ่งเราสามารถตรวจสอบได้ว่าการแปลแบบระบบประสาทนั้นเหนือกว่ารุ่นก่อนๆ ตามที่ผู้ผลิตอ้างหรือไม่

ข้อความต้นฉบับ (EN): ความกังวลไม่เคยให้ผลดีกับใครเลย
Google Translation PBMT: ไม่ได้ทำอะไรดีกับใครโดยไม่ต้องกังวล
Google Translation NMT: ความกังวลไม่เคยช่วยใครเลย

อย่างไรก็ตาม การแปลวลีเดียวกันบน Translate.Ru: "ความกังวลไม่เคยสร้างประโยชน์ให้ใครเลย" คุณจะเห็นว่ามันเป็นและยังคงเหมือนเดิมโดยไม่ต้องใช้โครงข่ายประสาทเทียม

Microsoft Translator ก็ไม่ได้ล้าหลังในเรื่องนี้มากนัก พวกเขาต่างจากเพื่อนร่วมงานจาก Google ตรงที่พวกเขาสร้างเว็บไซต์ที่คุณสามารถแปลและเปรียบเทียบผลลัพธ์สองรายการ ได้แก่ นิวรัลและพรีนิวรัล เพื่อให้แน่ใจว่าข้อความเกี่ยวกับการเติบโตของคุณภาพนั้นไม่มีมูลความจริง

ในตัวอย่างนี้เราจะเห็นว่ามีความก้าวหน้าและเห็นได้ชัดเจนจริงๆ เมื่อมองแวบแรก ดูเหมือนว่าคำกล่าวของนักพัฒนาที่ว่าการแปลด้วยเครื่องเกือบจะทันการแปลโดยมนุษย์นั้นเป็นเรื่องจริง แต่นี่เป็นเช่นนั้นจริง ๆ และสิ่งนี้หมายความว่าอย่างไรจากมุมมอง การประยุกต์ใช้จริงเทคโนโลยีเพื่อธุรกิจ?

โดยทั่วไป การแปลโดยใช้โครงข่ายประสาทเทียมนั้นเหนือกว่าการแปลเชิงสถิติ และเทคโนโลยีนี้มีศักยภาพมหาศาลในการพัฒนา แต่ถ้าเราพิจารณาปัญหาอย่างรอบคอบ เราจะเห็นว่าความก้าวหน้าไม่ได้อยู่ในทุกสิ่ง และไม่ใช่ว่างานทั้งหมดจะสามารถนำไปใช้กับโครงข่ายประสาทเทียมโดยไม่คำนึงถึงงานนั้น ๆ

การแปลด้วยคอมพิวเตอร์: อะไรคือความท้าทาย?

ประวัติความเป็นมาของการดำรงอยู่ทั้งหมดจากนักแปลอัตโนมัติ - และนี่ก็เป็นเวลากว่า 60 ปีแล้ว! – พวกเขาคาดหวังถึงเวทมนตร์บางอย่าง โดยจินตนาการว่ามันเป็นเครื่องจักรจากภาพยนตร์นิยายวิทยาศาสตร์ที่จะเปลี่ยนคำพูดใดๆ ก็ตามให้กลายเป็นเสียงนกหวีดของมนุษย์ต่างดาวและกลับมาในทันที

จริงๆแล้วยังมีภารกิจอยู่ ระดับที่แตกต่างกันซึ่งหนึ่งในนั้นหมายถึงการแปลแบบ "สากล" หรือพูดง่ายๆ คือการแปล "ทุกวัน" สำหรับงานประจำวันและง่ายต่อการทำความเข้าใจ บริการแปลออนไลน์และผลิตภัณฑ์มือถือจำนวนมากรับมือกับงานในระดับนี้ได้ดี

งานดังกล่าวได้แก่:

การแปลคำศัพท์อย่างรวดเร็วและ ข้อความสั้น ๆเพื่อวัตถุประสงค์ต่างๆ
การแปลอัตโนมัติระหว่างการสื่อสารบนฟอรัมใน ในเครือข่ายโซเชียล, ผู้ส่งสาร;
การแปลอัตโนมัติเมื่ออ่านข่าว บทความ Wikipedia;
นักแปลการเดินทาง (มือถือ)

ตัวอย่างทั้งหมดของการเพิ่มคุณภาพการแปลโดยใช้โครงข่ายประสาทเทียมที่เรากล่าวถึงข้างต้นเกี่ยวข้องกับงานเหล่านี้อย่างแม่นยำ

อย่างไรก็ตาม เมื่อพูดถึงเป้าหมายทางธุรกิจและวัตถุประสงค์เกี่ยวกับการแปลด้วยคอมพิวเตอร์ สิ่งต่างๆ จะแตกต่างออกไปเล็กน้อย ตัวอย่างเช่น นี่คือข้อกำหนดบางประการสำหรับระบบการแปลด้วยเครื่องขององค์กร:

แปลจดหมายโต้ตอบทางธุรกิจกับลูกค้า คู่ค้า นักลงทุน พนักงานชาวต่างชาติ
การแปลเว็บไซต์ ร้านค้าออนไลน์ รายละเอียดสินค้า คำแนะนำ
การแปลเนื้อหาของผู้ใช้ (บทวิจารณ์ ฟอรั่ม บล็อก)
ความสามารถในการบูรณาการการแปลเข้ากับกระบวนการทางธุรกิจและผลิตภัณฑ์ซอฟต์แวร์และบริการ
ความถูกต้องของการแปลตามคำศัพท์เฉพาะทาง การรักษาความลับ และการรักษาความปลอดภัย

ลองทำความเข้าใจโดยใช้ตัวอย่างว่าปัญหาทางธุรกิจการแปลสามารถแก้ไขได้โดยใช้โครงข่ายประสาทเทียมหรือไม่และทำอย่างไร

กรณี: อะมาดิอุส

Amadeus คือหนึ่งในระบบจำหน่ายตั๋วเครื่องบินที่ใหญ่ที่สุดในโลก ในอีกด้านหนึ่ง สายการบินจะเชื่อมต่อกับหน่วยงานต่างๆ ที่ต้องรับข้อมูลทั้งหมดเกี่ยวกับการเปลี่ยนแปลงแบบเรียลไทม์และถ่ายทอดให้กับลูกค้าของตน

งานคือการแปลเงื่อนไขในการใช้ภาษี (กฎค่าโดยสาร) ซึ่งสร้างขึ้นโดยอัตโนมัติในระบบการจองจากแหล่งต่างๆ กฎเหล่านี้เขียนเป็นภาษาอังกฤษเสมอ การแปลด้วยตนเองเป็นไปไม่ได้ในทางปฏิบัติที่นี่เนื่องจากมีข้อมูลจำนวนมากและมีการเปลี่ยนแปลงบ่อยครั้ง ตัวแทนขายตั๋วสายการบินต้องการอ่านกฎค่าโดยสารเป็นภาษารัสเซียเพื่อให้คำแนะนำลูกค้าได้อย่างทันท่วงทีและมีประสิทธิภาพ

จำเป็นต้องมีการแปลที่ชัดเจนซึ่งสื่อถึงความหมายของกฎภาษีโดยคำนึงถึงข้อกำหนดและตัวย่อทั่วไป และจำเป็นต้องรวมการแปลอัตโนมัติเข้ากับระบบการจองของ Amadeus โดยตรง

→ งานและการดำเนินโครงการมีการอธิบายรายละเอียดไว้ในเอกสาร

เรามาลองเปรียบเทียบการแปลที่ทำผ่าน PROMT Cloud API ซึ่งผสานรวมเข้ากับ Amadeus Fare Rules Translator และการแปล "neural" จาก Google

ต้นฉบับ: ค่าโดยสารไปกลับทันที

PROMT (แนวทางการวิเคราะห์): ราคาสำหรับการซื้อเที่ยวบินแบบไปกลับทันที

GNMT: การซื้อแบบกลม

เห็นได้ชัดว่านักแปลประสาทไม่สามารถรับมือได้ที่นี่และอีกเล็กน้อยก็จะชัดเจนว่าทำไม

กรณี: TripAdvisor

TripAdvisor เป็นหนึ่งในบริการด้านการท่องเที่ยวที่ใหญ่ที่สุดในโลกที่ไม่ต้องมีการแนะนำใดๆ ตามบทความที่ตีพิมพ์โดย The Telegraph มีบทวิจารณ์ใหม่ 165,600 รายการเกี่ยวกับสถานที่ท่องเที่ยวต่างๆ บนเว็บไซต์ปรากฏบนเว็บไซต์ทุกวัน ภาษาที่แตกต่างกัน.

ภารกิจคือการแปลรีวิวนักท่องเที่ยวจากภาษาอังกฤษเป็นภาษารัสเซียโดยมีคุณภาพการแปลเพียงพอที่จะเข้าใจความหมายของรีวิวนี้ ปัญหาหลัก: ลักษณะทั่วไปของเนื้อหาที่ผู้ใช้สร้างขึ้น (ข้อความที่มีข้อผิดพลาด การพิมพ์ผิด คำที่หายไป)

ส่วนหนึ่งของงานคือการประเมินคุณภาพการแปลโดยอัตโนมัติก่อนเผยแพร่บนเว็บไซต์ TripAdvisor เนื่องจากไม่สามารถประเมินเนื้อหาที่แปลทั้งหมดด้วยตนเองได้ โซลูชันการแปลด้วยคอมพิวเตอร์จึงต้องจัดให้มีกลไกอัตโนมัติสำหรับการประเมินคุณภาพของข้อความที่แปล ซึ่งเป็นคะแนนความเชื่อมั่น เพื่อให้ TripAdvisor สามารถเผยแพร่เฉพาะบทวิจารณ์ที่แปลแล้วเท่านั้น คุณภาพสูง.

สำหรับโซลูชันนี้ มีการใช้เทคโนโลยี PROMT DeepHybrid ซึ่งทำให้ได้งานแปลคุณภาพสูงขึ้นซึ่งผู้อ่านปลายทางสามารถเข้าใจได้ รวมถึงผ่านการแก้ไขหลังการแก้ไขทางสถิติของผลลัพธ์การแปล

ลองดูตัวอย่าง:

Translated: เรากินที่นั่นเมื่อคืนนี้ด้วยความตั้งใจ และมันก็เป็นมื้อที่น่ารัก การบริการก็เอาใจใส่โดยไม่ต้องแบกรับอะไรมากจนเกินไป

PROMT (การแปลแบบไฮบริด): เราทานที่นั่นเมื่อคืนนี้ด้วยความตั้งใจ และมันก็เป็นมื้อที่วิเศษมาก พนักงานเอาใจใส่โดยไม่เอาแต่ใจ

GNMT: เรากินที่นั่นเมื่อคืนนี้ด้วยความตั้งใจ และมันก็เป็นมื้อที่วิเศษมาก การบริการก็เอาใจใส่โดยไม่เอาแต่ใจ

ที่นี่ทุกอย่างไม่ได้น่าหดหู่ในแง่ของคุณภาพเหมือนในตัวอย่างก่อนหน้านี้ โดยทั่วไปแล้ว ในแง่ของพารามิเตอร์ ปัญหานี้สามารถแก้ไขได้โดยใช้โครงข่ายประสาทเทียม และอาจปรับปรุงคุณภาพการแปลให้ดียิ่งขึ้นไปอีก

ความท้าทายในการใช้ NMT สำหรับธุรกิจ

ตามที่กล่าวไว้ข้างต้น นักแปลแบบ "สากล" ไม่ได้ให้คุณภาพที่ยอมรับได้เสมอไป และไม่สามารถรองรับคำศัพท์เฉพาะได้ หากต้องการผสานรวมและใช้โครงข่ายประสาทเทียมสำหรับการแปลกระบวนการของคุณ คุณจะต้องปฏิบัติตามข้อกำหนดพื้นฐาน:

การมีข้อความคู่ขนานในปริมาณที่เพียงพอเพื่อให้สามารถฝึกโครงข่ายประสาทเทียมได้ บ่อยครั้งที่ลูกค้ามีเพียงไม่กี่ข้อความหรือไม่มีข้อความในหัวข้อนี้เลย สิ่งเหล่านี้อาจถูกจัดประเภทหรืออยู่ในสถานะไม่เหมาะมากสำหรับการประมวลผลอัตโนมัติ

ในการสร้างโมเดล คุณต้องมีฐานข้อมูลที่มีโทเค็นอย่างน้อย 100 ล้านโทเค็น (การใช้คำ) และเพื่อให้ได้คำแปลที่มีคุณภาพเป็นที่ยอมรับไม่มากก็น้อย - 500 ล้านโทเค็น ไม่ใช่ทุกบริษัทที่มีปริมาณวัสดุขนาดนี้

ความพร้อมใช้งานของกลไกหรืออัลกอริธึมสำหรับการประเมินคุณภาพของผลลัพธ์ที่ได้รับโดยอัตโนมัติ

พลังการคำนวณที่เพียงพอ
นักแปลระบบประสาทแบบ "สากล" มักไม่เหมาะกับคุณภาพ และเพื่อที่จะปรับใช้โครงข่ายประสาทเทียมส่วนตัวของคุณเองที่สามารถให้คุณภาพและความเร็วในการทำงานที่ยอมรับได้ จำเป็นต้องมี "คลาวด์ขนาดเล็ก"

ยังไม่ชัดเจนว่าจะทำอย่างไรกับความเป็นส่วนตัว
ลูกค้าบางรายไม่พร้อมที่จะมอบเนื้อหาของตนสำหรับการแปลไปยังระบบคลาวด์ด้วยเหตุผลด้านความปลอดภัย และ NMT ก็เป็นเรื่องราวที่เน้นระบบคลาวด์เป็นหลัก

ข้อสรุป

โดยทั่วไป การแปลอัตโนมัติด้วยประสาทเทียมจะให้ผลลัพธ์ที่มีคุณภาพสูงกว่าวิธีการทางสถิติที่ "ล้วนๆ"
การแปลอัตโนมัติผ่านโครงข่ายประสาทเทียมเหมาะกว่าสำหรับการแก้ปัญหา "การแปลสากล"
ไม่มีแนวทางใดใน MT เพียงอย่างเดียวที่จะเป็นเครื่องมือสากลในอุดมคติสำหรับการแก้ปัญหาการแปลใดๆ
เพื่อแก้ไขปัญหาการแปลธุรกิจ มีเพียงโซลูชันเฉพาะทางเท่านั้นที่สามารถรับประกันการปฏิบัติตามข้อกำหนดทั้งหมดได้

เรามาถึงการตัดสินใจที่ชัดเจนและสมเหตุสมผลอย่างยิ่งว่าสำหรับงานแปลของคุณคุณต้องใช้นักแปลที่เหมาะสมที่สุดสำหรับสิ่งนี้ ไม่สำคัญว่าจะมีโครงข่ายประสาทเทียมอยู่ข้างในหรือไม่ การทำความเข้าใจงานนั้นสำคัญกว่า

แท็ก: เพิ่มแท็ก

บริการ Yandex.Translator เริ่มใช้เทคโนโลยีโครงข่ายประสาทเทียมเมื่อแปลข้อความซึ่งทำให้สามารถปรับปรุงคุณภาพการแปลได้เว็บไซต์ Yandex รายงาน

ไปที่บุ๊กมาร์ก

บริการนี้ทำงานบนระบบไฮบริด ยานเดกซ์อธิบายว่า: เทคโนโลยีการแปลโดยใช้โครงข่ายประสาทเทียมถูกเพิ่มเข้าไปในแบบจำลองทางสถิติที่ใช้งานใน Translator นับตั้งแต่เปิดตัว

“โครงข่ายประสาทเทียมไม่เหมือนกับนักแปลเชิงสถิติ ไม่แยกข้อความออกเป็นคำและวลีเดี่ยวๆ ได้รับข้อเสนอทั้งหมดเป็นข้อมูลป้อนเข้าและออกคำแปล” ตัวแทนของบริษัทอธิบาย วิธีการนี้ช่วยให้พิจารณาบริบทและถ่ายทอดความหมายของข้อความที่แปลได้ดีขึ้น

ในทางกลับกันแบบจำลองทางสถิติก็รับมือได้ดีขึ้นด้วย ด้วยคำพูดที่หายากและวลีที่เน้นในยานเดกซ์ “หากความหมายของประโยคไม่ชัดเจน มันก็ไม่ได้เพ้อฝัน อย่างที่โครงข่ายประสาทเทียมสามารถทำได้” บริษัทตั้งข้อสังเกต

เมื่อแปล บริการจะใช้ทั้งสองรุ่น จากนั้นอัลกอริธึมการเรียนรู้ของเครื่องจะเปรียบเทียบผลลัพธ์และข้อเสนอตามความเห็นของตัวเลือกที่ดีที่สุด “ระบบไฮบริดช่วยให้คุณใช้แต่ละวิธีให้เกิดประโยชน์สูงสุดและปรับปรุงคุณภาพการแปล” ยานเดกซ์กล่าว

ในช่วงวันที่ 14 กันยายน สวิตช์ควรปรากฏในเวอร์ชันเว็บของนักแปล ซึ่งคุณสามารถเปรียบเทียบการแปลที่ดำเนินการโดยแบบจำลองไฮบริดและแบบจำลองทางสถิติได้ ในเวลาเดียวกัน บางครั้งบริการอาจไม่เปลี่ยนข้อความ บริษัทตั้งข้อสังเกตว่า: “ซึ่งหมายความว่าโมเดลไฮบริดตัดสินใจว่าการแปลเชิงสถิติดีกว่า”

ใน อินเทอร์เน็ตที่ทันสมัยมากกว่า 630 ล้านไซต์ แต่มีเพียง 6% เท่านั้นที่มีเนื้อหาภาษารัสเซีย อุปสรรคด้านภาษา – ปัญหาหลักการเผยแพร่ความรู้ระหว่างผู้ใช้เครือข่าย และเราเชื่อว่าสิ่งนี้จะต้องได้รับการแก้ไขไม่เพียงแต่โดยการสอนภาษาต่างประเทศเท่านั้น แต่ยังต้องใช้การแปลด้วยเครื่องอัตโนมัติในเบราว์เซอร์ด้วย

วันนี้เราจะบอกผู้อ่าน Habr เกี่ยวกับการเปลี่ยนแปลงทางเทคโนโลยีที่สำคัญสองประการในตัวแปล Yandex Browser ประการแรก การแปลคำและวลีที่ไฮไลต์ในขณะนี้ใช้โมเดลไฮบริด และเราจะเตือนคุณว่าวิธีการนี้แตกต่างจากการใช้โครงข่ายประสาทเทียมล้วนๆ อย่างไร ประการที่สอง โครงข่ายประสาทเทียมของนักแปลจะคำนึงถึงโครงสร้างของหน้าเว็บ ซึ่งเป็นคุณลักษณะที่เราจะพูดถึงด้านล่างส่วนตัดด้วย

โปรแกรมแปลคำและวลีแบบไฮบริด

ระบบการแปลด้วยเครื่องแรกนั้นมีพื้นฐานมาจาก พจนานุกรมและกฎเกณฑ์(โดยพื้นฐานแล้วเป็นอักขระปกติที่เขียนด้วยลายมือ) ซึ่งเป็นตัวกำหนดคุณภาพของการแปล นักภาษาศาสตร์มืออาชีพทำงานมาหลายปีเพื่อพัฒนากฎเกณฑ์แบบแมนนวลที่มีรายละเอียดมากขึ้น งานนี้กินเวลามากจนต้องให้ความสนใจอย่างจริงจังกับคู่ภาษาที่ได้รับความนิยมมากที่สุดเท่านั้น แต่แม้แต่ภายในเครื่องจักรเหล่านี้ก็ยังทำงานได้ไม่ดีนัก ภาษาการใช้ชีวิตเป็นอย่างมาก ระบบที่ซับซ้อนซึ่งไม่ปฏิบัติตามกฎเกณฑ์อย่างดี การอธิบายกฎการติดต่อสื่อสารระหว่างสองภาษานั้นยากยิ่งขึ้นไปอีก

วิธีเดียวที่เครื่องจักรจะปรับตัวเข้ากับสภาวะที่เปลี่ยนแปลงอยู่ตลอดเวลาคือการเรียนรู้ด้วยตัวเองจากข้อความคู่ขนานจำนวนมาก (ความหมายเหมือนกัน แต่เขียนในภาษาต่างกัน) นี่เป็นวิธีการทางสถิติในการแปลด้วยเครื่อง คอมพิวเตอร์จะเปรียบเทียบข้อความคู่ขนานและระบุรูปแบบอย่างอิสระ

ยู นักแปลทางสถิติมีทั้งข้อดีและข้อเสีย ในด้านหนึ่ง เขาจำคำและวลีที่หายากและซับซ้อนได้ดี หากพบเป็นข้อความคู่ขนานนักแปลจะจดจำและแปลให้ถูกต้องต่อไป ในทางกลับกัน ผลลัพธ์ของการแปลอาจเป็นเหมือนปริศนาที่เสร็จสมบูรณ์ ภาพรวมดูชัดเจน แต่หากมองใกล้ ๆ จะเห็นว่าประกอบด้วยชิ้นส่วนที่แยกจากกัน เหตุผลก็คือผู้แปลใช้แทนคำแต่ละคำเป็นตัวระบุ ซึ่งไม่ได้สะท้อนถึงความสัมพันธ์ระหว่างคำเหล่านั้นแต่อย่างใด สิ่งนี้ไม่สอดคล้องกับวิธีที่ผู้คนสัมผัสภาษา ซึ่งคำต่างๆ ถูกกำหนดโดยวิธีใช้ วิธีที่เกี่ยวข้องและแตกต่างจากคำอื่นๆ

ช่วยแก้ปัญหานี้ โครงข่ายประสาทเทียม- การฝังคำ ซึ่งใช้ในการแปลด้วยเครื่องประสาท โดยทั่วไปจะเชื่อมโยงแต่ละคำกับเวกเตอร์ที่มีความยาวหลายร้อยตัวเลข เวกเตอร์ซึ่งแตกต่างจากตัวระบุอย่างง่ายจากวิธีการทางสถิตินั้นเกิดขึ้นเมื่อฝึกโครงข่ายประสาทเทียมและคำนึงถึงความสัมพันธ์ระหว่างคำต่างๆ ตัวอย่างเช่น แบบจำลองอาจรับรู้ว่าเนื่องจาก "ชา" และ "กาแฟ" มักปรากฏในบริบทที่คล้ายคลึงกัน ทั้งสองคำนี้จึงควรเป็นไปได้ในบริบทของคำว่า "หก" ใหม่ ซึ่งกล่าวได้ว่ามีเพียงคำเดียวเท่านั้นที่ปรากฏใน ข้อมูลการฝึกอบรม

อย่างไรก็ตาม กระบวนการเรียนรู้การแทนเวกเตอร์นั้นมีความต้องการทางสถิติมากกว่าการท่องจำตัวอย่าง นอกจากนี้ ยังไม่ชัดเจนว่าจะทำอย่างไรกับคำอินพุตที่หายากซึ่งไม่ได้เกิดขึ้นบ่อยเพียงพอสำหรับเครือข่ายในการสร้างการแสดงเวกเตอร์ที่ยอมรับได้ ในสถานการณ์เช่นนี้ มีเหตุผลที่จะรวมทั้งสองวิธีเข้าด้วยกัน

ตั้งแต่ปีที่แล้ว Yandex.Translator ได้ใช้งาน รุ่นไฮบริด- เมื่อนักแปลได้รับข้อความจากผู้ใช้ เขาจะมอบข้อความนั้นให้กับทั้งสองระบบสำหรับการแปล - โครงข่ายประสาทเทียมและนักแปลเชิงสถิติ อัลกอริธึมซึ่งอิงตามวิธีการเรียนรู้จะประเมินว่าการแปลแบบใดดีกว่า เมื่อให้คะแนน จะคำนึงถึงปัจจัยหลายประการ ตั้งแต่ความยาวของประโยค (แบบจำลองทางสถิติจะแปลวลีสั้นได้ดีกว่า) ไปจนถึงไวยากรณ์ คำแปลที่ได้รับการยอมรับว่าดีที่สุดจะแสดงให้ผู้ใช้เห็น

เป็นโมเดลไฮบริดที่ใช้ใน Yandex.Browser เมื่อผู้ใช้เลือกคำและวลีเฉพาะบนหน้าเว็บเพื่อทำการแปล

โหมดนี้สะดวกเป็นพิเศษสำหรับผู้ที่เป็นเจ้าของโดยทั่วไป ภาษาต่างประเทศและต้องการแปลเฉพาะคำที่ไม่รู้จักเท่านั้น แต่ตัวอย่างเช่น แทนที่จะเป็นภาษาอังกฤษทั่วไปที่คุณเจอภาษาจีน หากไม่มีนักแปลทีละหน้าก็จะเป็นเรื่องยาก ดูเหมือนว่าความแตกต่างอยู่ที่ปริมาณของข้อความที่แปลเท่านั้น แต่ไม่ใช่ทุกอย่างจะง่ายนัก

นักแปลโครงข่ายประสาทเทียมของหน้าเว็บ

ตั้งแต่สมัยทดลองที่จอร์จทาวน์จนถึงปัจจุบัน ระบบการแปลด้วยเครื่องทั้งหมดได้รับการฝึกอบรมให้แปลแต่ละประโยคของข้อความต้นฉบับแยกกัน แม้ว่าหน้าเว็บจะไม่ได้เป็นเพียงชุดประโยค แต่เป็นข้อความที่มีโครงสร้างซึ่งมีองค์ประกอบพื้นฐานที่แตกต่างกัน มาดูองค์ประกอบพื้นฐานของหน้าเว็บส่วนใหญ่กัน

หัวเรื่อง- โดยปกติแล้วข้อความสว่างและใหญ่ที่เราเห็นทันทีเมื่อเข้าสู่หน้า พาดหัวข่าวมักมีสาระสำคัญของข่าว ดังนั้นการแปลให้ถูกต้องจึงเป็นสิ่งสำคัญ แต่นี่เป็นเรื่องยากที่จะทำ เนื่องจากมีข้อความในชื่อเรื่องไม่เพียงพอ และหากไม่เข้าใจบริบท คุณก็อาจทำผิดพลาดได้ ในกรณีที่ ภาษาอังกฤษมันซับซ้อนยิ่งขึ้นเพราะชื่อภาษาอังกฤษมักจะมีวลีที่มีไวยากรณ์ที่แปลกใหม่ infinitives หรือแม้แต่คำกริยาหายไป ตัวอย่างเช่น, Game of Thrones พรีเควลประกาศแล้ว.

การนำทาง- คำและวลีที่ช่วยเราสำรวจไซต์ ตัวอย่างเช่น, บ้าน, กลับและ บัญชีของฉันการแปลเป็น "หน้าแรก", "ย้อนกลับ" และ "บัญชีของฉัน" แทบจะไม่คุ้มเลยหากอยู่ในเมนูไซต์และไม่ได้อยู่ในข้อความของสิ่งพิมพ์

ข้อความหลัก- ทุกอย่างง่ายขึ้นด้วย มันแตกต่างเล็กน้อยจากข้อความและประโยคธรรมดาที่เราพบในหนังสือ แต่ถึงแม้ที่นี่ สิ่งสำคัญคือต้องแน่ใจว่าการแปลมีความสอดคล้อง นั่นคือเพื่อให้แน่ใจว่าภายในหน้าเว็บเดียวกัน คำและแนวคิดเดียวกันจะได้รับการแปลในลักษณะเดียวกัน

สำหรับการแปลหน้าเว็บคุณภาพสูง การใช้โครงข่ายประสาทเทียมหรือโมเดลไฮบริดนั้นไม่เพียงพอ แต่ยังจำเป็นต้องคำนึงถึงโครงสร้างของหน้าเว็บด้วย และการทำเช่นนี้เราต้องจัดการกับปัญหาทางเทคโนโลยีมากมาย

การจำแนกประเภทของส่วนของข้อความ- ในการดำเนินการนี้ เราจะใช้ CatBoost และปัจจัยอีกครั้งโดยขึ้นอยู่กับทั้งข้อความและมาร์กอัป HTML ของเอกสาร (แท็ก, ขนาดข้อความ, จำนวนลิงก์ต่อหน่วยข้อความ, ... ) ปัจจัยค่อนข้างต่างกัน ซึ่งเป็นสาเหตุที่ CatBoost (อิงตามการเร่งการไล่ระดับสี) แสดงผลลัพธ์ที่ดีที่สุด (ความแม่นยำในการจำแนกประเภทสูงกว่า 95%) แต่การแบ่งกลุ่มเพียงอย่างเดียวนั้นไม่เพียงพอ

ข้อมูลบิดเบือน- ตามเนื้อผ้า อัลกอริธึมของ Yandex.Translator ได้รับการฝึกฝนเกี่ยวกับข้อความจากอินเทอร์เน็ต ดูเหมือนว่านี่เป็นทางออกที่ดีสำหรับการฝึกอบรมนักแปลหน้าเว็บ (หรืออีกนัยหนึ่งคือ เครือข่ายเรียนรู้จากข้อความที่มีลักษณะเดียวกันกับข้อความที่เราจะใช้) แต่เมื่อเราเรียนรู้ที่จะแยกส่วนต่างๆ ออกจากกัน เราก็ค้นพบ คุณสมบัติที่น่าสนใจ- โดยเฉลี่ยบนเว็บไซต์ เนื้อหากินพื้นที่ประมาณ 85% ของข้อความทั้งหมด โดยมีส่วนหัวและการนำทางคิดเป็นเพียง 7.5% โปรดจำไว้ว่าส่วนหัวและองค์ประกอบการนำทางนั้นมีสไตล์และไวยากรณ์แตกต่างอย่างเห็นได้ชัดจากส่วนที่เหลือของข้อความ ปัจจัยทั้งสองนี้รวมกันทำให้เกิดปัญหาข้อมูลบิดเบือน โครงข่ายประสาทเทียมจะทำกำไรได้มากกว่าหากเพิกเฉยต่อคุณสมบัติของส่วนเหล่านี้ซึ่งมีการนำเสนอได้ไม่ดีนักในชุดการฝึกอบรม เครือข่ายเรียนรู้ที่จะแปลเฉพาะข้อความหลักอย่างดี ซึ่งเป็นสาเหตุที่ทำให้คุณภาพของการแปลส่วนหัวและการนำทางลดลง เพื่อขจัดผลกระทบที่ไม่พึงประสงค์นี้ เราได้ทำสองสิ่ง: ให้กับประโยคคู่ขนานแต่ละประโยคที่เรากำหนดไว้อย่างใดอย่างหนึ่ง สามประเภทเซ็กเมนต์ (เนื้อหา ชื่อ หรือการนำทาง) และเพิ่มความเข้มข้นของสองอันสุดท้ายในคลังข้อมูลการฝึกอบรมอย่างปลอมแปลงเป็น 33% เนื่องจากข้อเท็จจริงที่ว่าพวกเขาเริ่มแสดงตัวอย่างที่คล้ายกันในโครงข่ายประสาทเทียมการเรียนรู้บ่อยขึ้น

การเรียนรู้แบบหลายงาน- เนื่องจากขณะนี้เราสามารถแบ่งข้อความบนหน้าเว็บออกเป็นสามกลุ่มได้ จึงอาจดูเหมือนเป็นแนวคิดทั่วไปในการฝึกแบบจำลองสามแบบที่แยกจากกัน ซึ่งแต่ละแบบจำลองจะจัดการกับการแปลข้อความประเภทต่างๆ เช่น ส่วนหัว การนำทาง หรือเนื้อหา วิธีนี้ใช้ได้ผลดีจริงๆ แต่แบบแผนทำงานได้ดียิ่งขึ้นเมื่อเราฝึกโครงข่ายประสาทเทียมให้แปลข้อความทุกประเภทในคราวเดียว กุญแจสำคัญในการทำความเข้าใจอยู่ที่แนวคิดของการเรียนรู้แบบหลายงาน (MTL) หากมีการเชื่อมโยงภายในระหว่างงานการเรียนรู้ของเครื่องหลายๆ งาน โมเดลที่เรียนรู้ที่จะแก้ไขงานเหล่านี้ไปพร้อมๆ กันก็สามารถเรียนรู้ที่จะแก้ปัญหาแต่ละงานได้ดีขึ้น กว่ารุ่นเฉพาะทาง!

การปรับแต่งแบบละเอียด- เรามีการแปลด้วยเครื่องที่ค่อนข้างดีอยู่แล้ว ดังนั้นจึงไม่ฉลาดเลยที่จะฝึกอบรมนักแปลใหม่สำหรับ Yandex.Browser ตั้งแต่เริ่มต้น มันสมเหตุสมผลมากกว่าที่จะใช้ ระบบพื้นฐานเพื่อแปลข้อความปกติและฝึกเพิ่มเติมให้ทำงานกับหน้าเว็บได้ ในบริบทของโครงข่ายประสาทเทียม สิ่งนี้มักเรียกว่าการปรับอย่างละเอียด แต่ถ้าคุณเข้าใกล้ปัญหานี้โดยตรงนั่นคือ เพียงเริ่มต้นน้ำหนักของโครงข่ายประสาทเทียมด้วยค่าจากแบบจำลองที่เสร็จสมบูรณ์แล้วเริ่มเรียนรู้จากข้อมูลใหม่ จากนั้นคุณอาจพบกับผลกระทบของการเปลี่ยนโดเมน: เมื่อการฝึกอบรมดำเนินไป คุณภาพของการแปลหน้าเว็บ (ในโดเมน) จะ เพิ่มขึ้น แต่คุณภาพของการแปลข้อความปกติ (นอกโดเมน) ) จะลดลง เพื่อกำจัดคุณสมบัติที่ไม่พึงประสงค์นี้ ในระหว่างการฝึกอบรมเพิ่มเติม เราได้กำหนดข้อจำกัดเพิ่มเติมบนโครงข่ายประสาทเทียม โดยห้ามไม่ให้มีการเปลี่ยนแปลงน้ำหนักมากเกินไปเมื่อเทียบกับสถานะเริ่มต้น

ในทางคณิตศาสตร์ สิ่งนี้แสดงได้โดยการเพิ่มคำศัพท์ให้กับฟังก์ชันการสูญเสีย ซึ่งก็คือระยะทาง Kullback-Leibler (KL-divergence) ระหว่างการแจกแจงความน่าจะเป็นของการสร้างคำถัดไป ซึ่งออกโดยเครือข่ายดั้งเดิมและเครือข่ายที่ได้รับการฝึกอบรมเพิ่มเติม ดังที่เห็นในภาพประกอบสิ่งนี้นำไปสู่ความจริงที่ว่าการเพิ่มคุณภาพการแปลหน้าเว็บไม่ทำให้การแปลข้อความธรรมดาเสื่อมลงอีกต่อไป

ขัดวลีความถี่จากการนำทาง- ในขณะที่ทำงานกับนักแปลคนใหม่ เราได้รวบรวมสถิติเกี่ยวกับข้อความในส่วนต่างๆ ของหน้าเว็บ และเห็นสิ่งที่น่าสนใจ ข้อความที่เกี่ยวข้องกับองค์ประกอบการนำทางนั้นมีมาตรฐานค่อนข้างสูง ดังนั้นจึงมักประกอบด้วยวลีเทมเพลตเดียวกัน นี่เป็นเอฟเฟกต์ที่ทรงพลังมากจนมากกว่าครึ่งหนึ่งของวลีนำทางทั้งหมดที่พบในอินเทอร์เน็ตคิดเป็น 2,000 วลีที่ใช้บ่อยที่สุด

แน่นอนว่าเราใช้ประโยชน์จากสิ่งนี้และมอบวลีที่พบบ่อยที่สุดหลายพันวลีและคำแปลให้นักแปลของเราตรวจสอบเพื่อให้มั่นใจในคุณภาพอย่างแน่นอน

การจัดตำแหน่งภายนอก มีข้อกำหนดที่สำคัญอีกประการหนึ่งสำหรับนักแปลหน้าเว็บในเบราว์เซอร์ - ไม่ควรบิดเบือนมาร์กอัป เมื่อวางแท็ก HTML ไว้ด้านนอกหรือบนขอบเขตประโยค ก็จะไม่มีปัญหาเกิดขึ้น แต่ถ้าภายในประโยคมี เช่น สอง ขีดเส้นใต้คำแล้วในการแปลเราต้องการเห็น "สอง" ขีดเส้นใต้คำ". เหล่านั้น. จากการโอนจะต้องปฏิบัติตามเงื่อนไขสองประการ:

ส่วนที่ขีดเส้นใต้ในการแปลจะต้องสอดคล้องกับส่วนที่ขีดเส้นใต้ในข้อความต้นฉบับทุกประการ
ไม่ควรละเมิดความสอดคล้องของการแปลที่ขอบเขตของส่วนที่ขีดเส้นใต้

เพื่อให้บรรลุลักษณะการทำงานนี้ ขั้นแรกเราจะแปลข้อความตามปกติ จากนั้นใช้แบบจำลองการจัดตำแหน่งแบบคำต่อคำทางสถิติเพื่อกำหนดการจับคู่ระหว่างส่วนของต้นฉบับและข้อความที่แปล สิ่งนี้ช่วยให้เข้าใจถึงสิ่งที่ต้องเน้นอย่างชัดเจน (ในตัวเอียง จัดรูปแบบเป็นไฮเปอร์ลิงก์ ...)

ผู้สังเกตการณ์ทางแยก- โมเดลการแปลโครงข่ายประสาทเทียมอันทรงพลังที่เราฝึกมานั้นต้องการทรัพยากรการประมวลผลบนเซิร์ฟเวอร์ของเรา (ทั้ง CPU และ GPU) มากกว่าแบบจำลองทางสถิติรุ่นก่อนหน้าอย่างมาก ในเวลาเดียวกัน ผู้ใช้ไม่ได้อ่านหน้าต่างๆ จนจบเสมอไป ดังนั้นการส่งข้อความทั้งหมดของหน้าเว็บไปยังคลาวด์จึงดูเหมือนไม่จำเป็น เพื่อประหยัดทรัพยากรเซิร์ฟเวอร์และการรับส่งข้อมูลของผู้ใช้ เราได้สอนให้นักแปลใช้