ทำไมนักแปลไม่จำเป็นต้องกลัวโครงข่ายประสาทเทียมของ Google ปัญญาประดิษฐ์ในการแปลเครือข่ายประสาทเทียมของ Yandex.Browser

หมายเหตุนี้เป็นบทวิจารณ์ขนาดใหญ่เกี่ยวกับข่าวเกี่ยวกับ Google แปลภาษาที่เชื่อมโยงภาษารัสเซียกับการแปลด้วยการเรียนรู้เชิงลึก เมื่อมองแวบแรกทุกอย่างฟังดูเท่มาก อย่างไรก็ตาม ฉันจะอธิบายว่าทำไมคุณไม่ควรด่วนสรุปว่า “ไม่จำเป็นต้องใช้นักแปลอีกต่อไป”


เคล็ดลับก็คือว่าทุกวันนี้เทคโนโลยีสามารถเข้ามาแทนที่...ก็ไม่สามารถแทนที่ใครได้
นักแปลไม่ใช่คนที่รู้ภาษาต่างประเทศ เช่นเดียวกับช่างภาพไม่ใช่คนที่ซื้อ SLR สีดำตัวใหญ่ นี้ สภาพที่จำเป็นแต่ยังไม่เพียงพอ

นักแปลคือคนที่รู้ภาษาของตนเองเป็นอย่างดี เข้าใจภาษาของผู้อื่นเป็นอย่างดี และสามารถถ่ายทอดความหมายที่แตกต่างกันได้อย่างแม่นยำ

ทั้งสามเงื่อนไขมีความสำคัญ

จนถึงตอนนี้เรายังไม่เห็นภาคแรกด้วยซ้ำ (ในแง่ของ “รู้ภาษาของตัวเอง”) อย่างน้อยสำหรับชาวรัสเซียจนถึงตอนนี้ทุกอย่างแย่มาก นั่นเป็นอะไรบางอย่าง แต่การวางตำแหน่งของลูกน้ำนั้นถูกกำหนดให้เป็นอัลกอริธึมที่สมบูรณ์แบบ (Word ทำสิ่งนี้ในปี 1994 โดยให้ลิขสิทธิ์อัลกอริธึมจากท้องถิ่น) และสำหรับโครงข่ายประสาทเทียมของคลังข้อความของ UN ที่มีอยู่นั้น มันอยู่นอกเหนือหลังคา

สำหรับผู้ที่ไม่ทราบ เอกสารอย่างเป็นทางการของ UN ทั้งหมดจะออกในห้าภาษาของสมาชิกถาวรของคณะมนตรีความมั่นคง รวมถึงภาษารัสเซีย และนี่คือฐานข้อมูลที่ใหญ่ที่สุดของการแปลคุณภาพสูงมากของข้อความเดียวกันสำหรับห้าภาษานี้ ภาษา ต่างจากการแปล งานศิลปะโดยที่ "นักแปล Ostap สามารถถูกลงโทษได้" ฐานของสหประชาชาติมีความโดดเด่นด้วยการถ่ายทอดความหมายที่ละเอียดอ่อนที่สุดและการโต้ตอบที่สมบูรณ์แบบที่สุด มาตรฐานวรรณกรรม.

ข้อเท็จจริงนี้บวกกับความเป็นอิสระอย่างแท้จริง ทำให้เป็นชุดข้อความ (คลังข้อมูล) ในอุดมคติสำหรับการฝึกอบรมนักแปลปลอม แม้ว่าจะครอบคลุมเฉพาะชุดย่อยของภาษาที่เป็นทางการและเป็นระบบราชการเท่านั้น


กลับไปที่นักแปลแกะของเรา ตามกฎหมายของ Pareto นักแปลมืออาชีพ 80% ไม่ดี คนเหล่านี้คือผู้ที่สำเร็จการศึกษาหลักสูตรภาษาต่างประเทศหรือที่ดีที่สุดคือสถาบันการสอนระดับภูมิภาคบางแห่งที่เชี่ยวชาญด้าน “ครูสอนภาษาต่างประเทศของโรงเรียนประถมศึกษาในชนบท” และพวกเขาไม่มีความรู้อื่นเลย ไม่เช่นนั้นพวกเขาคงไม่ได้นั่งอยู่ในตำแหน่งงานที่มีรายได้ต่ำที่สุดงานใดงานหนึ่ง

คุณรู้ไหมว่าพวกเขาทำเงินได้อย่างไร? ไม่ ไม่ใช่งานแปล ตามกฎแล้ว ลูกค้าของการแปลเหล่านี้จะเข้าใจข้อความในภาษาต่างประเทศได้ดีกว่าผู้แปล

ปฏิบัติตามข้อกำหนดของกฎหมายและ/หรือประเพณีท้องถิ่น

เราจำเป็นต้องมีคำแนะนำผลิตภัณฑ์เป็นภาษารัสเซีย ดังนั้นผู้นำเข้าจึงพบบุคคลที่รู้ภาษา "นำเข้า" เพียงเล็กน้อยและเขาแปลคำแนะนำเหล่านี้ บุคคลนี้ไม่รู้จักผลิตภัณฑ์ ไม่มีความรู้ในด้านนี้ เขามี "C-ลบ" ในภาษารัสเซีย แต่เขาแปล ผลลัพธ์เป็นที่รู้จักของทุกคน

จะแย่ยิ่งกว่านั้นถ้าเขาแปลว่า “เป็น” ด้านหลัง", เช่น. เป็นภาษาต่างประเทศ (สวัสดีชาวจีน) จากนั้นงานของเขาก็น่าจะตกอยู่ใน "การแบน" ของ Exler หรืออะนาล็อกในท้องถิ่นของพวกเขา

หรือนี่เป็นกรณีที่ยากกว่าสำหรับคุณ เมื่อติดต่อกับทางราชการ เจ้าหน้าที่ที่มีเอกสารต่างประเทศจะต้องส่งคำแปลเอกสารเหล่านี้ ยิ่งไปกว่านั้น การแปลไม่ควรมาจากลุงวาสยา แต่มาจากสำนักงานที่ได้รับความเคารพนับถือตามกฎหมาย โดยมีตราประทับ "เปียก" เป็นต้น บอกฉันทีว่าการ "แปล" ใบขับขี่หรือสูติบัตรนั้นยากแค่ไหน? ทุกช่องมีการกำหนดมาตรฐานและมีหมายเลขกำกับ ในกรณีที่เลวร้ายที่สุด “นักแปล” จำเป็นต้องถอดเสียงชื่อที่เหมาะสมจากตัวอักษรหนึ่งไปยังอีกตัวอักษรหนึ่ง แต่ไม่ "ลุงวาสยา" กำลังพักผ่อนและบ่อยกว่านั้นไม่ได้ขอบคุณแม้แต่กฎหมาย แต่เพียงตามคำสั่งภายในของผู้บังคับบัญชาระบบราชการในท้องถิ่น

โปรดทราบว่า 80% ของบริษัทแปลมีเจ้าหน้าที่รับรองเอกสาร เดาด้วย สามครั้ง, ทำไม?

นักแปลเหล่านี้จะได้รับผลกระทบอย่างไรจากการมีการแปลด้วยคอมพิวเตอร์ที่ดี? ไม่มีทาง. นั่นคือ หวังว่าคุณภาพการแปลของพวกเขาจะยังคงดีขึ้นในบางแง่มุมเล็กๆ น้อยๆ ที่มีบางสิ่งที่จะแปล แค่นั้นแหละ. เวลางานที่นี่จะไม่ลดลงอย่างมีนัยสำคัญ เนื่องจากส่วนใหญ่ยังคงคัดลอกข้อความจากคอลัมน์หนึ่งไปอีกคอลัมน์หนึ่ง “ชีสนี้มีโปรตีนมากมาย คาร์โบไฮเดรตมากมาย…” รูปแบบประจำชาติ ประเทศต่างๆต่างออกไปก็จะมีงานให้พวกเขาไม่น้อย โดยเฉพาะถ้าคุณไม่พยายาม

ข้อสรุประหว่างกาล: ไม่มีอะไรเปลี่ยนแปลงสำหรับ 80% ล่างสุด พวกเขาหาเงินได้แล้วไม่ใช่เพราะพวกเขาเป็นนักแปล แต่เพราะพวกเขาเป็นข้าราชการระดับล่างสุด

ทีนี้ ลองดูที่ส่วนตรงข้ามของสเปกตรัม เอาล่ะ ให้เป็น 3% บนสุด

ผู้ที่รับผิดชอบมากที่สุดแม้ว่าจะไม่ใช่ 1% ที่ซับซ้อนทางเทคนิคมากที่สุด: การแปลพร้อมกัน สำคัญมากการเจรจาต่อรอง โดยปกติแล้วจะเป็นระหว่างบริษัทขนาดใหญ่ แต่อยู่ในขอบเขตจำกัด - ที่ UN หรือบริษัทชั้นนำที่คล้ายกัน ข้อผิดพลาดประการหนึ่งของนักแปลเมื่อสื่อความหมายไม่ได้ - อารมณ์อาจนำไปสู่สงครามนิวเคลียร์ในกรณีที่เลวร้ายที่สุด ในขณะเดียวกัน อย่างที่คุณเข้าใจ สีทางอารมณ์ของแม้แต่วลีที่ตรงกันก็ตาม ภาษาที่แตกต่างกันอาจแตกต่างกันมาก เหล่านั้น. นักแปลจะต้องรู้บริบททางวัฒนธรรมของภาษาที่ทำงานของเขาเป็นอย่างดี ตัวอย่างซ้ำซากคือคำว่า "นิโกร" และ "ปิดการใช้งาน" พวกเขาเกือบจะเป็นกลางในภาษารัสเซียและมีอารมณ์สดใสจนถึงจุดอนาจารในภาษาอังกฤษสมัยใหม่

นักแปลดังกล่าวไม่จำเป็นต้องกลัว AI เพราะไม่มีใครมอบความรับผิดชอบดังกล่าวให้กับเครื่องจักรได้

1% ถัดมาเป็นนักแปลวรรณกรรม ตัวอย่างเช่น ฉันมีทั้งชั้นวางที่รวบรวมต้นฉบับภาษาอังกฤษต้นฉบับของ Conan Doyle, Lewis Carroll, Hugh Laurie ที่รวบรวมไว้อย่างระมัดระวัง โดยไม่มีการดัดแปลงหรือพิมพ์ซ้ำในท้องถิ่นของเรา การอ่านหนังสือเหล่านี้ดีต่อการพัฒนา พจนานุกรมคุณรู้ไหม นอกเหนือจากความพึงพอใจด้านสุนทรียภาพอันยิ่งใหญ่แล้ว ฉันซึ่งเป็นนักแปลที่ผ่านการรับรองสามารถเล่าประโยคจากหนังสือเหล่านี้ให้ใกล้เคียงกับข้อความได้มาก แต่รับแปลมั้ย? น่าเสียดายที่ไม่มี

ฉันไม่ได้พูดถึงการแปลบทกวีด้วยซ้ำ

สุดท้าย สิ่งที่ยากที่สุดในทางเทคนิค (สำหรับโครงข่ายประสาทเทียม โดยทั่วไปเป็นไปไม่ได้) 1% คือการแปลทางวิทยาศาสตร์และทางเทคนิค โดยปกติ หากบางทีมในบางประเทศเป็นผู้นำในสาขาของตน พวกเขาจะตั้งชื่อการค้นพบและสิ่งประดิษฐ์ในภาษาของตน อาจกลายเป็นว่าในประเทศอื่นมีทีมอื่นคิดค้น/ค้นพบสิ่งเดียวกันอย่างอิสระ นี่คือวิธีที่กฎหมาย Boyle-Mariotte, Mendeleev-Poisson และข้อพิพาทในหัวข้อของ Popov / Marconi, Mozhaisky / Wright Brothers / Santos-Dumont ปรากฏขึ้น

แต่ถ้าทีมต่างประเทศ "ก้าวไปข้างหน้าโดยสิ้นเชิง" นักวิทยาศาสตร์ "ไล่ตาม" ก็มีทางเลือกสองทางในแง่ภาษา: การติดตามหรือการแปล

แน่นอนว่าการคัดลอกชื่อของเทคโนโลยีใหม่นั้นง่ายกว่า นี่คือลักษณะที่ปรากฏเป็นภาษารัสเซีย พีชคณิต, ยาและ คอมพิวเตอร์, ในฝรั่งเศส - ร้านอาหารขนาดเล็ก, แดช่าและ วอดก้า- เป็นภาษาอังกฤษ - ดาวเทียม, โทคามัคและ เปเรสทรอยก้า.

แต่บางครั้งก็ยังแปลอยู่ เสียงมนุษยธรรมในหัวของฉันกำลังเร่งรีบอย่างรุนแรง ทาชโซตาเพื่อแสดงถึงข้อโต้แย้งของการแปลงฟูริเยร์จากการแปลงฟูริเยร์เป็นคำแปล ความถี่- นอกเหนือจากเรื่องตลกแล้ว Google ไม่มีข้อกำหนดดังกล่าว แต่ฉันมีตำราเรียนเกี่ยวกับการประมวลผลสัญญาณดิจิทัลที่ได้รับการอนุมัติและอุทิศโดยกระทรวงศึกษาธิการ ซึ่งมีข้อกำหนดเหล่านี้อยู่

ใช่แล้ว การวิเคราะห์เซลล์สัมผัสเป็นวิธีเดียว (ที่ฉันรู้จัก) ที่จะแยกแยะได้ เสียงผู้ชายจากเพศหญิง ตัวเลือก?

สิ่งที่ฉันได้รับคือคนเหล่านี้ไม่มีอะไรต้องกลัว เพราะพวกเขาสร้างภาษาขึ้นมาเอง แนะนำคำศัพท์และคำศัพท์ใหม่ๆ ให้กับภาษานั้น โครงข่ายประสาทเทียมเพียงเรียนรู้จากการตัดสินใจของพวกเขา โดยไม่ลืมความจริงที่ว่านักวิทยาศาสตร์และวิศวกรเหล่านี้ไม่ได้สร้างรายได้จากการแปล

และในที่สุดก็, " ชนชั้นกลาง", ดี นักแปลมืออาชีพแต่ไม่ใช่ท็อปส์ซู ในอีกด้านหนึ่งพวกเขายังคงได้รับการคุ้มครองโดยระบบราชการ - พวกเขาแปลตัวอย่างเช่นคำแนะนำ แต่ไม่ใช่สำหรับผลิตภัณฑ์เสริมอาหารชีวจิต แต่สำหรับยาหรือเครื่องจักรตามปกติ ในทางกลับกัน ในปัจจุบันคนเหล่านี้เป็นคนทำงานยุคใหม่ที่มีระบบแรงงานอัตโนมัติสูง งานของพวกเขาเริ่มต้นด้วยการรวบรวมคำศัพท์ "พจนานุกรม" เพื่อให้การแปลมีความสม่ำเสมอ จากนั้นโดยพื้นฐานแล้วประกอบด้วยการแก้ไขข้อความในซอฟต์แวร์พิเศษเช่น trados โครงข่ายประสาทเทียมจะลดจำนวนการแก้ไขที่จำเป็นและเพิ่มผลิตภาพแรงงาน แต่จะไม่เปลี่ยนแปลงสิ่งใดโดยพื้นฐาน

โดยสรุปข่าวลือเกี่ยวกับการเสียชีวิตที่ใกล้จะเกิดขึ้นของอาชีพนักแปลธรรมดานั้นเกินจริงเล็กน้อย ในทุกระดับการทำงานจะเร็วขึ้นเล็กน้อยและการแข่งขันจะเพิ่มขึ้นเล็กน้อย แต่ก็ไม่มีอะไรผิดปกติ

แต่ใครจะได้คือนักแปลและนักข่าว เมื่อ 10 ปีที่แล้ว พวกเขาสามารถอ้างถึงบทความภาษาอังกฤษที่พวกเขาไม่เข้าใจอะไรเลยได้อย่างง่ายดาย และเขียนเรื่องไร้สาระโดยสิ้นเชิง วันนี้พวกเขาก็พยายามเช่นกัน แต่ผู้อ่านที่รู้ภาษาอังกฤษจิ้มพวกเขาซ้ำแล้วซ้ำเล่า... คุณคงเข้าใจ

โดยทั่วไปแล้วเวลาของพวกเขาผ่านไปแล้ว ด้วยเครื่องแปลสากลระดับกลาง แม้ว่าจะดูงุ่มง่ามนิดหน่อย แต่ก็ชอบ "นักข่าว"

Yandex.Translator ได้เรียนรู้ที่จะผูกมิตรกับโครงข่ายประสาทเทียมและมอบข้อความคุณภาพสูงให้กับผู้ใช้ ยานเดกซ์เริ่มใช้ระบบการแปลแบบไฮบริด: ในตอนแรกระบบทางสถิติใช้งานได้และตอนนี้ก็เสริมด้วยเทคโนโลยี การเรียนรู้ของเครื่องแคทบูสท์ จริงอยู่มีสิ่งหนึ่ง จนถึงตอนนี้สำหรับการแปลจากภาษาอังกฤษเป็นภาษารัสเซียเท่านั้น

ยานเดกซ์อ้างว่านี่เป็นแนวทางการแปลที่ได้รับความนิยมมากที่สุด โดยคิดเป็น 80% ของทั้งหมด

CatBoost เป็นสิ่งที่ชาญฉลาดเมื่อได้รับเวอร์ชันแปลสองเวอร์ชันแล้วเปรียบเทียบโดยเลือกเวอร์ชันที่มีลักษณะคล้ายมนุษย์มากที่สุด

ในเวอร์ชันทางสถิติ การแปลมักจะแบ่งออกเป็นวลีและคำแต่ละคำ Neuroness ไม่ได้ทำเช่นนี้ ฉันวิเคราะห์ประโยคโดยรวมโดยคำนึงถึงบริบทหากเป็นไปได้ ดังนั้นจึงคล้ายกับการแปลโดยมนุษย์มาก เนื่องจากโครงข่ายประสาทเทียมสามารถคำนึงถึงข้อตกลงของคำด้วย อย่างไรก็ตาม วิธีการทางสถิติก็มีข้อดีเช่นกัน เมื่อไม่ได้เพ้อฝันหากเห็นสิ่งที่หายากหรือ คำที่ไม่รู้จัก- โครงข่ายประสาทเทียมอาจพยายามสร้างสรรค์

หลังจากประกาศในวันนี้ จำนวนข้อผิดพลาดทางไวยากรณ์ในการแปลอัตโนมัติควรลดลง ตอนนี้พวกเขาผ่านโมเดลภาษาแล้ว ตอนนี้คุณไม่ควรเจอช่วงเวลาเช่น "พ่อจากไป" หรือ "ความเจ็บปวดสาหัส"

ในเวอร์ชั่นเว็บค่ะ ช่วงเวลานี้ผู้ใช้สามารถเลือกเวอร์ชันการแปลที่ดูถูกต้องและประสบความสำเร็จมากที่สุดสำหรับพวกเขา มีทริกเกอร์แยกต่างหากสำหรับสิ่งนี้

หากคุณสนใจข่าวสารจากโลกไอทีเช่นเดียวกับเรา สมัครรับข้อมูลช่อง Telegram ของเรา วัตถุดิบทั้งหมดจะปรากฏที่นั่นโดยเร็วที่สุด หรืออาจจะสะดวกกว่าสำหรับคุณ? เรายังอยู่ใน.

คุณชอบบทความนี้หรือไม่?

หรืออย่างน้อยก็แสดงความคิดเห็นอย่างมีความสุขเพื่อที่เราจะได้รู้ว่าหัวข้อใดน่าสนใจสำหรับผู้อ่านมากที่สุด นอกจากนี้ยังเป็นแรงบันดาลใจให้เรา แบบฟอร์มความคิดเห็นอยู่ด้านล่าง

มีอะไรผิดปกติกับเธอ? สามารถแสดงความไม่พอใจได้ที่ [ป้องกันอีเมล]- เราจะพยายามคำนึงถึงความปรารถนาของคุณในอนาคตเพื่อปรับปรุงคุณภาพของเนื้อหาของไซต์ ตอนนี้เรามาใช้จ่ายกัน งานการศึกษากับผู้เขียน

หรือปริมาณพัฒนาไปสู่คุณภาพหรือไม่?

บทความจากสุนทรพจน์ในการประชุม RIF+KIB 2017

การแปลด้วยเครื่องประสาท: ทำไมตอนนี้เท่านั้น?

พวกเขาพูดคุยเกี่ยวกับโครงข่ายประสาทเทียมมาเป็นเวลานานและดูเหมือนว่าจะเป็นเช่นนั้น ปัญหาคลาสสิกปัญญาประดิษฐ์ - การแปลด้วยเครื่อง - เป็นเพียงการขอร้องให้แก้ไขบนพื้นฐานของเทคโนโลยีนี้

อย่างไรก็ตาม ต่อไปนี้เป็นพลวัตของความนิยมในการค้นหาข้อความค้นหาเกี่ยวกับโครงข่ายประสาทเทียมโดยทั่วไป และเกี่ยวกับการแปลด้วยเครื่องประสาทโดยเฉพาะ:

เห็นได้อย่างชัดเจนว่าจนกระทั่งเมื่อไม่นานมานี้ ยังไม่มีอะไรอยู่ในเรดาร์เกี่ยวกับการแปลด้วยเครื่องนิวรัล และ ณ สิ้นปี 2559 บริษัทหลายแห่งได้สาธิตเทคโนโลยีใหม่และระบบการแปลด้วยเครื่องโดยใช้โครงข่ายประสาทเทียม รวมถึง Google, Microsoft และ SYSTRAN ปรากฏเกือบจะพร้อมกัน ห่างกันหลายสัปดาห์หรือหลายวันด้วยซ้ำ ทำไมเป็นอย่างนั้น?

เพื่อตอบคำถามนี้ จำเป็นต้องเข้าใจว่าการแปลด้วยเครื่องตามโครงข่ายประสาทเทียมคืออะไร และอะไรคือความแตกต่างที่สำคัญจากระบบสถิติแบบคลาสสิกหรือ ระบบวิเคราะห์ซึ่งใช้ในปัจจุบันสำหรับการแปลด้วยเครื่อง

ตัวแปลระบบประสาทจะขึ้นอยู่กับกลไกของโครงข่ายประสาทที่เกิดซ้ำแบบสองทิศทาง (โครงข่ายประสาทเทียมที่เกิดซ้ำแบบสองทิศทาง) ซึ่งสร้างขึ้นจากการคำนวณเมทริกซ์ ซึ่งช่วยให้คุณสามารถสร้างแบบจำลองความน่าจะเป็นที่ซับซ้อนมากขึ้นได้อย่างมีนัยสำคัญมากกว่าเครื่องแปลทางสถิติ


เช่นเดียวกับการแปลทางสถิติ การแปลประสาทต้องใช้คลังข้อมูลแบบขนานสำหรับการฝึกอบรม ทำให้คุณสามารถเปรียบเทียบการแปลอัตโนมัติกับการแปลแบบ "มนุษย์" มาตรฐานได้ เฉพาะในกระบวนการเรียนรู้เท่านั้นที่จะดำเนินการไม่ใช่กับแต่ละวลีและวลี แต่ใช้กับทั้งประโยค ปัญหาหลักคือการฝึกอบรมระบบดังกล่าวต้องใช้พลังการประมวลผลเพิ่มขึ้นอย่างมาก

เพื่อเร่งกระบวนการให้เร็วขึ้น นักพัฒนาใช้ GPU จาก NVIDIA รวมถึงหน่วยประมวลผล Tensor (TPU) ของ Google ซึ่งเป็นชิปที่เป็นกรรมสิทธิ์ซึ่งดัดแปลงมาสำหรับเทคโนโลยีการเรียนรู้ของเครื่องโดยเฉพาะ ชิปกราฟิกได้รับการปรับให้เหมาะสมในตอนแรกสำหรับอัลกอริธึมการคำนวณเมทริกซ์ ดังนั้นประสิทธิภาพที่เพิ่มขึ้นจึงอยู่ที่ 7-15 เท่าเมื่อเทียบกับ CPU

อย่างไรก็ตาม การฝึกแบบจำลองประสาทเดี่ยวจะใช้เวลา 1 ถึง 3 สัปดาห์ ในขณะที่แบบจำลองทางสถิติที่มีขนาดเท่ากันจะใช้เวลาในการฝึก 1 ถึง 3 วัน และความแตกต่างนี้จะเพิ่มขึ้นเมื่อขนาดเพิ่มขึ้น

อย่างไรก็ตามไม่เพียงเท่านั้น ปัญหาทางเทคโนโลยีเป็นตัวขัดขวางการพัฒนาโครงข่ายประสาทเทียมในบริบทของงานแปลด้วยเครื่อง ในท้ายที่สุด เป็นไปได้ที่จะฝึกโมเดลภาษาตั้งแต่เนิ่นๆ แม้ว่าจะช้ากว่า แต่ก็ไม่มีอุปสรรคพื้นฐานใดๆ

แฟชั่นสำหรับโครงข่ายประสาทเทียมก็มีบทบาทเช่นกัน หลายคนกำลังพัฒนาภายใน แต่พวกเขาก็ไม่รีบร้อนที่จะประกาศ เพราะกลัวว่าบางทีพวกเขาจะไม่ได้รับการเพิ่มขึ้นในคุณภาพที่สังคมคาดหวังจากวลี Neural Networks นี่อาจอธิบายความจริงที่ว่ามีการประกาศนักแปลประสาทหลายคนทีละคน

คุณภาพการแปล: คะแนน BLEU ของใครหนากว่ากัน?

ลองทำความเข้าใจว่าคุณภาพการแปลที่เพิ่มขึ้นนั้นสอดคล้องกับความคาดหวังสะสมและต้นทุนที่เพิ่มขึ้นที่มาพร้อมกับการพัฒนาและการสนับสนุนโครงข่ายประสาทเทียมสำหรับการแปลหรือไม่
Google ในการวิจัยแสดงให้เห็นว่าการแปลด้วยเครื่องประสาทให้การปรับปรุงสัมพัทธ์จาก 58% เป็น 87% ขึ้นอยู่กับคู่ภาษา เมื่อเปรียบเทียบกับวิธีการทางสถิติแบบคลาสสิก (หรือการแปลด้วยเครื่องแบบวลี หรือ PBMT หรือที่เรียกอีกอย่างว่า)


SYSTRAN ดำเนินการศึกษาซึ่งมีการประเมินคุณภาพการแปลโดยเลือกจากตัวเลือกที่นำเสนอหลายตัวเลือก ระบบต่างๆเช่นเดียวกับการแปล "มนุษย์" และเขากล่าวว่าการแปลระบบประสาทของเขาเป็นที่ต้องการมากกว่าการแปลโดยมนุษย์ใน 46% ของกรณี

คุณภาพการแปล: มีความก้าวหน้าหรือไม่?

แม้ว่า Google จะอ้างว่ามีการปรับปรุง 60% ขึ้นไป แต่ก็มีตัวเลขที่จับได้เล็กน้อย ตัวแทนของบริษัทพูดคุยเกี่ยวกับ "การปรับปรุงสัมพัทธ์" นั่นคือพวกเขาจัดการกับคุณภาพของการแปลโดยมนุษย์ได้ใกล้เคียงเพียงใดโดยสัมพันธ์กับสิ่งที่อยู่ในเครื่องมือแปลทางสถิติแบบคลาสสิก


ผู้เชี่ยวชาญในอุตสาหกรรมที่วิเคราะห์ผลลัพธ์ที่นำเสนอโดย Google ในบทความ “ระบบการแปลด้วยเครื่องประสาทของ Google: การเชื่อมโยงช่องว่างระหว่างการแปลของมนุษย์และด้วยเครื่อง” ค่อนข้างไม่มั่นใจเกี่ยวกับผลลัพธ์ที่นำเสนอ และกล่าวว่าในความเป็นจริงแล้ว คะแนน BLEU ได้รับการปรับปรุงเพียง 10% เท่านั้น และ ความก้าวหน้าที่สำคัญสามารถสังเกตได้ชัดเจนเมื่อใด การทดสอบง่ายๆจากวิกิพีเดียซึ่งมีแนวโน้มมากที่สุดที่จะใช้ในกระบวนการฝึกอบรมเครือข่าย

ภายใน PROMT เราเปรียบเทียบการแปลในข้อความต่างๆ ของระบบของเรากับคู่แข่งเป็นประจำ ดังนั้นเราจึงมีตัวอย่างอยู่เสมอซึ่งเราสามารถตรวจสอบได้ว่าการแปลแบบระบบประสาทนั้นเหนือกว่ารุ่นก่อนๆ ตามที่ผู้ผลิตอ้างหรือไม่

ข้อความต้นฉบับ (EN): ความกังวลไม่เคยให้ผลดีกับใครเลย
Google Translation PBMT: ไม่ได้ทำอะไรดีกับใครโดยไม่ต้องกังวล
Google Translation NMT: ความกังวลไม่เคยช่วยใครเลย

อย่างไรก็ตาม การแปลวลีเดียวกันบน Translate.Ru: "ความกังวลไม่เคยสร้างประโยชน์ให้ใครเลย" คุณจะเห็นว่ามันเป็นและยังคงเหมือนเดิมโดยไม่ต้องใช้โครงข่ายประสาทเทียม

Microsoft Translator ก็ไม่ได้ล้าหลังในเรื่องนี้มากนัก พวกเขาต่างจากเพื่อนร่วมงานจาก Google ตรงที่พวกเขาสร้างเว็บไซต์ที่คุณสามารถแปลและเปรียบเทียบผลลัพธ์สองรายการ ได้แก่ นิวรัลและพรีนิวรัล เพื่อให้แน่ใจว่าข้อความเกี่ยวกับการเติบโตของคุณภาพนั้นไม่มีมูลความจริง


ในตัวอย่างนี้เราจะเห็นว่ามีความก้าวหน้าและเห็นได้ชัดเจนจริงๆ เมื่อมองแวบแรก ดูเหมือนว่าคำกล่าวของนักพัฒนาที่ว่าการแปลด้วยเครื่องเกือบจะทันการแปลโดยมนุษย์นั้นเป็นเรื่องจริง แต่นี่เป็นเช่นนั้นจริงๆ และสิ่งนี้หมายความว่าอย่างไรจากมุมมอง การประยุกต์ใช้จริงเทคโนโลยีเพื่อธุรกิจ?

โดยทั่วไป การแปลโดยใช้โครงข่ายประสาทเทียมนั้นเหนือกว่าการแปลเชิงสถิติ และเทคโนโลยีนี้มีศักยภาพมหาศาลในการพัฒนา แต่ถ้าเราพิจารณาปัญหาอย่างรอบคอบ เราจะเห็นว่าความก้าวหน้าไม่ได้อยู่ในทุกสิ่ง และไม่ใช่ว่างานทั้งหมดจะสามารถนำไปใช้กับโครงข่ายประสาทเทียมโดยไม่คำนึงถึงงานนั้น ๆ

การแปลด้วยเครื่อง: อะไรคือความท้าทาย?

ประวัติความเป็นมาของการดำรงอยู่ทั้งหมดจากนักแปลอัตโนมัติ - และนี่ก็เป็นเวลากว่า 60 ปีแล้ว! – พวกเขาคาดหวังถึงเวทมนตร์บางอย่าง โดยจินตนาการว่ามันเป็นเครื่องจักรจากภาพยนตร์นิยายวิทยาศาสตร์ที่จะเปลี่ยนคำพูดใดๆ ก็ตามให้กลายเป็นเสียงนกหวีดของมนุษย์ต่างดาวและกลับมาในทันที

จริงๆแล้วยังมีภารกิจอยู่ ระดับที่แตกต่างกันซึ่งหนึ่งในนั้นหมายถึงการแปลแบบ "สากล" หรือพูดง่ายๆ คือการแปล "ทุกวัน" สำหรับงานประจำวันและง่ายต่อการทำความเข้าใจ บริการแปลออนไลน์และผลิตภัณฑ์มือถือจำนวนมากรับมือกับงานในระดับนี้ได้ดี

งานดังกล่าวได้แก่:

การแปลคำศัพท์อย่างรวดเร็วและ ข้อความสั้น ๆเพื่อวัตถุประสงค์ต่างๆ
การแปลอัตโนมัติระหว่างการสื่อสารบนฟอรัมใน ในเครือข่ายโซเชียล, ผู้ส่งสาร;
การแปลอัตโนมัติเมื่ออ่านข่าว บทความ Wikipedia;
นักแปลการเดินทาง (มือถือ)

ตัวอย่างทั้งหมดของการเพิ่มคุณภาพการแปลโดยใช้โครงข่ายประสาทเทียมที่เรากล่าวถึงข้างต้นเกี่ยวข้องกับงานเหล่านี้อย่างแม่นยำ

อย่างไรก็ตาม เมื่อพูดถึงเป้าหมายทางธุรกิจและวัตถุประสงค์เกี่ยวกับการแปลด้วยคอมพิวเตอร์ สิ่งต่างๆ จะแตกต่างออกไปเล็กน้อย ตัวอย่างเช่น นี่คือข้อกำหนดบางประการสำหรับระบบการแปลด้วยเครื่องขององค์กร:

แปลจดหมายโต้ตอบทางธุรกิจกับลูกค้า คู่ค้า นักลงทุน พนักงานชาวต่างชาติ
การแปลเว็บไซต์ ร้านค้าออนไลน์ รายละเอียดสินค้า คำแนะนำ
การแปลเนื้อหาของผู้ใช้ (บทวิจารณ์ ฟอรั่ม บล็อก)
ความสามารถในการบูรณาการการแปลเข้ากับกระบวนการทางธุรกิจและผลิตภัณฑ์ซอฟต์แวร์และบริการ
ความถูกต้องของการแปลตามคำศัพท์เฉพาะทาง การรักษาความลับ และการรักษาความปลอดภัย

ลองทำความเข้าใจโดยใช้ตัวอย่างว่าปัญหาทางธุรกิจการแปลสามารถแก้ไขได้โดยใช้โครงข่ายประสาทเทียมหรือไม่และทำอย่างไร

กรณี: อะมาดิอุส

Amadeus คือหนึ่งในระบบจำหน่ายตั๋วเครื่องบินที่ใหญ่ที่สุดในโลก ในอีกด้านหนึ่ง สายการบินจะเชื่อมต่อกับหน่วยงานต่างๆ ที่ต้องรับข้อมูลทั้งหมดเกี่ยวกับการเปลี่ยนแปลงแบบเรียลไทม์และถ่ายทอดให้กับลูกค้าของตน

งานคือการแปลเงื่อนไขในการใช้ภาษี (กฎค่าโดยสาร) ซึ่งสร้างขึ้นโดยอัตโนมัติในระบบการจองจากแหล่งต่างๆ กฎเหล่านี้เขียนเป็นภาษาอังกฤษเสมอ การแปลด้วยตนเองเป็นไปไม่ได้ในทางปฏิบัติที่นี่เนื่องจากมีข้อมูลจำนวนมากและมีการเปลี่ยนแปลงบ่อยครั้ง ตัวแทนขายตั๋วสายการบินต้องการอ่านกฎค่าโดยสารเป็นภาษารัสเซียเพื่อให้คำแนะนำลูกค้าได้อย่างทันท่วงทีและมีประสิทธิภาพ

จำเป็นต้องมีการแปลที่ชัดเจนซึ่งสื่อความหมายของกฎภาษีโดยคำนึงถึงข้อกำหนดและตัวย่อทั่วไป และจำเป็นต้องรวมการแปลอัตโนมัติเข้ากับระบบการจองของ Amadeus โดยตรง

→ งานและการดำเนินโครงการมีการอธิบายรายละเอียดไว้ในเอกสาร

เรามาลองเปรียบเทียบการแปลที่ทำผ่าน PROMT Cloud API ซึ่งผสานรวมเข้ากับ Amadeus Fare Rules Translator และการแปล "neural" จาก Google

ต้นฉบับ: ค่าโดยสารไปกลับทันที

PROMT (แนวทางการวิเคราะห์): ราคาสำหรับการซื้อเที่ยวบินแบบไปกลับทันที

GNMT: การซื้อแบบกลม

เห็นได้ชัดว่านักแปลประสาทไม่สามารถรับมือได้ที่นี่และอีกเล็กน้อยก็จะชัดเจนว่าทำไม

กรณี: TripAdvisor

TripAdvisor เป็นหนึ่งในบริการด้านการท่องเที่ยวที่ใหญ่ที่สุดในโลกที่ไม่ต้องมีการแนะนำใดๆ จากบทความที่ตีพิมพ์โดย The Telegraph มีบทวิจารณ์ใหม่ 165,600 รายการเกี่ยวกับสถานที่ท่องเที่ยวต่างๆ ในภาษาต่างๆ ปรากฏบนเว็บไซต์ทุกวัน

ภารกิจคือการแปลรีวิวนักท่องเที่ยวจากภาษาอังกฤษเป็นภาษารัสเซียโดยมีคุณภาพการแปลเพียงพอที่จะเข้าใจความหมายของรีวิวนี้ ปัญหาหลัก: ลักษณะทั่วไปของเนื้อหาที่ผู้ใช้สร้างขึ้น (ข้อความที่มีข้อผิดพลาด การพิมพ์ผิด คำที่หายไป)

ส่วนหนึ่งของงานคือการประเมินคุณภาพการแปลโดยอัตโนมัติก่อนเผยแพร่บนเว็บไซต์ TripAdvisor เนื่องจากไม่สามารถประเมินเนื้อหาที่แปลทั้งหมดด้วยตนเองได้ โซลูชันการแปลด้วยคอมพิวเตอร์จึงต้องจัดให้มีกลไกอัตโนมัติสำหรับการประเมินคุณภาพของข้อความที่แปล ซึ่งเป็นคะแนนความเชื่อมั่น เพื่อให้ TripAdvisor สามารถเผยแพร่เฉพาะบทวิจารณ์ที่แปลแล้วเท่านั้น คุณภาพสูง.

สำหรับโซลูชันนี้ มีการใช้เทคโนโลยี PROMT DeepHybrid ซึ่งทำให้ได้งานแปลคุณภาพสูงขึ้นซึ่งผู้อ่านปลายทางสามารถเข้าใจได้ รวมถึงผ่านการแก้ไขหลังการแก้ไขทางสถิติของผลลัพธ์การแปล

ลองดูตัวอย่าง:

Translated: เรากินที่นั่นเมื่อคืนนี้ด้วยความตั้งใจ และมันก็เป็นมื้อที่น่ารัก การบริการก็เอาใจใส่โดยไม่ต้องแบกรับอะไรมากจนเกินไป

PROMT (การแปลแบบไฮบริด): เรากินที่นั่นเมื่อคืนนี้ด้วยความตั้งใจ และมันก็เป็นมื้อที่วิเศษมาก พนักงานให้ความเอาใจใส่โดยไม่เอาแต่ใจ

GNMT: เรากินที่นั่นเมื่อคืนนี้ด้วยความตั้งใจ และมันก็เป็นมื้อที่วิเศษมาก การบริการก็เอาใจใส่โดยไม่เอาแต่ใจ

ที่นี่ทุกอย่างไม่ได้น่าหดหู่ในแง่ของคุณภาพเหมือนในตัวอย่างก่อนหน้านี้ โดยทั่วไปแล้ว ในแง่ของพารามิเตอร์ ปัญหานี้สามารถแก้ไขได้โดยใช้โครงข่ายประสาทเทียม และอาจปรับปรุงคุณภาพการแปลให้ดียิ่งขึ้นไปอีก

ความท้าทายในการใช้ NMT สำหรับธุรกิจ

ตามที่กล่าวไว้ข้างต้น นักแปลแบบ "สากล" ไม่ได้ให้คุณภาพที่ยอมรับได้เสมอไป และไม่สามารถรองรับคำศัพท์เฉพาะได้ หากต้องการผสานรวมและใช้โครงข่ายประสาทเทียมสำหรับการแปลกระบวนการของคุณ คุณจะต้องปฏิบัติตามข้อกำหนดพื้นฐาน:

การมีข้อความคู่ขนานในปริมาณที่เพียงพอเพื่อให้สามารถฝึกโครงข่ายประสาทเทียมได้ บ่อยครั้งที่ลูกค้ามีเพียงไม่กี่ข้อความหรือไม่มีข้อความในหัวข้อนี้เลย สิ่งเหล่านี้อาจถูกจัดประเภทหรืออยู่ในสถานะไม่เหมาะมากสำหรับการประมวลผลอัตโนมัติ

ในการสร้างโมเดล คุณต้องมีฐานข้อมูลที่มีโทเค็นอย่างน้อย 100 ล้านโทเค็น (การใช้คำ) และเพื่อให้ได้คำแปลที่มีคุณภาพเป็นที่ยอมรับไม่มากก็น้อย - 500 ล้านโทเค็น ไม่ใช่ทุกบริษัทที่มีปริมาณวัสดุขนาดนี้

ความพร้อมใช้งานของกลไกหรืออัลกอริธึมสำหรับการประเมินคุณภาพของผลลัพธ์ที่ได้รับโดยอัตโนมัติ

พลังการคำนวณที่เพียงพอ
นักแปลระบบประสาทแบบ "สากล" มักไม่เหมาะกับคุณภาพ และเพื่อที่จะปรับใช้โครงข่ายประสาทเทียมส่วนตัวของคุณเองที่สามารถให้คุณภาพและความเร็วในการทำงานที่ยอมรับได้ จำเป็นต้องมี "คลาวด์ขนาดเล็ก"

ยังไม่ชัดเจนว่าจะทำอย่างไรกับความเป็นส่วนตัว
ลูกค้าบางรายไม่พร้อมที่จะมอบเนื้อหาของตนสำหรับการแปลไปยังระบบคลาวด์ด้วยเหตุผลด้านความปลอดภัย และ NMT ก็เป็นเรื่องราวที่เน้นระบบคลาวด์เป็นหลัก

ข้อสรุป

โดยทั่วไป การแปลอัตโนมัติด้วยประสาทเทียมจะให้ผลลัพธ์ที่มีคุณภาพสูงกว่าวิธีการทางสถิติที่ "ล้วนๆ"
การแปลอัตโนมัติผ่านโครงข่ายประสาทเทียมเหมาะกว่าสำหรับการแก้ปัญหา "การแปลสากล"
ไม่มีแนวทางใดใน MT เพียงอย่างเดียวที่จะเป็นเครื่องมือสากลในอุดมคติสำหรับการแก้ปัญหาการแปลใดๆ
เพื่อแก้ไขปัญหาการแปลธุรกิจ มีเพียงโซลูชันเฉพาะทางเท่านั้นที่สามารถรับประกันการปฏิบัติตามข้อกำหนดทั้งหมดได้

เรามาถึงการตัดสินใจที่ชัดเจนและสมเหตุสมผลอย่างยิ่งว่าสำหรับงานแปลของคุณคุณต้องใช้นักแปลที่เหมาะสมที่สุดสำหรับสิ่งนี้ มันไม่สำคัญว่าจะมีโครงข่ายประสาทเทียมอยู่ข้างในหรือไม่ การทำความเข้าใจงานนั้นสำคัญกว่า

แท็ก: เพิ่มแท็ก

ใน อินเทอร์เน็ตที่ทันสมัยมากกว่า 630 ล้านไซต์ แต่มีเพียง 6% เท่านั้นที่มีเนื้อหาภาษารัสเซีย อุปสรรคด้านภาษาปัญหาหลักการเผยแพร่ความรู้ระหว่างผู้ใช้เครือข่าย และเราเชื่อว่าสิ่งนี้จะต้องได้รับการแก้ไขไม่เพียงแต่โดยการสอนภาษาต่างประเทศเท่านั้น แต่ยังต้องใช้การแปลด้วยเครื่องอัตโนมัติในเบราว์เซอร์ด้วย

วันนี้เราจะบอกผู้อ่าน Habr เกี่ยวกับการเปลี่ยนแปลงทางเทคโนโลยีที่สำคัญสองประการในตัวแปล Yandex Browser ประการแรก การแปลคำและวลีที่ไฮไลต์ในขณะนี้ใช้โมเดลไฮบริด และเราจะเตือนคุณว่าวิธีการนี้แตกต่างจากการใช้โครงข่ายประสาทเทียมล้วนๆ อย่างไร ประการที่สอง โครงข่ายประสาทเทียมของนักแปลจะคำนึงถึงโครงสร้างของหน้าเว็บ ซึ่งเป็นคุณลักษณะที่เราจะพูดถึงด้านล่างส่วนตัดด้วย

โปรแกรมแปลคำและวลีแบบไฮบริด

ระบบการแปลด้วยเครื่องแรกนั้นมีพื้นฐานมาจาก พจนานุกรมและกฎเกณฑ์(โดยพื้นฐานแล้วเป็นอักขระปกติที่เขียนด้วยลายมือ) ซึ่งเป็นตัวกำหนดคุณภาพของการแปล นักภาษาศาสตร์มืออาชีพทำงานมาหลายปีเพื่อพัฒนากฎเกณฑ์แบบแมนนวลที่มีรายละเอียดมากขึ้น งานนี้กินเวลามากจนให้ความสนใจอย่างจริงจังกับคู่ภาษาที่ได้รับความนิยมมากที่สุดเท่านั้น แต่แม้แต่ภายในเครื่องจักรเหล่านี้ก็ยังทำงานได้ไม่ดีนัก ภาษาการใช้ชีวิตเป็นอย่างมาก ระบบที่ซับซ้อนซึ่งไม่ปฏิบัติตามกฎเกณฑ์อย่างดี การอธิบายกฎการติดต่อสื่อสารระหว่างสองภาษานั้นยากยิ่งขึ้นไปอีก

วิธีเดียวที่เครื่องจักรจะปรับตัวเข้ากับสภาวะที่เปลี่ยนแปลงอยู่ตลอดเวลาคือการเรียนรู้ด้วยตัวเองจากข้อความคู่ขนานจำนวนมาก (ความหมายเหมือนกัน แต่เขียนในภาษาต่างกัน) นี่เป็นวิธีการทางสถิติในการแปลด้วยเครื่อง คอมพิวเตอร์จะเปรียบเทียบข้อความคู่ขนานและระบุรูปแบบอย่างอิสระ

ยู นักแปลทางสถิติมีทั้งข้อดีและข้อเสีย ในด้านหนึ่ง เขาจำคำและวลีที่หายากและซับซ้อนได้ดี หากพบเป็นข้อความคู่ขนานนักแปลจะจดจำและแปลให้ถูกต้องต่อไป ในทางกลับกัน ผลลัพธ์ของการแปลอาจเป็นเหมือนปริศนาที่เสร็จสมบูรณ์ ภาพรวมดูชัดเจน แต่หากมองใกล้ ๆ จะเห็นว่าประกอบด้วยชิ้นส่วนที่แยกจากกัน เหตุผลก็คือผู้แปลใช้แทนคำแต่ละคำเป็นตัวระบุ ซึ่งไม่ได้สะท้อนถึงความสัมพันธ์ระหว่างคำเหล่านั้นแต่อย่างใด สิ่งนี้ไม่สอดคล้องกับวิธีที่ผู้คนสัมผัสภาษา ซึ่งคำต่างๆ ถูกกำหนดโดยวิธีใช้ วิธีที่เกี่ยวข้องและแตกต่างจากคำอื่นๆ

ช่วยแก้ปัญหานี้ โครงข่ายประสาทเทียม- การฝังคำ ซึ่งใช้ในการแปลด้วยเครื่องประสาท โดยทั่วไปจะเชื่อมโยงแต่ละคำกับเวกเตอร์ที่มีความยาวหลายร้อยตัวเลข เวกเตอร์ซึ่งแตกต่างจากตัวระบุอย่างง่ายจากวิธีการทางสถิตินั้นเกิดขึ้นเมื่อฝึกโครงข่ายประสาทเทียมและคำนึงถึงความสัมพันธ์ระหว่างคำต่างๆ ตัวอย่างเช่น แบบจำลองอาจรับรู้ว่าเนื่องจาก "ชา" และ "กาแฟ" มักปรากฏในบริบทที่คล้ายคลึงกัน ทั้งสองคำนี้จึงควรเป็นไปได้ในบริบทของคำว่า "หก" ใหม่ ซึ่งกล่าวได้ว่ามีเพียงคำเดียวเท่านั้นที่ปรากฏใน ข้อมูลการฝึกอบรม

อย่างไรก็ตาม กระบวนการเรียนรู้การแทนเวกเตอร์นั้นมีความต้องการทางสถิติมากกว่าการท่องจำตัวอย่าง นอกจากนี้ ยังไม่ชัดเจนว่าจะทำอย่างไรกับคำอินพุตที่หายากซึ่งไม่ได้เกิดขึ้นบ่อยเพียงพอสำหรับเครือข่ายในการสร้างการแสดงเวกเตอร์ที่ยอมรับได้ ในสถานการณ์เช่นนี้ มีเหตุผลที่จะรวมทั้งสองวิธีเข้าด้วยกัน

ตั้งแต่ปีที่แล้ว Yandex.Translator ได้ใช้งาน รุ่นไฮบริด- เมื่อนักแปลได้รับข้อความจากผู้ใช้ เขาจะมอบข้อความนั้นให้กับทั้งสองระบบสำหรับการแปล - โครงข่ายประสาทเทียมและนักแปลเชิงสถิติ อัลกอริธึมซึ่งอิงตามวิธีการเรียนรู้จะประเมินว่าการแปลแบบใดดีกว่า เมื่อให้คะแนน จะต้องคำนึงถึงปัจจัยหลายสิบประการ ตั้งแต่ความยาวของประโยค (แบบจำลองทางสถิติจะแปลวลีสั้นได้ดีกว่า) ไปจนถึงไวยากรณ์ คำแปลที่ได้รับการยอมรับว่าดีที่สุดจะแสดงให้ผู้ใช้เห็น

เป็นโมเดลไฮบริดที่ใช้ใน Yandex.Browser เมื่อผู้ใช้เลือกคำและวลีเฉพาะบนหน้าเว็บเพื่อทำการแปล

โหมดนี้สะดวกเป็นพิเศษสำหรับผู้ที่เป็นเจ้าของโดยทั่วไป ภาษาต่างประเทศและต้องการแปลเฉพาะคำที่ไม่รู้จักเท่านั้น แต่ตัวอย่างเช่น แทนที่จะเป็นภาษาอังกฤษทั่วไปที่คุณเจอภาษาจีน หากไม่มีนักแปลทีละหน้าก็จะเป็นเรื่องยาก ดูเหมือนว่าความแตกต่างอยู่ที่ปริมาณของข้อความที่แปลเท่านั้น แต่ไม่ใช่ทุกอย่างจะง่ายนัก

นักแปลโครงข่ายประสาทเทียมของหน้าเว็บ

ตั้งแต่สมัยทดลองที่จอร์จทาวน์จนถึงปัจจุบัน ระบบการแปลด้วยเครื่องทั้งหมดได้รับการฝึกอบรมให้แปลแต่ละประโยคของข้อความต้นฉบับแยกกัน แม้ว่าหน้าเว็บจะไม่ได้เป็นเพียงชุดประโยค แต่เป็นข้อความที่มีโครงสร้างซึ่งมีองค์ประกอบพื้นฐานที่แตกต่างกัน มาดูองค์ประกอบพื้นฐานของหน้าเว็บส่วนใหญ่กัน

หัวเรื่อง- โดยปกติแล้วข้อความสว่างและใหญ่ที่เราเห็นทันทีเมื่อเข้าสู่หน้า พาดหัวข่าวมักมีสาระสำคัญของข่าว ดังนั้นการแปลให้ถูกต้องจึงเป็นสิ่งสำคัญ แต่นี่เป็นเรื่องยากที่จะทำ เนื่องจากมีข้อความในชื่อเรื่องไม่เพียงพอ และหากไม่เข้าใจบริบท คุณก็อาจทำผิดพลาดได้ ในกรณีที่ ภาษาอังกฤษมันซับซ้อนยิ่งขึ้นเพราะชื่อภาษาอังกฤษมักจะมีวลีที่มีไวยากรณ์ที่แปลกใหม่ infinitives หรือแม้แต่คำกริยาหายไป ตัวอย่างเช่น, Game of Thrones พรีเควลประกาศแล้ว.

การนำทาง- คำและวลีที่ช่วยเราสำรวจไซต์ ตัวอย่างเช่น, บ้าน, กลับและ บัญชีของฉันการแปลเป็น "หน้าแรก", "ย้อนกลับ" และ "บัญชีของฉัน" แทบจะไม่คุ้มเลยหากอยู่ในเมนูไซต์และไม่ได้อยู่ในข้อความของสิ่งพิมพ์

ข้อความหลัก- ทุกอย่างง่ายขึ้นด้วย มันแตกต่างเล็กน้อยจากข้อความและประโยคธรรมดาที่เราพบในหนังสือ แต่ถึงแม้ที่นี่ สิ่งสำคัญคือต้องแน่ใจว่าการแปลมีความสอดคล้อง นั่นคือเพื่อให้แน่ใจว่าภายในหน้าเว็บเดียวกัน คำและแนวคิดเดียวกันจะได้รับการแปลในลักษณะเดียวกัน

สำหรับการแปลหน้าเว็บคุณภาพสูง การใช้โครงข่ายประสาทเทียมหรือโมเดลไฮบริดนั้นไม่เพียงพอ แต่ยังจำเป็นต้องคำนึงถึงโครงสร้างของหน้าเว็บด้วย และการทำเช่นนี้เราต้องจัดการกับปัญหาทางเทคโนโลยีมากมาย

การจำแนกประเภทของส่วนของข้อความ- ในการดำเนินการนี้ เราจะใช้ CatBoost และปัจจัยอีกครั้งโดยขึ้นอยู่กับทั้งข้อความและมาร์กอัป HTML ของเอกสาร (แท็ก, ขนาดข้อความ, จำนวนลิงก์ต่อหน่วยข้อความ, ... ) ปัจจัยค่อนข้างต่างกัน ซึ่งเป็นสาเหตุที่ CatBoost (อิงตามการเร่งการไล่ระดับสี) แสดงผลลัพธ์ที่ดีที่สุด (ความแม่นยำในการจำแนกประเภทสูงกว่า 95%) แต่การแบ่งกลุ่มเพียงอย่างเดียวนั้นไม่เพียงพอ

ข้อมูลบิดเบือน- ตามเนื้อผ้า อัลกอริธึมของ Yandex.Translator ได้รับการฝึกฝนเกี่ยวกับข้อความจากอินเทอร์เน็ต ดูเหมือนว่านี่เป็นทางออกที่ดีสำหรับการฝึกอบรมนักแปลหน้าเว็บ (หรืออีกนัยหนึ่งคือ เครือข่ายเรียนรู้จากข้อความที่มีลักษณะเดียวกันกับข้อความที่เราจะใช้) แต่เมื่อเราเรียนรู้ที่จะแยกส่วนต่างๆ ออกจากกัน เราก็ค้นพบ คุณสมบัติที่น่าสนใจ- โดยเฉลี่ยบนเว็บไซต์ เนื้อหากินพื้นที่ประมาณ 85% ของข้อความทั้งหมด โดยมีส่วนหัวและการนำทางคิดเป็นเพียง 7.5% โปรดจำไว้ว่าส่วนหัวและองค์ประกอบการนำทางนั้นมีสไตล์และไวยากรณ์แตกต่างอย่างเห็นได้ชัดจากส่วนที่เหลือของข้อความ ปัจจัยทั้งสองนี้รวมกันทำให้เกิดปัญหาข้อมูลบิดเบือน โครงข่ายประสาทเทียมจะทำกำไรได้มากกว่าหากเพิกเฉยต่อคุณสมบัติของส่วนเหล่านี้ซึ่งมีการนำเสนอได้ไม่ดีนักในชุดการฝึกอบรม เครือข่ายเรียนรู้ที่จะแปลเฉพาะข้อความหลักอย่างดี ซึ่งเป็นสาเหตุที่ทำให้คุณภาพของการแปลส่วนหัวและการนำทางลดลง เพื่อขจัดผลกระทบอันไม่พึงประสงค์นี้ เราได้ทำสองสิ่ง: ให้กับประโยคคู่ขนานแต่ละประโยคที่เรากำหนดไว้อย่างใดอย่างหนึ่ง สามประเภทเซ็กเมนต์ (เนื้อหา ชื่อ หรือการนำทาง) และเพิ่มความเข้มข้นของสองอันสุดท้ายในคลังข้อมูลการฝึกอบรมอย่างปลอมแปลงเป็น 33% เนื่องจากข้อเท็จจริงที่ว่าพวกเขาเริ่มแสดงตัวอย่างที่คล้ายกันในโครงข่ายประสาทเทียมการเรียนรู้บ่อยขึ้น

การเรียนรู้แบบหลายงาน- เนื่องจากขณะนี้เราสามารถแบ่งข้อความบนหน้าเว็บออกเป็นสามกลุ่มได้ จึงอาจดูเหมือนเป็นแนวคิดทั่วไปในการฝึกแบบจำลองสามแบบที่แยกจากกัน ซึ่งแต่ละแบบจำลองจะจัดการกับการแปลข้อความประเภทต่างๆ เช่น ส่วนหัว การนำทาง หรือเนื้อหา วิธีนี้ใช้ได้ผลดีจริงๆ แต่แบบแผนทำงานได้ดียิ่งขึ้นเมื่อเราฝึกโครงข่ายประสาทเทียมให้แปลข้อความทุกประเภทในคราวเดียว กุญแจสำคัญในการทำความเข้าใจอยู่ที่แนวคิดของการเรียนรู้แบบหลายงาน (MTL) หากมีการเชื่อมโยงภายในระหว่างงานการเรียนรู้ของเครื่องหลายๆ งาน โมเดลที่เรียนรู้ที่จะแก้ไขงานเหล่านี้ไปพร้อมๆ กันก็สามารถเรียนรู้ที่จะแก้ปัญหาแต่ละงานได้ดีขึ้น กว่ารุ่นเฉพาะทาง!

การปรับแต่งแบบละเอียด- เรามีการแปลด้วยเครื่องที่ค่อนข้างดีอยู่แล้ว ดังนั้นจึงไม่ฉลาดเลยที่จะฝึกอบรมนักแปลใหม่สำหรับ Yandex.Browser ตั้งแต่เริ่มต้น มันสมเหตุสมผลมากกว่าที่จะใช้ ระบบพื้นฐานเพื่อแปลข้อความปกติและฝึกเพิ่มเติมให้ทำงานกับหน้าเว็บได้ ในบริบทของโครงข่ายประสาทเทียม สิ่งนี้มักเรียกว่าการปรับอย่างละเอียด แต่ถ้าคุณเข้าใกล้ปัญหานี้โดยตรงนั่นคือ เพียงเริ่มต้นน้ำหนักของโครงข่ายประสาทเทียมด้วยค่าจากแบบจำลองที่เสร็จสมบูรณ์แล้วเริ่มเรียนรู้จากข้อมูลใหม่ จากนั้นคุณอาจพบกับผลกระทบของการเปลี่ยนโดเมน: เมื่อการฝึกอบรมดำเนินไป คุณภาพของการแปลหน้าเว็บ (ในโดเมน) จะ เพิ่มขึ้น แต่คุณภาพของการแปลข้อความปกติ (นอกโดเมน) ) จะลดลง เพื่อกำจัดคุณสมบัติที่ไม่พึงประสงค์นี้ ในระหว่างการฝึกอบรมเพิ่มเติม เราได้กำหนดข้อจำกัดเพิ่มเติมบนโครงข่ายประสาทเทียม โดยห้ามไม่ให้มีการเปลี่ยนแปลงน้ำหนักมากเกินไปเมื่อเทียบกับสถานะเริ่มต้น

ในทางคณิตศาสตร์ สิ่งนี้แสดงได้โดยการเพิ่มคำศัพท์ให้กับฟังก์ชันการสูญเสีย ซึ่งก็คือระยะทาง Kullback-Leibler (KL-divergence) ระหว่างการแจกแจงความน่าจะเป็นของการสร้างคำถัดไป ซึ่งออกโดยเครือข่ายดั้งเดิมและเครือข่ายที่ได้รับการฝึกอบรมเพิ่มเติม ดังที่เห็นในภาพประกอบสิ่งนี้นำไปสู่ความจริงที่ว่าการเพิ่มคุณภาพการแปลหน้าเว็บไม่ทำให้การแปลข้อความธรรมดาเสื่อมลงอีกต่อไป

ขัดวลีความถี่จากการนำทาง- ในขณะที่ทำงานกับนักแปลคนใหม่ เราได้รวบรวมสถิติเกี่ยวกับข้อความในส่วนต่างๆ ของหน้าเว็บ และเห็นสิ่งที่น่าสนใจ ข้อความที่เกี่ยวข้องกับองค์ประกอบการนำทางนั้นมีมาตรฐานค่อนข้างสูง ดังนั้นจึงมักประกอบด้วยวลีเทมเพลตเดียวกัน นี่เป็นเอฟเฟกต์ที่ทรงพลังมากจนมากกว่าครึ่งหนึ่งของวลีนำทางทั้งหมดที่พบในอินเทอร์เน็ตคิดเป็น 2,000 วลีที่ใช้บ่อยที่สุด

แน่นอนว่าเราใช้ประโยชน์จากสิ่งนี้และมอบวลีที่พบบ่อยที่สุดหลายพันวลีและคำแปลให้นักแปลของเราตรวจสอบเพื่อให้มั่นใจในคุณภาพอย่างแน่นอน

การจัดตำแหน่งภายนอก มีข้อกำหนดที่สำคัญอีกประการหนึ่งสำหรับนักแปลหน้าเว็บในเบราว์เซอร์ - ไม่ควรบิดเบือนมาร์กอัป เมื่อวางแท็ก HTML ไว้ด้านนอกหรือบนขอบเขตประโยค ก็จะไม่มีปัญหาเกิดขึ้น แต่ถ้าภายในประโยคมี เช่น สอง ขีดเส้นใต้คำแล้วในการแปลเราต้องการเห็น "สอง" ขีดเส้นใต้คำ". เหล่านั้น. จากการโอนจะต้องปฏิบัติตามเงื่อนไขสองประการ:

  1. ส่วนที่ขีดเส้นใต้ในการแปลจะต้องตรงกับส่วนที่ขีดเส้นใต้ในข้อความต้นฉบับทุกประการ
  2. ไม่ควรละเมิดความสอดคล้องของการแปลที่ขอบเขตของส่วนที่ขีดเส้นใต้
เพื่อให้บรรลุลักษณะการทำงานนี้ ขั้นแรกเราจะแปลข้อความตามปกติ จากนั้นใช้แบบจำลองการจัดตำแหน่งแบบคำต่อคำทางสถิติเพื่อกำหนดการจับคู่ระหว่างส่วนของต้นฉบับและข้อความที่แปล สิ่งนี้ช่วยให้เข้าใจถึงสิ่งที่ต้องเน้นอย่างชัดเจน (ในตัวเอียง จัดรูปแบบเป็นไฮเปอร์ลิงก์ ...)

ผู้สังเกตการณ์ทางแยก- โมเดลการแปลโครงข่ายประสาทเทียมอันทรงพลังที่เราฝึกมานั้นต้องการทรัพยากรการประมวลผลบนเซิร์ฟเวอร์ของเรา (ทั้ง CPU และ GPU) มากกว่าแบบจำลองทางสถิติรุ่นก่อนหน้าอย่างมาก ในเวลาเดียวกัน ผู้ใช้ไม่ได้อ่านหน้าต่างๆ จนจบเสมอไป ดังนั้นการส่งข้อความทั้งหมดของหน้าเว็บไปยังคลาวด์จึงดูเหมือนไม่จำเป็น เพื่อประหยัดทรัพยากรเซิร์ฟเวอร์และการรับส่งข้อมูลของผู้ใช้ เราได้สอนให้นักแปลใช้

มีเว็บไซต์มากกว่าครึ่งพันล้านสำเนาของเว็บไซต์ที่จัดทำดัชนีโดยเครื่องมือค้นหา และจำนวนหน้าเว็บทั้งหมดมากกว่าหมื่นเท่า เนื้อหาภาษารัสเซียกินพื้นที่ 6% ของอินเทอร์เน็ตทั้งหมด

แปลยังไง. ข้อความที่ต้องการอย่างรวดเร็วและในลักษณะที่รักษาความหมายที่ผู้เขียนตั้งใจไว้ไว้ วิธีการเก่าของโมดูลการแปลเนื้อหาทางสถิตินั้นทำงานได้อย่างน่าสงสัยมาก เพราะ... ไม่สามารถระบุความเสื่อมของคำ กาล ฯลฯ ได้อย่างแม่นยำ ธรรมชาติของคำและความเชื่อมโยงระหว่างคำเหล่านั้นมีความซับซ้อน ซึ่งเป็นเหตุผลว่าทำไมบางครั้งผลลัพธ์จึงดูไม่เป็นธรรมชาติมาก

ตอนนี้ยานเดกซ์ใช้การแปลด้วยเครื่องอัตโนมัติซึ่งจะปรับปรุงคุณภาพของข้อความที่ได้ ดาวน์โหลดล่าสุด รุ่นอย่างเป็นทางการเบราว์เซอร์ที่มีการแปลในตัวใหม่ที่คุณสามารถทำได้

การแปลวลีและคำแบบผสมผสาน

เบราว์เซอร์ Yandex เป็นเบราว์เซอร์เดียวที่สามารถแปลทั้งหน้ารวมถึงคำและวลีแยกกัน ฟังก์ชั่นนี้จะมีประโยชน์มากสำหรับผู้ใช้ที่พูดภาษาต่างประเทศไม่มากก็น้อย แต่บางครั้งก็ประสบปัญหาในการแปล

โครงข่ายประสาทเทียมที่สร้างไว้ในกลไกการแปลคำไม่สามารถรับมือกับงานที่ได้รับมอบหมายได้เสมอไปเพราะว่า คำที่หายากมันยากมากที่จะรวมเข้ากับข้อความและทำให้อ่านได้ ขณะนี้มีการสร้างวิธีการแบบไฮบริดในแอปพลิเคชันโดยใช้เทคโนโลยีเก่าและเทคโนโลยีใหม่

กลไกคือ: โปรแกรมยอมรับประโยคหรือคำที่เลือก จากนั้นมอบให้กับทั้งโมดูลโครงข่ายประสาทเทียมและตัวแปลทางสถิติ และอัลกอริธึมในตัวจะกำหนดว่าผลลัพธ์ใดดีกว่าแล้วมอบให้กับผู้ใช้

นักแปลโครงข่ายประสาทเทียม

เนื้อหาต่างประเทศมีรูปแบบเฉพาะเจาะจงมาก:

  • ตัวอักษรตัวแรกของคำในหัวข้อเขียนด้วยตัวพิมพ์ใหญ่
  • ประโยคสร้างด้วยไวยากรณ์แบบง่าย บางคำถูกตัดออกไป

เมนูการนำทางบนเว็บไซต์ได้รับการวิเคราะห์โดยคำนึงถึงตำแหน่ง เช่น คำว่า Back แปลอย่างถูกต้อง (ย้อนกลับ) ไม่ใช่ย้อนกลับ

เพื่อคำนึงถึงคุณสมบัติทั้งหมดที่กล่าวมาข้างต้น นักพัฒนาได้ฝึกฝนเพิ่มเติมเกี่ยวกับโครงข่ายประสาทเทียม ซึ่งใช้ข้อมูลข้อความจำนวนมากอยู่แล้ว ขณะนี้คุณภาพของการแปลได้รับผลกระทบจากตำแหน่งของเนื้อหาและการออกแบบ

ผลลัพธ์ของการแปลที่ใช้

คุณภาพของการแปลสามารถวัดได้โดยอัลกอริธึม BLEU* ซึ่งเปรียบเทียบการแปลด้วยคอมพิวเตอร์กับการแปลโดยมืออาชีพ ระดับคุณภาพตั้งแต่ 0 ถึง 100%

ยิ่งการแปลประสาทดีขึ้น เปอร์เซ็นต์ก็จะยิ่งสูงขึ้น ตามอัลกอริทึมนี้เบราว์เซอร์ Yandex เริ่มแปลได้ดีขึ้น 1.7 เท่า