Yandex Browser'da yapay zeka. Yandex, çeviriyi geliştirmek için Translator'da sinir ağlarını kullanmaya başladı Yandex çevirmen sinir ağı

Yandex.Translator, sinir ağıyla arkadaş olmayı ve kullanıcılara daha iyi metinler sağlamayı öğrendi. Yandex, hibrit bir çeviri sistemi kullanmaya başladı: başlangıçta istatistiksel bir sistem çalıştı ve şimdi teknoloji ile destekleniyor makine öğrenme CatBoost. Gerçek şu ki, bir şey var. Şimdiye kadar, sadece İngilizce'den Rusça'ya çeviri için.

Yandex, bunun toplamın% 80'ini oluşturan en popüler transfer yönü olduğunu iddia ediyor.

CatBoost, çevirinin iki versiyonunu aldıktan sonra onları karşılaştıran ve en insan benzeri olanı seçerek akıllıca bir şeydir.

İstatistiksel versiyonda, çeviri genellikle ayrı kelime öbeklerine ve kelimelere bölünmüştür. Neuroest bunu yapmaz, mümkün olduğunca bağlamı dikkate alarak teklifi bir bütün olarak analiz ederim. Bu nedenle, insan çevirisine çok benzer, çünkü sinir ağı kelimelerin uyumunu hesaba katabilir. Bununla birlikte, istatistiksel yaklaşımın, fantezi yapmadığında, nadir görülen veya anlaşılmaz kelime... bir sinir ağı, yaratıcılıkta bir girişim gösterebilir.

Bugünkü duyurudan sonra otomatik çevirilerdeki dil bilgisi hatalarının sayısını azaltması gerekiyor. Şimdi dil modelinden geçiyorlar. Şimdi "baba gitti" veya "şiddetli acı" ruhunda hiçbir an olmamalı.

içindeki web versiyonunda şu an kullanıcılar çevirinin en doğru ve başarılı olduğunu düşündükleri sürümü seçebilir, bunun için ayrı bir tetikleyici vardır.

Bilişim dünyasının haberleriyle bizim kadar ilgileniyorsanız Telegram kanalımıza abone olun. Orada tüm malzemeler mümkün olduğunca çabuk görünür. Ya da belki sizin için daha uygun? Hatta içeriz.

Makaleyi beğendin mi?

Veya en azından hangi konuların okuyucular için en ilginç olduğunu bilmemiz için mutlu bir yorum bırakın. Aynı zamanda bize ilham veriyor. Yorum formu aşağıdadır.

Onun nesi var? Öfkenizi şuradan ifade edebilirsiniz: [e-posta korumalı] Site malzemelerinin kalitesini artırmak için gelecekte isteklerinizi dikkate almaya çalışacağız. Şimdi harcayalım eğitim çalışması yazar ile.

ya da nicelik kaliteye mi dönüşüyor?

RIF + KIB 2017 konferansındaki konuşmaya dayalı bir makale.

Sinirsel Makine Çevirisi: Neden Hemen Şimdi?

Sinir ağları uzun süredir konuşuluyor ve görünüşe göre bunlardan biri klasik problemler yapay zeka- makine çevirisi - sadece bu teknoloji temelinde çözülmesi gerekiyor.

Bununla birlikte, genel olarak sinir ağları ve özel olarak sinirsel makine çevirisi hakkında sorguların aranmasında popülerliğin dinamikleri şunlardır:

Yakın zamana kadar radarlarda sinirsel makine çevirisi hakkında hiçbir şey olmadığı açıkça görülüyor - ve 2016'nın sonunda Google, Microsoft ve SYSTRAN dahil olmak üzere birçok şirket, sinir ağlarına dayalı yeni teknolojilerini ve makine çeviri sistemlerini sergiledi. Birkaç hafta hatta gün farkıyla neredeyse aynı anda ortaya çıktılar. Nedenmiş?

Bu soruyu cevaplamak için, sinir ağlarına dayalı makine çevirisinin ne olduğunu ve günümüzde makine çevirisi için kullanılan klasik istatistiksel sistemlerden veya analitik sistemlerden temel farkının ne olduğunu anlamak gerekir.

Sinir çevirmeninin kalbinde, istatistiksel makine çevirmenlerinden önemli ölçüde daha karmaşık olasılık modelleri oluşturmanıza izin veren, matris hesaplamaları üzerine kurulu çift yönlü yinelenen sinir ağlarının (İki Yönlü Yinelenen Sinir Ağları) mekanizması bulunur.


İstatistiksel çeviri gibi, sinirsel çeviri eğitim için paralel yapılar gerektirir, otomatik çeviriyi "insan" referansıyla karşılaştırmaya izin verir, yalnızca öğrenme sürecinde bireysel ifadeler ve ifadelerle değil, tüm cümlelerle çalışır. Asıl sorun, böyle bir sistemi eğitmek için çok daha fazla bilgi işlem gücünün gerekli olmasıdır.

Süreci hızlandırmak için geliştiriciler, NVIDIA'nın GPU'larının yanı sıra Google'ın Tensör İşleme Birimi'ni (TPU) - özellikle makine öğrenimi teknolojileri için uyarlanmış tescilli çipler - kullanır. Grafik yongaları başlangıçta matris hesaplama algoritmaları için optimize edilmiştir ve bu nedenle performans kazancı CPU'ya kıyasla 7-15 kat daha fazladır.

Yine de, bir nöral modelin eğitimi 1 ila 3 hafta alırken, yaklaşık olarak aynı büyüklükte bir istatistiksel model 1-3 gün içinde ayarlanır ve bu fark, boyutla birlikte artar.

Bununla birlikte, makine çevirisi görevi bağlamında sinir ağlarının geliştirilmesinde yalnızca teknolojik sorunlar frenlememiştir. Sonunda, dil modellerini daha yavaş da olsa daha erken eğitmek mümkün oldu, ancak hiçbir temel engel yoktu.

Sinir ağları için moda da bir rol oynadı. Pek çok kişi kendi içinde gelişiyordu ama toplumun Neural Networks tabirinden beklediği kalite kazanımını alamayabileceklerinden korkarak bunu açıklamakta aceleleri yoktu. Bu, birkaç nöral tercümanın birbiri ardına duyurulmasını açıklayabilir.

Çeviri kalitesi: kimin BLEU puanı daha kalın?

Çeviri kalitesindeki artışın, çeviri için sinir ağlarının geliştirilmesi ve desteklenmesine eşlik eden birikmiş beklentiler ve maliyetlerdeki artışa karşılık gelip gelmediğini anlamaya çalışalım.
Google'ın araştırması, sinirsel makine çevirisinin, klasik istatistiksel yaklaşıma (veya Cümle Tabanlı Makine Çevirisi, PBMT olarak da adlandırılır) kıyasla, dil çiftine bağlı olarak %58 ila %87 arasında Göreceli İyileştirme sağladığını göstermektedir.


SYSTRAN tarafından sunulan çeşitli seçenekler arasından seçim yapılarak çevirinin kalitesinin değerlendirildiği araştırmalar yürütür. farklı sistemler yanı sıra "insan" çevirisi. Ve sinirsel çevirisinin zamanın %46'sında insan çevirisine tercih edildiğini iddia ediyor.

Çeviri kalitesi: Bir atılım var mı?

Google, %60 veya daha fazla bir gelişme olduğunu iddia etse de, bu metrikte küçük bir yakalama var. Şirket temsilcileri "Göreceli İyileştirme"den, yani İnsan Çevirisinin kalitesine klasik istatistik çevirmeninde ne olduğuyla ilgili olarak ne kadar sinirsel bir yaklaşımla yaklaştıklarından bahsediyorlar.


Google'ın "Google'ın Nöral Makine Çeviri Sistemi: İnsan ve Makine Çevirisi Arasındaki Boşluğu Kapatma" makalesinde sunduğu sonuçları analiz eden sektör uzmanları, sunulan sonuçlar konusunda oldukça şüpheci davranıyor ve aslında BLEU puanının yalnızca 10 puan iyileştirildiğini söylüyor. % ve önemli ilerleme sadece yeterince fark edilir basit testler büyük olasılıkla ağın eğitimi sürecinde kullanılan Wikipedia'dan.

PROMT içinde, sistemlerimizin çeşitli metinlerindeki çeviriyi rakiplerle düzenli olarak karşılaştırıyoruz ve bu nedenle, nöral çevirinin gerçekten üreticilerin iddia ettiği gibi önceki nesilden daha üstün olup olmadığını kontrol edebileceğimiz örnekler her zaman elimizde bulunuyor.

Orijinal Metin (TR): Endişelenmenin kimseye bir faydası olmadı.
Google çevirisi PBMT: Endişelenmek kimseye iyi bir şey yapmadı.
Google Translate NMT: Endişenin kimseye faydası olmadı.

Bu arada, aynı ifadenin Translate.Ru'ya çevirisi: “Heyecan kimseye hiçbir zaman fayda sağlamadı”, sinir ağları kullanılmadan aynı olduğunu ve aynı kaldığını görebilirsiniz.

Microsoft Translator da bu konuda çok geride değil. Google'daki meslektaşlarının aksine, kalitedeki büyüme iddialarının asılsız olmadığından emin olmak için bir çeviri yapıp iki sonucu karşılaştırabileceğiniz bir web sitesi bile yaptılar: sinirsel ve sinir öncesi.


Bu örnekte ilerleme olduğunu görüyoruz ve bu gerçekten fark ediliyor. İlk bakışta, geliştiricilerin makine çevirisinin neredeyse "insan" çevirisine yetiştiği yönündeki açıklamalarının doğru olduğu görülüyor. Ama gerçekten öyle mi ve bakış açısından ne anlama geliyor? pratik uygulama iş için teknoloji?

Genel olarak, sinir ağlarını kullanan çeviri, istatistiksel çeviriden üstündür ve bu teknolojinin gelişme için büyük bir potansiyeli vardır. Ancak konuya dikkatlice yaklaşırsak, ilerlemenin her şeyde olmadığından ve tüm görevler için değil, görevin kendisine bakmadan sinir ağlarını kullanmanın mümkün olduğundan emin olabileceğiz.

Makine çevirisi: zorluk nedir

Otomatik bir çevirmenden, varlığının tüm tarihi - ve bu zaten 60 yıldan fazla! - biraz sihir bekledi, onu bilim kurgu filmlerinden bir daktilo olarak sundu, bu da herhangi bir konuşmayı anında uzaylı bir ıslık sesine ve geri çevirdi.

Aslında, görevler farklı düzeylerdedir, bunlardan biri "evrensel" ya da deyim yerindeyse günlük görevler için "günlük" çeviri ve anlamayı kolaylaştırmak anlamına gelir. Çevrimiçi çeviri hizmetleri ve birçok mobil ürün bu seviye için mükemmeldir.

Bu görevler şunları içerir:

Kelimelerin hızlı çevirisi ve kısa metinlerçeşitli amaçlar için;
forumlarda iletişim sürecinde otomatik çeviri, sosyal ağlar, haberciler;
haberleri, Wikipedia makalelerini okurken otomatik çeviri;
seyahat tercümanı (mobil).

Yukarıda ele aldığımız sinir ağlarını kullanarak çeviri kalitesinin büyümesine ilişkin tüm bu örnekler, tam olarak bu problemlerle ilgilidir.

Ancak, makine çevirisi ile ilgili olarak işletmenin amaç ve hedefleri ile işler biraz farklıdır. Örneğin, kurumsal makine çevirisi sistemleri için gereksinimlerden bazıları şunlardır:

Müşteriler, ortaklar, yatırımcılar, yabancı çalışanlar ile iş yazışmalarının tercümesi;
sitelerin, çevrimiçi mağazaların, ürün açıklamalarının, talimatların yerelleştirilmesi;
kullanıcı tarafından oluşturulan içeriğin çevirisi (incelemeler, forumlar, bloglar);
çeviriyi iş süreçlerine ve yazılım ürünlerine ve hizmetlerine entegre etme yeteneği;
Terminoloji, gizlilik ve güvenlik açısından çevirinin doğruluğu.

Herhangi bir çeviri işinin sinir ağları kullanılarak çözülüp çözülemeyeceğini ve tam olarak nasıl çözülebileceğini örneklerle anlamaya çalışalım.

Dava: Amadeus

Amadeus, dünyanın en büyük küresel uçak bileti dağıtım sistemlerinden biridir. Bir yandan hava taşıyıcıları, diğer yandan değişikliklerle ilgili tüm bilgileri gerçek zamanlı olarak alması ve müşterilerine iletmesi gereken acenteler ile bağlantılıdır.

Görev, rezervasyon sisteminde farklı kaynaklardan otomatik olarak oluşturulan ücretlerin (Ücret Kuralları) uygulama koşullarını yerelleştirmektir. Bu kurallar her zaman İngilizce olarak oluşturulur. Çok fazla bilgi olması ve sık sık değişmesi nedeniyle manuel çeviri burada neredeyse imkansız. Bir uçak bileti acentesi, müşterilerine hızlı ve verimli bir şekilde tavsiyede bulunmak için Ücret Kurallarını Rusça okumak ister.

Tipik terimler ve kısaltmalar dikkate alınarak tarife kurallarının anlamını taşıyan anlaşılır bir çeviri gereklidir. Ve otomatik çevirinin doğrudan Amadeus rezervasyon sistemine entegre edilmesi gerekiyor.

→ Projenin görevi ve uygulaması belgede detaylandırılmıştır.

Amadeus Fare Rules Translator'a entegre olan PROMT Cloud API üzerinden yapılan çeviri ile Google'dan gelen "nöral" çeviriyi karşılaştırmaya çalışalım.

Orijinal: GİDİŞ YOLU ANINDA SATIN ALMA ÜCRETLERİ

PROMT (Analitik Yaklaşım): ORADA VE GERİ ANINDA UÇUŞ SATIN ALMA ÜCRETLERİ

GNMT: YUVARLAK ALIŞVERİŞ

Açıkçası, sinirsel tercüman burada başa çıkamaz ve biraz daha ileride bunun nedeni açıklığa kavuşacaktır.

Vaka: TripAdvisor

TripAdvisor, dünyanın en büyük seyahat hizmetlerinden biridir ve tanıtım gerektirmez. The Telegraph tarafından yayınlanan bir makaleye göre, sitede her gün çeşitli turistik yerler hakkında 165.600 yeni inceleme yayınlanıyor. farklı diller.

Görev, turist incelemelerini İngilizce'den Rusça'ya, bu incelemenin anlamını anlamak için yeterli bir çeviri kalitesiyle çevirmektir. Ana zorluk: Kullanıcı tarafından oluşturulan içeriğin tipik özellikleri (hatalı metinler, yazım hataları, eksik kelimeler).

Ayrıca görevin bir parçası da çevirinin kalitesini TripAdvisor'da yayınlamadan önce otomatik olarak değerlendirmekti. Çevrilmiş tüm içeriğin manuel olarak puanlanması mümkün olmadığından, bir makine çevirisi çözümü, çevrilmiş metinlerin kalitesini değerlendirmek için otomatik bir mekanizma sağlamalıdır - TripAdvisor'ın yalnızca çevrilmiş yorumları yayınlamasına olanak tanıyan bir güven puanı Yüksek kalite.

Çözüm için, çeviri sonuçlarının istatistiksel olarak sonradan düzenlenmesi de dahil olmak üzere, son okuyucunun anlayabileceği daha yüksek kaliteli bir çeviri elde etmeyi mümkün kılan PROMT DeepHybrid teknolojisi kullanıldı.

Örneklere bakalım:

Orijinal: Dün gece bir hevesle orada yedik ve çok güzel bir yemekti. Hizmet, fazla dayanmadan özenliydi.

PROMT (Karma çeviri): Dün gece tesadüfen orada yedik ve çok güzel bir yemekti. Personel, özenli ama zorba değil.

GNMT: Dün gece orada bir hevesle yemek yedik ve çok güzel bir yemekti. Hizmet, daha fazla yatak olmadan özenliydi.

Buradaki her şey kalite açısından önceki örnekteki kadar iç karartıcı değil. Genel olarak, parametreleri açısından, bu görev potansiyel olarak sinir ağları kullanılarak çözülebilir ve bu, çeviri kalitesini daha da artırabilir.

İş için NMT kullanmanın zorlukları

Daha önce belirtildiği gibi, "evrensel" bir çevirmen her zaman kabul edilebilir kalite sağlamaz ve belirli terminolojiyi destekleyemez. Süreçlerinize entegre olmak ve çeviri için sinir ağlarını uygulamak için temel gereksinimleri karşılamanız gerekir:

Bir sinir ağını eğitebilmek için yeterli miktarda paralel metnin varlığı. Çoğu zaman, müşteride bunlardan çok az bulunur, hatta bu konuyla ilgili metinler bile doğada yoktur. Sınıflandırılabilirler veya otomatik işlemeye pek uygun olmayan bir durumda olabilirler.

Bir model oluşturmak için, en az 100 milyon jeton (belirteç) içeren bir veritabanına ihtiyacınız var ve aşağı yukarı kabul edilebilir kalitede bir çeviri elde etmek için - 500 milyon jeton. Her şirketin böyle bir malzeme hacmi yoktur.

Elde edilen sonucun kalitesinin otomatik olarak değerlendirilmesi için bir mekanizmanın veya algoritmaların varlığı.

Yeterli bilgi işlem gücü.
"Evrensel" bir sinirsel tercüman genellikle doğru kalitede değildir ve kabul edilebilir kalite ve çalışma hızı sağlayabilen özel bir sinir ağını dağıtmak için "küçük bir bulut" gerekir.

Gizlilikle ne yapılacağı belirsiz.
Güvenlik nedeniyle her müşteri içeriklerini buluta aktarmaya hazır değildir ve NMT her şeyden önce bir bulut hikayesidir.

sonuçlar

Genel olarak, sinirsel otomatik çeviri, "tamamen" istatistiksel bir yaklaşımdan daha kaliteli bir sonuç üretir;
Sinir ağı üzerinden otomatik çeviri - "evrensel çeviri" sorununu çözmek için daha uygun;
MT yaklaşımlarının hiçbiri kendi içinde herhangi bir çeviri görevini çözmek için ideal bir evrensel araç değildir;
İş dünyasındaki çeviri sorunlarını çözmek için yalnızca özel çözümler tüm gereksinimlere uygunluğu garanti edebilir.

Çeviri görevleriniz için buna en uygun çevirmeni kullanmanız gerektiğine dair kesinlikle açık ve mantıklı bir karara varıyoruz. İçeride bir sinir ağı olup olmaması önemli değil. Görevin kendisini anlamak daha önemlidir.

Etiketler: Etiket Ekle

Yandex web sitesinin bildirdiğine göre, Yandex.Translator hizmeti, metinleri çevirmek için sinir ağı teknolojilerini kullanmaya başladı ve bu da çevirinin kalitesini artırdı.

yer imlerine

Yandex, hizmetin hibrit bir sistem üzerinde çalıştığını açıkladı: Translator'da lansmanından bu yana çalışmakta olan istatistiksel modele bir sinir ağı kullanan çeviri teknolojisi eklendi.

“İstatistiksel bir çevirmenin aksine, bir sinir ağı metinleri ayrı kelimelere ve ifadelere ayırmaz. Girişte tüm teklifi alıyor ve çevirisini yayınlıyor ”diye açıkladı bir şirket temsilcisi. Ona göre bu yaklaşım, bağlamın dikkate alınmasını ve çevrilen metnin anlamını daha iyi iletmesini sağlar.

Yandex, sırayla, istatistiksel modelin nadir kelimeler ve ifadelerle daha iyi başa çıktığını vurguladı. Şirket, "Cümlenin anlamı net değilse, bir sinir ağının bunu nasıl yapabileceği hakkında hayal kurmuyor" dedi.

Çeviri yaparken, hizmet her iki modeli de kullanır, ardından makine öğrenimi algoritması sonuçları karşılaştırır ve kendi görüşüne göre en iyi seçeneği önerir. Yandex'de "Hibrit sistem, her yöntemden en iyi şekilde yararlanmamızı ve çeviri kalitesini artırmamızı sağlıyor" diyorlar.

14 Eylül günü, "Tercüman" ın web versiyonunda, hibrit ve istatistiksel modeller tarafından yapılan çevirileri karşılaştırmanın mümkün olacağı bir geçiş görünmelidir. Aynı zamanda, bazen hizmet metinleri değiştirmeyebilir, şirket şunları kaydetti: "Bu, hibrit modelin istatistiksel çevirinin daha iyi olduğuna karar verdiği anlamına geliyor."

V modern internet 630 milyondan fazla site, ancak bunların yalnızca %6'sı Rusça içerik barındırıyor. Dil engeli Ağ kullanıcıları arasında bilginin yayılmasının ana sorunudur ve bunun sadece yabancı dil öğreterek değil, aynı zamanda tarayıcıda otomatik makine çevirisi yoluyla da çözülmesi gerektiğine inanıyoruz.

Bugün Habr okuyucularına Yandex Tarayıcı çevirmenindeki iki önemli teknolojik değişikliği anlatacağız. İlk olarak, seçilen kelimelerin ve ifadelerin tercümesi artık hibrit bir model kullanıyor ve bu yaklaşımın tamamen sinir ağlarının kullanımından nasıl farklı olduğunu hatırlıyoruz. İkinci olarak, tercümanın sinir ağları, özelliklerinden de aşağıda bahsedeceğimiz web sayfalarının yapısını artık dikkate alıyor.

Hibrit kelime ve deyim çevirmeni

İlk makine çeviri sistemleri, sözlükler ve kurallar(aslında, elle yazılmış müdavimler), çevirinin kalitesini belirleyen şeydi. Profesyonel dilbilimciler, giderek daha ayrıntılı manuel kurallar bulmak için yıllarca çalıştılar. İş o kadar zaman alıcıydı ki, yalnızca en popüler dil çiftlerine ciddi dikkat gösterildi, ancak bunların içinde bile makineler iyi başa çıkamadı. Yaşayan dil, kurallara uymayan çok karmaşık bir sistemdir. İki dil arasındaki yazışma kurallarıyla tarif etmek daha da zordur.

Bir makinenin sürekli değişen koşullara uyum sağlamasının tek yolu, çok sayıda paralel metinden (anlam olarak aynı, ancak farklı dillerde yazılmış) kendi başına öğrenmektir. Bu, makine çevirisine istatistiksel yaklaşımdır. Bilgisayar paralel metinleri karşılaştırır ve kalıpları bağımsız olarak tanımlar.

Sahip olmak istatistik çevirmeni hem avantajları hem de dezavantajları vardır. Bir yandan, nadir ve zor kelimeleri ve cümleleri ezberlemede iyidir. Paralel metinlerde karşılaşılırsa, çevirmen bunları hatırlayacak ve doğru çevirmeye devam edecektir. Öte yandan, çevirinin sonucu tamamlanmış bir bulmacaya benziyor: genel resim net görünüyor, ancak yakından bakarsanız, bunun ayrı parçalardan oluştuğunu görebilirsiniz. Bunun nedeni, çevirmenin tek tek sözcükleri, aralarındaki ilişkiyi hiçbir şekilde yansıtmayan tanımlayıcılar olarak sunmasıdır. Bu, kelimelerin nasıl kullanıldıklarına, diğer kelimelerle nasıl ilişki kurduklarına ve onlardan nasıl farklı olduklarına göre tanımlandığında, insanların dili nasıl algıladıklarıyla tutarsızdır.

Bu sorunu çözmeye yardımcı olur nöral ağlar... Sinirsel makine çevirisinde kullanılan kelime yerleştirme, tipik olarak her kelimeyi birkaç yüz sayıdan oluşan bir vektörle ilişkilendirir. Vektörler, istatistiksel yaklaşımdaki basit tanımlayıcıların aksine, bir sinir ağını eğitirken oluşturulur ve kelimeler arasındaki ilişkileri dikkate alır. Örneğin, model, "çay" ve "kahve" genellikle benzer bağlamlarda göründüğünden, her iki kelimenin de yeni bir "dökülme" kelimesi bağlamında mümkün olması gerektiğini fark edebilir; Eğitim verileri.

Bununla birlikte, vektör temsillerini öğrenme süreci, örneklerin ezberlenmesinden açıkça istatistiksel olarak daha zordur. Ek olarak, ağın kendileri için kabul edilebilir bir vektör temsili oluşturması için yeterince sık karşılaşılmayan bu nadir giriş sözcükleri ile ne yapılacağı açık değildir. Bu durumda her iki yöntemi birleştirmek mantıklıdır.

Geçen yıldan beri Yandex.Translate kullanıyor hibrit model... Çevirmen kullanıcıdan bir metin aldığında, onu çeviri için her iki sisteme de verir - hem sinir ağına hem de istatistiksel çevirmene. Ardından, bir öğrenme yöntemine dayalı bir algoritma, hangi çevirinin daha iyi olduğunu değerlendirir. Puanlama yapılırken, cümlenin uzunluğundan (kısa ifadeler istatistiksel model tarafından daha iyi çevrilir) sözdizimine kadar düzinelerce faktör dikkate alınır. En iyi çeviri kullanıcıya gösterilir.

Kullanıcı çeviri için sayfada belirli kelimeleri ve cümleleri seçtiğinde, artık Yandex Browser'da kullanılan karma modeldir.

Bu mod özellikle genel olarak bu konuda yetkin olanlar için kullanışlıdır. yabancı Dil ve sadece bilinmeyen kelimeleri çevirmek istiyorum. Ancak, örneğin, normal İngilizce yerine Çince ile tanışırsanız, burada sayfa çevirmeni olmadan yapmak zor olacaktır. Farkın yalnızca çevrilen metnin hacminde olduğu anlaşılıyor, ancak her şey o kadar basit değil.

Sinirsel web sayfası çevirmeni

Georgetown deneyinden neredeyse günümüze kadar tüm makine çeviri sistemleri, kaynak metnin her bir cümlesini ayrı ayrı çevirmek için eğitilmiştir. Bir web sayfası yalnızca bir dizi cümle değil, temelde farklı öğelere sahip yapılandırılmış metindir. Sayfaların çoğunun ana unsurlarına bir göz atalım.

Başlık... Genellikle sayfaya girer girmez gördüğümüz parlak ve büyük metinler. Başlık genellikle haberin özünü içerir, bu nedenle doğru tercüme edilmesi önemlidir. Ancak bunu yapmak zordur, çünkü başlıkta çok az metin vardır ve bağlamı anlamadan hata yapabilirsiniz. durumunda ingilizce dili daha da karmaşıktır çünkü İngilizce başlıklar genellikle geleneksel olmayan dilbilgisi, mastarlar ve hatta fiilleri atlayan ifadeler içerir. Örneğin, Game of Thrones'un ön bölümü duyuruldu.

Navigasyon... Sitede gezinmemize yardımcı olan kelimeler ve ifadeler. Örneğin, Ev, Geri ve Hesabım Site menüsünde yer alıyorlarsa ve yayın metninde değillerse "Ana Sayfa", "Geri" ve "Hesabım" olarak çevrilmeye değmez.

Ana yazı... Bununla her şey daha kolay, kitaplarda bulabileceğimiz sıradan metinlerden ve cümlelerden çok az farklı. Ancak burada bile çevirilerin tutarlılığını sağlamak, yani aynı terim ve kavramların aynı web sayfası içerisinde aynı şekilde çevrilmesini sağlamak önemlidir.

Web sayfalarının yüksek kalitede çevirisi için sinir ağı veya hibrit model kullanmak yeterli değildir - sayfaların yapısını da dikkate almanız gerekir. Bunu yapmak için birçok teknolojik zorlukla uğraşmak zorunda kaldık.

Metin bölümlerinin sınıflandırılması... Bunu yapmak için yine CatBoost'u ve hem metnin kendisine hem de belgelerin HTML işaretlemesine (etiket, metin boyutu, metin birimi başına bağlantı sayısı, ...) dayalı faktörleri kullanıyoruz. Faktörler oldukça heterojendir, bu nedenle en iyi sonuçları gösteren CatBoost'tur (gradyan artırmaya dayalıdır) (sınıflandırma doğruluğu %95'ten yüksektir). Ancak segment sınıflandırması tek başına yeterli değildir.

Veri eğriliği... Geleneksel olarak, Yandex.Translator algoritmaları internetten metinler kullanılarak eğitilir. Bu, bir web sayfası çevirmeni yetiştirmek için ideal bir çözüm gibi görünmektedir (başka bir deyişle, ağ, üzerinde kullanacağımız metinlerle aynı nitelikteki metinlerden öğrenir). Ama farklı segmentleri birbirinden ayırmayı öğrenir öğrenmez bulduk ilginç özellik... Ortalama olarak, sitelerde içerik tüm metnin yaklaşık %85'ini kaplarken, başlıklar ve gezinme yalnızca %7,5'ini oluşturur. Ayrıca başlıkların ve gezinme öğelerinin stil ve dilbilgisi açısından metnin geri kalanından belirgin şekilde farklı olduğunu unutmayın. Bu iki faktör, bir veri çarpıklığı sorunu oluşturmak için birleşir. Bir sinir ağının, eğitim örneğinde çok kötü temsil edilen bu segmentlerin özelliklerini basitçe görmezden gelmesi daha karlı. Web, başlıkların ve gezinmenin çeviri kalitesinden muzdarip olan yalnızca gövde metnini iyi bir şekilde çevirmeyi öğreniyor. Bu hoş olmayan etkiyi nötralize etmek için iki şey yaptık: her bir paralel cümle çiftine üst bilgi olarak üç tip segmentten (içerik, başlık veya gezinme) birini atadık ve eğitim külliyatındaki son ikisinin konsantrasyonunu yapay olarak 33'e çıkardık. Benzer örneklerin öğrenme sinir ağına daha sık gösterilmeye başlanması nedeniyle %.

Çok görevli öğrenme... Artık web sayfalarındaki metni üç segment sınıfına nasıl ayıracağımızı bildiğimiz için, her biri farklı bir metin türünün (başlıklar, gezinme veya içerik) çevirisini gerçekleştirecek üç ayrı modeli eğitmek doğal bir fikir gibi görünebilir. . Bu gerçekten işe yarıyor, ancak her tür metni aynı anda çevirmek için bir sinir ağını eğittiğimiz şema daha da iyi çalışıyor. Anlamanın anahtarı, çok görevli öğrenme (MTL) fikrinde yatmaktadır: Birkaç makine öğrenimi problemi arasında dahili bir bağlantı varsa, o zaman bu problemleri aynı anda çözmeyi öğrenen bir model, problemlerin her birini daha iyi çözmeyi öğrenebilir. dar profilli özel bir modelden daha fazla!

İnce ayar... Zaten oldukça iyi bir makine çevirisine sahiptik, bu nedenle Yandex Tarayıcı için sıfırdan yeni bir çevirmen yetiştirmek akıllıca olmaz. almak daha mantıklı temel sistem sıradan metinleri çevirmek ve web sayfalarıyla çalışmak üzere yeniden eğitmek. Sinir ağları bağlamında buna genellikle ince ayar denir. Ancak bu soruna kafa kafaya yaklaşırsanız, yani. sinir ağının ağırlıklarını bitmiş modeldeki değerlerle başlatmanız ve yeni veriler üzerinde öğrenmeye başlamanız yeterlidir, o zaman bir etki alanı kaymasının etkisiyle karşılaşabilirsiniz: öğrendikçe, web sayfalarının çeviri kalitesi (in- etki alanı) artacaktır, ancak sıradan (alan dışı) metinlerin çeviri kalitesi düşecektir. Bu hoş olmayan özellikten kurtulmak için, ek eğitim sırasında, sinir ağına ek bir kısıtlama getirerek, ilk duruma kıyasla ağırlıkları çok fazla değiştirmesini yasaklıyoruz.

Matematiksel olarak bu, orijinal ve yeniden eğitilmiş ağlar tarafından üretilen bir sonraki kelimenin olasılık dağılımları arasındaki KL-diverjansı olan kayıp fonksiyonuna bir terim eklenerek ifade edilir. Resimde de görebileceğiniz gibi, bu durum web sayfalarının çeviri kalitesindeki artışın artık düz metin çevirisinin bozulmasına yol açmamasına neden oluyor.

Navigasyondan sıklık ifadelerini parlatma... Yeni bir çevirmen üzerinde çalışırken, web sayfalarının çeşitli bölümlerindeki metinler hakkında istatistikler topladık ve ilginç bir şey gördük. Gezinme öğeleriyle ilgili metinler oldukça standartlaştırılmıştır, bu nedenle genellikle aynı şablon cümleleri temsil ederler. Bu o kadar güçlü bir etki ki, İnternette bulunan tüm navigasyon ifadelerinin yarısından fazlası, en sık kullanılanların sadece 2 binini oluşturuyor.

Elbette bundan faydalandık ve kalitelerinden kesinlikle emin olmak için çevirmenlerimize doğrulama için en sık kullanılan binlerce ifadeyi ve çevirilerini verdik.

Dış hizalamalar. Tarayıcıda web sayfalarının tercümanı için bir başka önemli gereklilik daha vardı - işaretlemeyi bozmamalı. HTML etiketleri cümlelerin dışına veya sınırlarına yerleştirildiğinde herhangi bir sorun oluşmaz. Ama eğer cümlenin içinde varsa, örneğin, 2 altı çizili kelimeler, sonra çeviride "iki" görmek istiyoruz vurgulanmış sözler". Onlar. transferin bir sonucu olarak, iki koşulun karşılanması gerekir:

  1. Çevirideki altı çizili parça, kaynak metindeki altı çizili parçaya tam olarak karşılık gelmelidir.
  2. Altı çizili bölümün sınırlarındaki çeviri tutarlılığı ihlal edilmemelidir.
Bu davranışı sağlamak için önce metni her zamanki gibi çevirir, ardından orijinal ve çevrilmiş metnin parçaları arasındaki yazışmaları belirlemek için istatistiksel kelime hizalama modelleri kullanırız. Bu, tam olarak neyin vurgulanması gerektiğini anlamaya yardımcı olur (italik yaz, köprü olarak düzenle, ...).

kavşak gözlemcisi... Eğittiğimiz güçlü sinir ağı çeviri modelleri, sunucularımızda (hem CPU hem de GPU) önceki nesillerin istatistiksel modellerinden önemli ölçüde daha fazla bilgi işlem kaynağı gerektirir. Aynı zamanda, kullanıcılar sayfaları her zaman sonuna kadar okumazlar, bu nedenle web sayfalarının tüm metinlerini buluta göndermek gereksiz gibi görünüyor. Sunucu kaynaklarından ve kullanıcı trafiğinden tasarruf etmek için Çevirmen'e kullanmayı öğrettik.