Çevirmenlerin neden Google'ın sinir ağlarından korkmasına gerek yok? Yandex.Browser'da yapay zeka Sinir ağı çevirisi

Bu not, Google Translate'in Rusça dilini derin öğrenmeyle çeviriye bağlamasıyla ilgili habere yapılan geniş bir yorumdur. İlk bakışta her şey kulağa çok hoş geliyor ve görünüyor. Ancak neden “çevirmenlere artık ihtiyaç duyulmadığı” konusunda aceleci sonuçlara varılmaması gerektiğini açıklayacağım.

İşin püf noktası şu ki, bugün teknoloji yerini alabilir... pekala, kimsenin yerini alamaz.
Bir fotoğrafçının büyük siyah bir SLR satın alan biri olmadığı gibi, bir çevirmen de yabancı dil bilen biri değildir. Bu gerekli kondisyon, ancak yeterli olmaktan uzak.

Çevirmen, kendi dilini çok iyi bilen, başkasının dilini iyi anlayan, anlam nüanslarını doğru bir şekilde aktarabilen kişidir.

Her üç koşul da önemlidir.

Şu ana kadar ilk kısmını bile görmedik (“kendi dilini biliyor” anlamında). En azından Ruslar için şu ana kadar her şey çok ama çok kötü. Bu da bir şey, ancak virgüllerin yerleşimi mükemmel bir şekilde algoritmalandırılmıştır (Word bunu 1994'te yaptı, algoritmayı yerel olanlardan lisansladı) ve mevcut BM metin külliyatının sinir ağı için bu, çatının çok ötesinde.

Bilmeyenler için, tüm resmi BM belgeleri, Güvenlik Konseyi'nin daimi üyelerinin Rusça da dahil olmak üzere beş dilinde yayınlanmaktadır ve bu, bu beş kişi için aynı metinlerin çok yüksek kalitede çevirilerini içeren en büyük veri tabanıdır. Diller. Çevirilerden farklı olarak Sanat Eserleri"Çevirmen Ostap'ın cezalandırılabileceği" BM üssü, anlamın en ince tonlarının ve mükemmel yazışmaların en doğru şekilde iletilmesiyle öne çıkıyor edebi standartlar.
Bu gerçek ve mutlak serbestliği, dillerin yalnızca tamamen resmi ve bürokratik bir alt kümesini kapsamasına rağmen, onu yapay çevirmenlerin eğitimi için ideal bir metin seti (derlem) haline getirmektedir.

Koyun çevirmenlerimize dönelim. Pareto yasasına göre profesyonel çevirmenlerin %80'i kötüdür. Bunlar, yabancı dil kurslarını veya en iyi ihtimalle “kırsal alanlar için ilkokul yabancı dil öğretmeni” konusunda uzmanlığa sahip bazı bölgesel pedagoji enstitülerini tamamlamış kişilerdir. Ve onların başka hiçbir bilgileri yoktur. Aksi takdirde en düşük ücretli işlerden birinde oturmazlardı.

Nasıl para kazandıklarını biliyor musun? Hayır, çevirilerde değil. Kural olarak, bu çevirilerin müşterileri yabancı dildeki metni çevirmenden daha iyi anlarlar.

Mevzuatın ve/veya yerel geleneklerin gerekliliklerine uyarlar.

Ürün talimatlarının Rusça olması gerekiyor. Bu nedenle ithalatçı, “ithal” dilini az da olsa bilen birini bulur ve bu talimatları tercüme eder. Bu kişi ürünü bilmiyor, bu alanda bilgisi yok, Rusça’dan “C-eksi” almış ama tercüme ediyor. Sonuç herkes tarafından biliniyor.

Eğer “için” diye çevirirse daha da kötü olur ters taraf"yani yabancı bir dile (Çince'ye merhaba). O zaman çalışmaları büyük olasılıkla Exler'in "yasakçılıklarına" veya onların yerel analoglarına düşüyor.

Ya da işte sizin için daha zor bir durum. Hükümetle iletişime geçtiğinizde Yabancı belge sahibi makamların bu belgelerin tercümesini ibraz etmeleri gerekmektedir. Üstelik çeviri Vasya Amca'dan değil, yasal olarak saygın bir ofisten "ıslak" mühürler vb. ile yapılmalıdır. Peki söyleyin bana, ehliyet veya doğum belgesini “çevirmek” ne kadar zor? Tüm alanlar standartlaştırılmış ve numaralandırılmıştır. En kötü durumda, "çevirmenin" özel isimleri bir alfabeden diğerine çevirmesi yeterlidir. Ama hayır, "Vasya Amca" dinleniyor ve çoğu zaman kanun sayesinde değil, sadece yerel bürokratik üstlerin iç talimatları sayesinde.

Çeviri firmalarının %80'inde noterlerin görev yaptığını lütfen unutmayın. ile tahmin et üç kere, Neden?

Bu çevirmenler iyi makine çevirisinin ortaya çıkmasından nasıl etkilenecek? Mümkün değil. Yani öyle. Çevrilecek bir şeyin olduğu bazı küçük yönlerde çevirilerinin kalitesinin hala artacağı umudu var. Bu kadar. Çalışma zamanı burada önemli ölçüde azalmayacaktır çünkü çoğu zaman metni hala sütundan sütuna kopyalıyorlar. “Bu peynirde şu kadar protein, şu kadar karbonhidrat var…” Ulusal formlar Farklı ülkeler farklı, bu yüzden onlar için daha az iş olmayacak. Özellikle çaba göstermezseniz.

Geçici sonuç: En alttaki %80 için hiçbir şey değişmeyecek. Zaten tercüman oldukları için değil, en alt kademedeki bürokrat oldukları için para kazanıyorlar.

Şimdi spektrumun diğer kısmına bakalım, en tepedeki %3 olsun.

Teknik açıdan en karmaşık olmasa da en sorumlu %1: simültane çeviri çok önemli müzakereler Genellikle büyük şirketler arasında, ancak sınırda - BM veya benzeri üst düzeylerde. Çevirmenin anlamı bile olmayan duyguları aktarırken yaptığı bir hata, en kötü durumda nükleer bir savaşa yol açabilir. Aynı zamanda, anladığınız gibi, kelimenin tam anlamıyla örtüşen ifadelerin bile duygusal rengi farklı dillerçok farklı olabilir. Onlar. Çevirmen ideal olarak çalıştığı dillerin her iki kültürel bağlamını da bilmelidir. Banal örnekler “zenci” ve “engelli” kelimeleridir. Rusçada neredeyse tarafsızdırlar ve modern İngilizcede müstehcenlik noktasına kadar son derece duygusaldırlar.

Bu tür çevirmenlerin yapay zekadan korkmasına gerek yok: hiç kimse böyle bir sorumluluğu bir makineye emanet etmez.

Sonraki %1 ise edebiyat çevirmenleridir. Örneğin, Conan Doyle, Lewis Carroll, Hugh Laurie'nin dikkatlice toplanmış orijinal İngilizce baskılarına ayrılmış bir rafım var - orijinalinde, herhangi bir uyarlama veya yerel yeniden basımlarımız olmadan. Bu kitapları okumak gelişim için harikadır. sözlük biliyorsunuz, büyük estetik zevkin yanı sıra. Ben sertifikalı bir çevirmen olarak bu kitaplardan herhangi bir cümleyi metne çok yakın bir şekilde yeniden anlatabilirim. Ama çeviriyi üstlenelim mi? Ne yazık ki hayır.

Şiir çevirilerinden bahsetmiyorum bile.

Son olarak, teknik açıdan en zor olan (sinir ağı için genellikle imkansızdır) %1'lik kısım bilimsel ve teknik çeviridir. Genellikle, eğer bir ülkedeki bir ekip kendi alanında liderliği ele geçirdiyse, keşiflerini ve icatlarını kendi dillerinde adlandırırlar. Başka bir ülkede başka bir ekibin bağımsız olarak aynı şeyi icat ettiği/keşfettiği ortaya çıkabilir. Örneğin Boyle-Mariotte, Mendeleev-Poisson yasaları ve Popov / Marconi, Mozhaisky / Wright kardeşler / Santos-Dumont konusundaki anlaşmazlıklar bu şekilde ortaya çıktı.

Ancak yabancı ekip "tamamen öne geçmişse", "yetişen" bilim adamlarının dilsel anlamda iki seçeneği vardır: izleme veya tercüme etme.

Yeni teknolojilerin adlarını kopyalamak elbette daha kolaydır. Rusça'da böyle göründüler cebir, ilaç Ve bilgisayar, Fransızcada - bistro, Datça Ve votka; İngilizce - uydu, tokamak Ve perestroyka.

Ama bazen hala tercüme ediyorlar. Kafamdaki insani yardımın sesi çılgınca terime koşuyor taksota Fourier dönüşümünden Fourier dönüşümünün argümanını belirtmek için, bunun bir çevirisi olarak sıklık. Şaka bir yana, Google'da böyle bir terim yok - ancak dijital sinyal işlemeye ilişkin, bu terimlerin mevcut olduğu, Milli Eğitim Bakanlığı tarafından onaylanan ve kutsanan basılı bir ders kitabım var.

Ve evet, dokunmatik hücre analizi ayırt etmenin tek (benim bildiğim) yoludur. erkek sesi kadından. Seçenekler?

Demek istediğim, bu insanların korkacak hiçbir şeyi yok, çünkü dili kendileri oluşturuyor, ona yeni kelimeler ve terimler katıyorlar. Sinir ağları sadece kararlarından öğrenir. Peki, bu bilim adamlarının ve mühendislerin çevirilerden para kazanmadıklarını unutmadan.

Ve sonunda, " orta sınıf", iyi profesyonel çevirmenler, ama üstleri değil. Bir yandan hala bürokrasi tarafından korunuyorlar - örneğin talimatları tercüme ediyorlar, ancak homeopatik besin takviyeleri için değil, örneğin normal ilaçlar veya makineler için. Öte yandan, bugün bunlar yüksek işgücü otomasyonuna sahip modern işçilerdir. Çalışmaları zaten çevirinin tekdüze olması için bir terimler "sözlüğü" derlemekle başlıyor ve daha sonra özünde metni trados gibi özel bir yazılımda düzenlemekten oluşuyor. Sinir ağları gerekli düzenleme sayısını azaltacak ve iş gücü verimliliğini artıracak, ancak temelde hiçbir şeyi değiştirmeyecek.

Özetle, sıradan bir çevirmenlik mesleğinin yakın zamanda öleceğine dair söylentiler biraz abartılıyor. Her düzeyde işler biraz hızlanacak, rekabet biraz artacak ama olağandışı bir şey değil.

Ama bunu alacak olanlar çevirmenler ve gazetecilerdir. Daha 10 yıl önce, hiçbir şey anlamadıkları İngilizce bir makaleye kolaylıkla atıfta bulunabiliyor ve tamamen saçma sapan şeyler yazabiliyorlardı. Bugün de deniyorlar ama İngilizce bilen okuyucular defalarca onları batırıyorlar… yani, anladınız.

Genel olarak zamanları geçti. Biraz hantal da olsa, orta düzey bir evrensel makine tercümanı ile “gazeteciler”

Yandex.Çeviri, sinir ağıyla arkadaşlık kurmayı ve kullanıcılara daha kaliteli metinler sunmayı öğrendi. Yandex hibrit bir çeviri sistemi kullanmaya başladı: başlangıçta istatistiksel olan çalıştı ve şimdi teknolojiyle tamamlanıyor makine öğrenme CatBoost. Ancak bir şey var. Şu ana kadar yalnızca İngilizceden Rusçaya çeviri için.

Yandex, bunun en popüler çeviri yönü olduğunu ve toplamın% 80'ini oluşturduğunu iddia ediyor.

CatBoost, iki çeviri versiyonunu aldıktan sonra bunları karşılaştırarak insana en benzeyenini seçen akıllı bir şeydir.

İstatistiksel versiyonda çeviri genellikle tek tek ifadelere ve kelimelere bölünür. Nöroness bunu yapmıyor; mümkünse bağlamı dikkate alarak cümleyi bir bütün olarak analiz ediyorum. Dolayısıyla insan çevirisine çok benzer çünkü sinir ağı sözcük anlaşmalarını dikkate alabilir. Bununla birlikte, istatistiksel yaklaşımın, nadir veya nadir görülen bir durumla ilgili fantezi kurmaması durumunda da avantajları vardır. bilinmeyen kelime. sinir ağı yaratıcı olmaya çalışabilir.

Bugünkü duyurunun ardından otomatik çevirilerdeki gramer hatalarının azaltılması gerekiyor. Şimdi dil modelinden geçiyorlar. Artık “baba gitti”, “çok acı” gibi anlarla karşılaşmamalısınız.

Web sürümünde şu an kullanıcılar kendilerine en doğru ve başarılı görünen çeviri versiyonunu seçebilirler; bunun için ayrı bir tetikleyici vardır.

Siz de bilişim dünyasından haberlerle bizim kadar ilgileniyorsanız Telegram kanalımıza abone olun. Tüm materyaller mümkün olan en kısa sürede orada görünür. Ya da belki sizin için daha uygundur? Hatta içindeyiz.

Makaleyi beğendin mi?

Veya en azından mutlu bir yorum bırakın, böylece okuyucuların en çok hangi konuların ilgisini çektiğini bilelim. Üstelik bize ilham veriyor. Yorum formu aşağıdadır.

Onun nesi var? Öfkenizi şu adreste ifade edebilirsiniz: [e-posta korumalı]. Gelecekte site malzemelerinin kalitesini artırmak için isteklerinizi dikkate almaya çalışacağız. Şimdi harcayalım eğitim çalışması yazarla birlikte.

Yoksa miktar kaliteye mi dönüşüyor?

RIF+KIB 2017 konferansındaki bir konuşmaya dayanan makale.

Nöral Makine Çevirisi: neden sadece şimdi?

Uzun zamandır sinir ağlarından bahsediyorlar ve öyle görünüyor ki bunlardan biri klasik problemler yapay zeka - makine çevirisi - bu teknoloji temelinde çözülmek için yalvarıyor.

Bununla birlikte, genel olarak sinir ağları ve özel olarak sinir makinesi çevirisi ile ilgili sorgu aramalarındaki popülerliğin dinamikleri şunlardır:

Yakın zamana kadar sinirsel makine çevirisiyle ilgili hiçbir şeyin radarda olmadığı açıkça görülüyor - ve 2016'nın sonunda aralarında Google, Microsoft ve SYSTRAN'ın da bulunduğu birçok şirket yeni teknolojilerini ve sinir ağlarına dayalı makine çeviri sistemlerini tanıttı. Neredeyse aynı anda, birkaç hafta, hatta birkaç gün arayla ortaya çıktılar. Nedenmiş?

Bu soruyu cevaplamak için sinir ağlarına dayalı makine çevirisinin ne olduğunu ve klasik istatistiksel sistemlerden temel farkının ne olduğunu anlamak gerekir. analitik sistemler, günümüzde makine çevirisi için kullanılmaktadır.

Sinir çevirmeni, matris hesaplamaları üzerine kurulu, istatistiksel makine çevirmenlerinden önemli ölçüde daha karmaşık olasılıksal modeller oluşturmanıza olanak tanıyan, çift yönlü tekrarlayan sinir ağları (Çift Yönlü Tekrarlayan Sinir Ağları) mekanizmasına dayanmaktadır.

İstatistiksel çeviri gibi, sinirsel çeviri otomatik çeviriyi standart "insan" çeviriyle karşılaştırmanıza olanak tanıyan eğitim için paralel derlemler gerektirir; yalnızca öğrenme sürecinde bireysel ifadeler ve ifadelerle değil, tüm cümlelerle çalışır. Asıl sorun, böyle bir sistemin eğitiminin önemli ölçüde daha fazla bilgi işlem gücü gerektirmesidir.

Geliştiriciler, süreci hızlandırmak için NVIDIA'nın GPU'larının yanı sıra Google'ın makine öğrenimi teknolojileri için özel olarak uyarlanmış özel çipleri olan Tensör İşleme Birimi'ni (TPU) kullanıyor. Grafik yongaları başlangıçta matris hesaplama algoritmaları için optimize edilmiştir ve bu nedenle performans kazancı CPU'ya göre 7-15 kat daha fazladır.

Öyle bile olsa, tek bir sinir modelinin eğitimi 1 ila 3 hafta sürerken, kabaca aynı boyuttaki bir istatistiksel modelin eğitimi 1 ila 3 gün sürer ve boyut arttıkça bu fark da artar.

Ancak sadece teknolojik sorunlar makine çevirisi görevi bağlamında sinir ağlarının gelişiminin önünde bir frendi. Sonuçta, dil modellerini daha yavaş da olsa daha erken eğitmek mümkün oldu, ancak hiçbir temel engel yoktu.

Sinir ağlarına yönelik moda da bir rol oynadı. Pek çok insan dahili olarak gelişiyordu, ancak belki de toplumun Sinir Ağları ifadesinden beklediği kalite artışını alamayacaklarından korkarak bunu duyurmak için acele etmiyorlardı. Bu, birçok sinirsel tercümanın birbiri ardına ilan edilmesini açıklayabilir.

Çeviri kalitesi: kimin BLEU puanı daha kalın?

Çeviri kalitesindeki artışın, birikmiş beklentilere ve çeviri için sinir ağlarının geliştirilmesi ve desteklenmesine eşlik eden maliyetlerdeki artışa karşılık gelip gelmediğini anlamaya çalışalım.
Google, araştırmasında, nöral makine çevirisinin, klasik istatistiksel yaklaşıma (veya aynı zamanda Cümle Tabanlı Makine Çevirisi, PBMT olarak da adlandırıldığı gibi) kıyasla, dil çiftine bağlı olarak %58'den %87'ye kadar Göreli İyileşme sağladığını göstermektedir.

SYSTRAN, sunulan çeşitli seçenekler arasından seçim yaparak çeviri kalitesinin değerlendirildiği bir çalışma yürütmektedir. çeşitli sistemler ve "insan" çevirisi. Ve kendi sinirsel çevirisinin vakaların %46'sında insan çevirisine tercih edildiğini belirtiyor.

Çeviri kalitesi: bir gelişme var mı?

Google her ne kadar %60 veya daha fazla bir iyileşme olduğunu iddia etse de bu rakamda hafif bir yakalama var. Şirketin temsilcileri "Göreceli İyileştirme"den, yani klasik istatistiksel tercümandakiyle ilişkili olarak İnsan Çevirisi kalitesine sinirsel yaklaşımla ne kadar yaklaştıklarından bahsediyor.

Google'ın "Google'ın Nöral Makine Çeviri Sistemi: İnsan ve Makine Çevirisi Arasındaki Uçurumu Kapatmak" başlıklı makalede sunulan sonuçları analiz eden sektör uzmanları, sunulan sonuçlara oldukça şüpheyle yaklaşıyor ve aslında BLEU puanının yalnızca %10 oranında arttığını ve önemli ilerleme tam olarak fark edildiğinde fark edilir basit testler Büyük olasılıkla ağ eğitimi sürecinde kullanılan Wikipedia'dan.

PROMT içerisinde, sistemlerimizin çeşitli metinlerindeki çevirileri düzenli olarak rakiplerle karşılaştırıyoruz ve bu nedenle, sinirsel çevirinin gerçekten üreticilerin iddia ettiği gibi önceki nesle göre daha üstün olup olmadığını kontrol edebileceğimiz örnekler her zaman elimizde mevcut.

Orijinal metin (TR): Endişelenmenin kimseye faydası olmadı.
Google Çevirisi PBMT: Endişelenmeden kimseye iyi bir şey yapmadım.
Google Çevirisi NMT: Endişenin hiç kimseye faydası olmadı.

Bu arada, aynı ifadenin Translate.Ru'daki çevirisi: "Endişe hiçbir zaman kimseye fayda sağlamadı", bunun sinir ağları kullanılmadan da aynı olduğunu ve aynı kaldığını görebilirsiniz.

Microsoft Translator da bu konuda çok geride değil. Google'daki meslektaşlarının aksine, kalitedeki artışla ilgili ifadelerin asılsız olmadığından emin olmak için iki sonucu çevirip karşılaştırabileceğiniz bir web sitesi bile yaptılar: sinirsel ve sinir öncesi.

Bu örnekte ilerleme olduğunu görüyoruz ve bu gerçekten fark ediliyor. İlk bakışta geliştiricilerin makine çevirisinin neredeyse insan çevirisini yakaladığı yönündeki açıklaması doğru gibi görünüyor. Ama bu gerçekten böyle mi ve bakış açısından bu ne anlama geliyor? pratik uygulama iş için teknoloji?

Genel olarak, sinir ağlarını kullanan çeviri istatistiksel çeviriden daha üstündür ve bu teknolojinin gelişme potansiyeli büyüktür. Ancak konuya dikkatli bakarsak, ilerlemenin her şeyde olmadığından ve görevin kendisi dikkate alınmadan tüm görevlerin sinir ağlarına uygulanamayacağından emin olabiliriz.

Makine çevirisi: zorluklar nelerdir?

Otomatik tercümandan varoluşunun tüm tarihi - ve bu zaten 60 yıldan fazla! – bir tür sihir bekliyorlardı, onu bilim kurgu filmlerinden alınmış, herhangi bir konuşmayı anında yabancı bir düdük ve geri dönüşe dönüştüren bir makine olarak hayal ediyorlardı.

Aslında görevleri var. farklı seviyeler Bunlardan biri, günlük görevler ve anlama kolaylığı için "evrensel" veya tabiri caizse "gündelik" bir çeviri anlamına gelir. Çevrimiçi çeviri hizmetleri ve birçok mobil ürün bu seviyedeki görevlerle iyi başa çıkıyor.

Bu tür görevler şunları içerir:

Kelimelerin hızlı çevirisi ve kısa metinlerçeşitli amaçlar için;
forumlarda iletişim sırasında otomatik çeviri sosyal ağlarda, haberciler;
haberleri, Wikipedia makalelerini okurken otomatik çeviri;
seyahat tercümanı (mobil).

Yukarıda tartıştığımız, sinir ağlarını kullanarak çeviri kalitesini artırmaya yönelik tüm örnekler tam olarak bu görevlerle ilgilidir.

Ancak makine çevirisine ilişkin iş amaç ve hedeflerine gelince işler biraz farklıdır. Örneğin, kurumsal makine çevirisi sistemlerine yönelik bazı gereksinimler şunlardır:

Müşteriler, ortaklar, yatırımcılar, yabancı çalışanlarla yapılan ticari yazışmaların tercümesi;
web sitelerinin, çevrimiçi mağazaların, ürün açıklamalarının, talimatların yerelleştirilmesi;
kullanıcı içeriğinin çevirisi (incelemeler, forumlar, bloglar);
çeviriyi iş süreçlerine, yazılım ürünlerine ve hizmetlerine entegre etme becerisi;
çevirinin terminolojiye, gizliliğe ve güvenliğe uygun doğruluğu.

Örnekler kullanarak, herhangi bir çeviri işi sorununun sinir ağları kullanılarak çözülüp çözülemeyeceğini ve tam olarak nasıl çözülebileceğini anlamaya çalışalım.

Vaka: Amadeus

Amadeus dünyanın en büyük küresel uçak bileti dağıtım sistemlerinden biridir. Bir yandan hava taşıyıcıları buna bağlı, diğer yandan değişikliklerle ilgili tüm bilgileri gerçek zamanlı olarak alıp müşterilerine iletmesi gereken acenteler var.

Görev, rezervasyon sisteminde farklı kaynaklardan otomatik olarak oluşturulan tarifeleri (Ücret Kuralları) uygulama koşullarını yerelleştirmektir. Bu kurallar her zaman İngilizce olarak yazılmıştır. Çok fazla bilgi olması ve sık sık değişmesi nedeniyle manuel çeviri burada neredeyse imkansızdır. Bir uçak bileti acentesi, müşterilerine hızlı ve yetkin bir şekilde tavsiyelerde bulunmak için Ücret Kurallarını Rusça okumak istiyor.

Tipik terimler ve kısaltmalar dikkate alınarak tarife kurallarının anlamını aktaran açık bir çeviri gereklidir. Otomatik çevirinin doğrudan Amadeus rezervasyon sistemine entegre edilmesi gerekiyor.

→ Projenin görevi ve uygulanması belgede ayrıntılı olarak anlatılmaktadır.

Amadeus Ücret Kuralları Çevirmeni'ne entegre PROMT Cloud API aracılığıyla yapılan çeviriyi ve Google'ın "sinirsel" çevirisini karşılaştırmaya çalışalım.

Orijinal: GİDİŞ DÖNÜŞ ANLIK SATIN ALMA ÜCRETLERİ

PROMT (Analitik yaklaşım): GİDİŞ DÖNÜŞ UÇUŞ ANLIK SATIN ALMA ORANLARI

GNMT: YUVARLAK ALIMLAR

Sinirsel tercümanın bununla başa çıkamayacağı açıktır ve biraz daha ileride bunun nedeni anlaşılacaktır.

Vaka: TripAdvisor

TripAdvisor, tanıtım gerektirmeyen dünyanın en büyük seyahat hizmetlerinden biridir. The Telegraph'ın yayınladığı bir makaleye göre sitede her gün çeşitli turistik mekanlara ilişkin farklı dillerde 165.600 yeni yorum yer alıyor.

Görev, turist incelemelerini, bu incelemenin anlamını anlamaya yetecek bir çeviri kalitesiyle İngilizceden Rusçaya çevirmektir. Temel zorluk: Kullanıcı tarafından oluşturulan içeriğin tipik özellikleri (hatalı metinler, yazım hataları, eksik kelimeler).

Görevin bir parçası da, çevirinin kalitesinin TripAdvisor web sitesinde yayınlanmadan önce otomatik olarak değerlendirilmesiydi. Çevrilmiş içeriğin tamamının manuel olarak değerlendirilmesi mümkün olmadığından, makine çevirisi çözümü, TripAdvisor'ın yalnızca çevrilmiş değerlendirmeleri yayınlamasını sağlamak için çevrilmiş metinlerin kalitesinin değerlendirilmesine yönelik otomatik bir mekanizma (bir güven puanı) sağlamalıdır. Yüksek kalite.

Çözüm için, çeviri sonuçlarının istatistiksel olarak sonradan düzenlenmesi de dahil olmak üzere, son okuyucunun anlayabileceği daha yüksek kalitede bir çeviri elde edilmesini mümkün kılan PROMT DeepHybrid teknolojisi kullanıldı.

Örneklere bakalım:

Orijinal: Dün gece bir hevesle orada yemek yedik ve çok güzel bir yemekti. Servis aşırıya kaçmadan özenliydi.

PROMT (Hibrit çeviri): Dün gece bir hevesle orada yemek yedik ve harika bir yemekti. Personel baskıcı olmadan dikkatliydi.

GNMT: Dün gece bir hevesle orada yemek yedik ve harika bir yemekti. Hizmet zorba olmadan özenli.

Burada her şey kalite açısından önceki örnekte olduğu kadar iç karartıcı değil. Ve genel olarak parametreler açısından bu sorun potansiyel olarak sinir ağları kullanılarak çözülebilir ve bu, çeviri kalitesini daha da artırabilir.

NMT'yi iş amaçlı kullanmanın zorlukları

Daha önce de belirtildiği gibi, “evrensel” bir çevirmen her zaman kabul edilebilir bir kalite sağlamaz ve belirli bir terminolojiyi destekleyemez. Sinir ağlarını süreçlerinize çeviri amacıyla entegre etmek ve kullanmak için temel gereksinimleri karşılamanız gerekir:

Bir sinir ağını eğitebilmek için yeterli miktarda paralel metnin varlığı. Çoğu zaman müşterinin bunlardan birkaçı vardır veya doğada bu konuyla ilgili hiçbir metin yoktur. Sınıflandırılmış veya otomatik işlemeye pek uygun olmayan bir durumda olabilirler.

Bir model oluşturmak için en az 100 milyon jeton (kelime kullanımı) içeren bir veritabanına ve az çok kabul edilebilir kalitede bir çeviri (500 milyon jeton) almanız gerekir. Her şirketin bu kadar malzeme hacmi yoktur.

Elde edilen sonucun kalitesini otomatik olarak değerlendirmek için bir mekanizma veya algoritmaların mevcudiyeti.

Yeterli bilgi işlem gücü.
"Evrensel" bir sinir çeviricisi çoğu zaman kalite açısından uygun değildir ve kabul edilebilir kalite ve iş hızı sağlayabilen kendi özel sinir ağınızı dağıtmak için "küçük bir bulut" gereklidir.

Gizlilikle ne yapılacağı belli değil.
Güvenlik nedeniyle her müşteri içeriğini çeviri için buluta vermeye hazır değildir ve NMT, buluta öncelik veren bir hikayedir.

sonuçlar

Genel olarak sinirsel otomatik çeviri, "tamamen" istatistiksel bir yaklaşıma göre daha yüksek kalitede sonuçlar üretir;
Sinir ağı aracılığıyla otomatik çeviri, "evrensel çeviri" sorununu çözmek için daha uygundur;
Makine çevirisine yönelik yaklaşımların hiçbiri tek başına herhangi bir çeviri sorununu çözmek için ideal bir evrensel araç değildir;
Ticari çeviri sorunlarını çözmek için yalnızca özel çözümler tüm gereksinimlere uygunluğu garanti edebilir.

Çeviri görevleriniz için buna en uygun tercümanı kullanmanız gerektiği konusunda kesinlikle açık ve mantıklı bir karara vardık. İçeride bir sinir ağının olup olmaması önemli değil. Görevin kendisini anlamak daha önemlidir.

Etiketler: Etiket ekleyin

İÇİNDE modern internet 630 milyondan fazla site var ancak bunların yalnızca %6'sı Rusça içerik barındırıyor. Dil engeli – ana problem ağ kullanıcıları arasında bilginin yayılması ve bunun sadece yabancı dil öğretilerek değil, aynı zamanda tarayıcıda otomatik makine çevirisi kullanılarak da çözülmesi gerektiğine inanıyoruz.

Bugün Habr okuyucularına Yandex Tarayıcı tercümanındaki iki önemli teknolojik değişiklikten bahsedeceğiz. Öncelikle, vurgulanan kelimelerin ve cümlelerin çevirisi artık hibrit bir model kullanıyor ve bu yaklaşımın salt sinir ağları kullanmaktan ne kadar farklı olduğunu size hatırlatacağız. İkinci olarak, çevirmenin sinir ağları artık özelliklerine aşağıda da değineceğimiz web sayfalarının yapısını dikkate alıyor.

Kelimelerin ve cümlelerin hibrit tercümanı

İlk makine çeviri sistemleri şunlara dayanıyordu: sözlükler ve kurallar(esasen elle yazılmış normal karakterler), çevirinin kalitesini belirleyen. Profesyonel dilbilimciler, giderek daha ayrıntılı hale gelen manuel kurallar geliştirmek için yıllardır çalışıyorlar. Bu iş o kadar zaman alıyordu ki yalnızca en popüler dil çiftlerine ciddi bir ilgi gösterildi, ancak makineler bunların içinde bile kötü bir iş çıkardı. Yaşam dili çok karmaşık bir sistem kurallara pek uymayan bir durum. İki dil arasındaki yazışma kurallarını anlatmak ise daha da zordur.

Bir makinenin değişen koşullara sürekli uyum sağlamasının tek yolu, çok sayıda paralel metinden (anlamı aynı, ancak farklı dillerde yazılmış) kendi başına öğrenmektir. Bu, makine çevirisine istatistiksel yaklaşımdır. Bilgisayar paralel metinleri karşılaştırır ve kalıpları bağımsız olarak tanımlar.

sen istatistiksel çevirmen hem avantajları hem de dezavantajları var. Bir yandan nadir ve karmaşık kelimeleri ve cümleleri iyi hatırlıyor. Paralel metinlerde bulunursa çevirmen bunları hatırlayacak ve doğru tercüme etmeye devam edecektir. Öte yandan, bir çevirinin sonucu tamamlanmış bir bulmaca gibi olabilir: Genel resim net görünüyor, ancak yakından bakarsanız ayrı parçalardan oluştuğunu görebilirsiniz. Bunun nedeni, çevirmenin, hiçbir şekilde aralarındaki ilişkiyi yansıtmayan, tek tek kelimeleri tanımlayıcı olarak temsil etmesidir. Bu, kelimelerin nasıl kullanıldığına, diğer kelimelerle nasıl ilişki kurduğuna ve onlardan nasıl farklılaştığına göre tanımlandığı, insanların dili deneyimleme biçimiyle tutarsızdır.

Bu sorunun çözülmesine yardımcı olur nöral ağlar. Nöral makine çevirisinde kullanılan kelime gömme, tipik olarak her kelimeyi birkaç yüz sayıdan oluşan bir vektörle ilişkilendirir. İstatistiksel yaklaşımdaki basit tanımlayıcılardan farklı olarak vektörler, bir sinir ağı eğitilirken oluşturulur ve kelimeler arasındaki ilişkiler dikkate alınır. Örneğin, model "çay" ve "kahve" kelimelerinin sıklıkla benzer bağlamlarda geçmesi nedeniyle, bu kelimelerin her ikisinin de yeni "dökülme" kelimesi bağlamında mümkün olması gerektiğini fark edebilir; eğitim verileri.

Bununla birlikte, vektör temsillerini öğrenme süreci, örneklerin ezberlenmesinden istatistiksel olarak açıkça daha zordur. Ayrıca, ağın kendileri için kabul edilebilir bir vektör temsili oluşturmasına yetecek kadar sık geçmeyen bu nadir giriş sözcükleriyle ne yapılacağı da açık değildir. Bu durumda her iki yöntemi birleştirmek mantıklıdır.

Geçen yıldan bu yana Yandex.Çeviri kullanılıyor hibrit modeli. Çevirmen bir kullanıcıdan bir metin aldığında, bunu çeviri için her iki sisteme (sinir ağına ve istatistiksel çevirmene) verir. Bir öğrenme yöntemini temel alan bir algoritma, hangi çevirinin daha iyi olduğunu değerlendirir. Bir derecelendirme atarken cümle uzunluğundan (kısa ifadeler istatistiksel model tarafından daha iyi çevrilir) söz dizimine kadar düzinelerce faktör dikkate alınır. En iyi olarak kabul edilen çeviri kullanıcıya gösterilir.

Kullanıcının çeviri için sayfadaki belirli kelimeleri ve cümleleri seçmesi durumunda artık Yandex.Browser'da kullanılan hibrit modeldir.

Bu mod özellikle genel olarak sahip olanlar için uygundur. yabancı Dil ve yalnızca bilinmeyen kelimeleri çevirmek istiyorum. Ancak, örneğin, her zamanki İngilizce yerine Çince ile karşılaşırsanız, sayfa sayfa çevirmen olmadan bunu yapmak zor olacaktır. Görünüşe göre fark yalnızca çevrilen metnin hacmindedir, ancak her şey o kadar basit değildir.

Web sayfalarının sinir ağı çevirmeni

Georgetown deneyinin yapıldığı zamandan günümüze neredeyse tüm makine çeviri sistemleri, kaynak metnin her cümlesini ayrı ayrı çevirecek şekilde eğitilmiştir. Bir web sayfası yalnızca bir dizi cümle değil, temelde farklı öğeler içeren yapılandırılmış bir metindir. Çoğu sayfanın temel öğelerine bakalım.

Başlık. Genellikle sayfaya girer girmez hemen gördüğümüz parlak ve büyük metinler. Manşet çoğu zaman haberin özünü içerir, dolayısıyla doğru tercüme edilmesi önemlidir. Ancak bunu yapmak zordur çünkü başlıkta yeterli metin yoktur ve bağlamı anlamadan hata yapabilirsiniz. durumunda ingilizce dili Daha da karmaşıktır çünkü İngilizce başlıklar genellikle alışılmadık dilbilgisi, mastarlar ve hatta eksik fiiller içeren ifadeler içerir. Örneğin, Game of Thrones'un ön bölümü duyuruldu.

Navigasyon. Sitede gezinmemize yardımcı olan kelimeler ve ifadeler. Örneğin, Ev, Geri Ve Hesabım Yayın metninde değil de site menüsünde yer alıyorlarsa, "Ana Sayfa", "Geri" ve "Hesabım" olarak çevrilmeye pek değmez.

Ana yazı. Onunla her şey daha basit; kitaplarda bulabileceğimiz sıradan metinlerden ve cümlelerden çok az farklı. Ancak burada bile çeviri tutarlılığının sağlanması yani aynı web sayfası içerisinde aynı terim ve kavramların aynı şekilde çevrilmesini sağlamak önemlidir.

Web sayfalarının yüksek kaliteli çevirisi için sinir ağı veya hibrit model kullanmak yeterli değildir; sayfaların yapısını da dikkate almak gerekir. Bunu yapabilmek için de birçok teknolojik zorlukla uğraşmak zorunda kaldık.

Metin bölümlerinin sınıflandırılması. Bunu yapmak için yine CatBoost'u ve hem metnin kendisine hem de belgelerin HTML işaretlemesine (etiket, metin boyutu, metin birimi başına bağlantı sayısı, ...) dayalı faktörleri kullanıyoruz. Faktörler oldukça heterojendir, bu nedenle CatBoost (gradyan artırmaya dayalı) en iyi sonuçları gösterir (%95'in üzerinde sınıflandırma doğruluğu). Ancak segmentleri tek başına sınıflandırmak yeterli değildir.

Çarpık veriler. Geleneksel olarak Yandex.Çeviri algoritmaları İnternet'teki metinler üzerinde eğitilir. Bunun bir web sayfası çevirmeni yetiştirmek için ideal bir çözüm olduğu görülmektedir (başka bir deyişle ağ, onu kullanacağımız metinlerle aynı nitelikteki metinlerden öğrenir). Ancak farklı bölümleri birbirinden ayırmayı öğrendikten sonra şunu keşfettik: ilginç özellik. Ortalama olarak, web sitelerinde içerik tüm metnin yaklaşık %85'ini kaplıyor; başlıklar ve gezinme ise yalnızca %7,5'ini oluşturuyor. Ayrıca başlıkların ve gezinme öğelerinin stil ve dilbilgisi açısından metnin geri kalanından belirgin şekilde farklı olduğunu unutmayın. Bu iki faktör birlikte veri çarpıklığı sorununa yol açmaktadır. Bir sinir ağının, eğitim setinde çok az temsil edilen bu segmentlerin özelliklerini basitçe göz ardı etmesi daha kârlıdır. Ağ yalnızca ana metni iyi bir şekilde çevirmeyi öğrenir, bu nedenle başlıkların ve gezinmenin çevirisinin kalitesi düşer. Bu nahoş etkiyi ortadan kaldırmak için iki şey yaptık: her bir paralel cümle çiftine şu ifadelerden birini verdik: üç tip segmentler (içerik, başlık veya gezinme) ve öğrenen sinir ağına benzer örnekleri daha sık göstermeye başladıkları için eğitim derlemindeki son ikisinin konsantrasyonunu yapay olarak %33'e çıkardı.

Çok görevli öğrenme. Artık web sayfalarındaki metni üç segment sınıfına ayırabildiğimiz için, her biri farklı türde bir metnin (başlıklar, gezinme veya içerik) çevirisini gerçekleştirecek üç ayrı modeli eğitmek doğal bir fikir gibi görünebilir. Bu gerçekten işe yarıyor, ancak tüm metin türlerini aynı anda çevirmek için bir sinir ağını eğittiğimiz şema daha da iyi çalışıyor. Anlamanın anahtarı, çoklu görev öğrenimi (MTL) fikrinde yatmaktadır: eğer birkaç makine öğrenimi görevi arasında dahili bir bağlantı varsa, o zaman bu görevleri aynı anda çözmeyi öğrenen bir model, görevlerin her birini daha iyi çözmeyi öğrenebilir. dar anlamda uzmanlaşmış bir modelden daha!

İnce ayar. Zaten oldukça iyi bir makine çevirimiz vardı, bu nedenle Yandex.Browser için sıfırdan yeni bir çevirmen yetiştirmek akıllıca olmaz. Almak daha mantıklı temel sistem normal metinleri çevirmek ve onu web sayfalarıyla çalışacak şekilde eğitmek. Sinir ağları bağlamında buna genellikle ince ayar denir. Ancak bu soruna doğrudan yaklaşırsanız, yani. Sinir ağının ağırlıklarını bitmiş modeldeki değerlerle başlatmanız ve yeni veriler üzerinde öğrenmeye başlamanız yeterlidir; ardından alan değişikliğinin etkisiyle karşılaşabilirsiniz: eğitim ilerledikçe web sayfalarının (alan içi) çevirisinin kalitesi artacaktır. artacaktır, ancak normal (alan dışı) metinlerin çeviri kalitesi düşecektir. Bu hoş olmayan özellikten kurtulmak için, ek eğitim sırasında sinir ağına ek bir kısıtlama uygulayarak ağırlıkların başlangıç durumuna göre çok fazla değişmesini yasaklıyoruz.

Matematiksel olarak bu, orijinal ve ek olarak eğitilmiş ağlar tarafından yayınlanan bir sonraki kelimenin üretilmesi olasılık dağılımları arasındaki Kullback-Leibler mesafesi (KL-ıraksama) olan kayıp fonksiyonuna bir terim eklenerek ifade edilir. Bu durum resimde de görülebileceği gibi web sayfalarının çeviri kalitesinin artmasının artık sıradan metinlerin çevirisinin bozulmasına yol açmamasına yol açmaktadır.

Navigasyondan sıklık ifadelerini parlatma. Yeni bir çevirmen üzerinde çalışırken web sayfalarının çeşitli bölümlerindeki metinlere ilişkin istatistikler topladık ve ilginç bir şey gördük. Gezinme öğeleriyle ilgili metinler oldukça standartlaştırılmıştır, dolayısıyla genellikle aynı şablon ifadelerinden oluşurlar. Bu o kadar güçlü bir etki ki, internette bulunan tüm gezinme ifadelerinin yarısından fazlası, en sık kullanılanların yalnızca 2 bin tanesinden oluşuyor.

Biz de elbette bundan yararlandık ve kalitelerinden kesinlikle emin olmak için en sık kullanılan binlerce ifadeyi ve bunların çevirilerini doğrulama için çevirmenlerimize verdik.

Dış hizalamalar. Tarayıcıdaki web sayfası çevirmeninin başka bir önemli gereksinimi daha vardı - işaretlemeyi bozmamalı. HTML etiketleri cümle sınırlarının dışına veya üzerine yerleştirildiğinde herhangi bir sorun ortaya çıkmaz. Ama eğer cümlenin içinde örneğin, iki altı çizili kelimeler, o zaman çeviride “iki”yi görmek istiyoruz altı çizili kelimeler". Onlar. Transfer sonucunda iki koşulun gerçekleşmesi gerekir:

Çevirideki altı çizili parça, kaynak metindeki altı çizili parçaya tam olarak karşılık gelmelidir.
Altı çizili parçanın sınırlarında çevirinin tutarlılığı ihlal edilmemelidir.

Bu davranışı elde etmek için önce metni her zamanki gibi çeviririz, ardından kaynağın parçaları ile çevrilmiş metinler arasındaki eşleşmeleri belirlemek için istatistiksel kelime kelime hizalama modellerini kullanırız. Bu, tam olarak neyin vurgulanması gerektiğinin anlaşılmasına yardımcı olur (italik olarak, köprü olarak biçimlendirilmiş, ...).

Kavşak gözlemcisi. Eğittiğimiz güçlü sinir ağı çeviri modelleri, sunucularımızda (hem CPU hem de GPU) önceki nesil istatistiksel modellere göre önemli ölçüde daha fazla bilgi işlem kaynağı gerektirir. Aynı zamanda kullanıcılar her zaman sayfaları sonuna kadar okumadıkları için web sayfalarının tüm metinlerinin buluta gönderilmesi gereksiz görünüyor. Sunucu kaynaklarından ve kullanıcı trafiğinden tasarruf etmek için Çevirmen'e şunu kullanmayı öğrettik:

Arama motorları tarafından indekslenen yarım milyardan fazla web sitesi kopyası bulunmaktadır ve toplam web sayfası sayısı onbinlerce kat daha fazladır. Rusça içerik tüm internetin %6'sını kaplıyor.

Nasıl çevirilir gerekli metin hızlı ve yazarın kastettiği anlamı koruyacak şekilde. İstatistiksel içerik çeviri modüllerinin eski yöntemleri çok kuşkulu bir şekilde çalışmaktadır, çünkü... Kelimelerin eğimini, gerginliği vb. Doğru bir şekilde belirlemek imkansızdır. Kelimelerin doğası ve aralarındaki bağlantılar karmaşıktır, bu yüzden sonuç bazen çok doğal görünmüyordu.

Artık Yandex, ortaya çıkan metnin kalitesini artıracak otomatik makine çevirisini kullanıyor. En son sürümü indir Resmi sürüm yeni yerleşik çeviri ile tarayıcınızı kullanabilirsiniz.

İfadelerin ve kelimelerin hibrit çevirisi

Yandex tarayıcısı, bir sayfayı bütün olarak çevirebildiği gibi kelimeleri ve cümleleri de tek tek çevirebilen tek tarayıcıdır. Bu işlev, az çok yabancı dil konuşan ancak bazen çeviri güçlükleriyle karşılaşan kullanıcılar için çok faydalı olacaktır.

Kelime çeviri mekanizmasına yerleştirilmiş sinir ağı, verilen görevlerle her zaman başa çıkamadı çünkü nadir kelimeler metne entegre etmek ve okunabilir hale getirmek son derece zordu. Artık uygulamaya eski teknolojiler ve yeni teknolojiler kullanılarak hibrit bir yöntem yerleştirildi.

Mekanizma şu şekildedir: Program seçilen cümleleri veya kelimeleri kabul eder, ardından bunları hem sinir ağı modüllerine hem de istatistiksel tercümana verir ve yerleşik algoritma hangi sonucun daha iyi olduğunu belirleyip kullanıcıya verir.

Sinir ağı çevirmeni

Yabancı içerik çok özel bir şekilde biçimlendirilmiştir:

başlıklardaki kelimelerin ilk harfleri büyük yazılır;
cümleler basitleştirilmiş dilbilgisi ile oluşturulmuştur, bazı kelimeler çıkarılmıştır.

Web sitelerindeki gezinme menüleri, konumları dikkate alınarak analiz edilir; örneğin Geri kelimesi, doğru şekilde geri çevrilmiş (geri dön) ve geri değil.

Yukarıda belirtilen tüm özellikleri hesaba katmak için geliştiriciler ayrıca, halihazırda çok sayıda metin verisi kullanan bir sinir ağını da eğitti. Artık çevirinin kalitesi içeriğin konumundan ve tasarımından etkileniyor.

Uygulanan çevirinin sonuçları

Çevirinin kalitesi, makine çevirisi ile profesyonel çeviriyi karşılaştıran BLEU* algoritmasıyla ölçülebilir. %0'dan %100'e kadar kalite ölçeği.

Nöral çeviri ne kadar iyi olursa yüzde de o kadar yüksek olur. Bu algoritmaya göre Yandex tarayıcısı 1,7 kat daha iyi çeviri yapmaya başladı.