Zakaj prevajalci ni treba bati Google Neural Mreže. Umetna inteligenca v Yandex.Browser Prevajanje nevronske mreže

Ta opomba je odličen komentar na novice o Google translate, ki je priključen ruski jezik, da prevaja z globoko učenje. Na prvi pogled se sliši in izgleda zelo kul. Vendar pa bom pojasnil, zakaj ne bi smeli pohiteti s sklepi o "prevajalcih ne potrebujejo več."


Trik je, da je danes tehnologija sposobna zamenjati ... Da, ni mogoče zamenjati nikogar.
Prevajalec ni tisti, ki pozna tujega jezika, fotografa pa ni tisti, ki je kupil velik črn gospod. to predpogojiVendar daleč od zadostnega.

Prevajalec je tisti, ki popolnoma dobro pozna njegov jezik, dobro razume nekoga drugega in lahko natančno posreduje odtenke pomena.

Vsi trije pogoji so pomembni.

Medtem ko sploh ne vidimo prvega dela (v smislu »pozna vaš jezik«). No, vsaj za rusko, medtem ko je vse zelo slabo. To je nekaj, in algoritemski ureditev je odličen algoritem (besedo, ki jo je leta 1994 spopadal leta 1994, ki ga je licenciran algoritem na lokalnem), in za nevronsko mrežo besedilnega območja ZN tik nad streho.

Kdo se ne zaveda, vsi uradni dokumenti ZN so izdani v petih jezikih stalnih članov Varnostnega sveta, vključno z ruskim, in to je največja osnova zelo visoko kakovostnih prevodov istih besedil za te pet jezikov . V nasprotju s prenosom umetniška delaKadar lahko "tolmač trpi", se baza ZN odlikuje natančen prenos najboljših odtenkov pomena in idealno skladnost z literarnimi standardi.

To dejstvo, plus absolutno brezplačno, je idealen nabor besedil (stanovanj) za umetno usposabljanje prevajalcev, čeprav zajema le zgolj uradno-birokratsko podskupino jezikov.


Vrnimo se na naše sodce prevajalcev. V skladu z zakonom Pareto je 80% poklicnih prevajalcev slabo. To so ljudje, ki so zaključili tuje jezikovne tečaje ali, v najboljšem primeru, kakšno regionalno perspektivo s posebnostjo "Učitelj tujega jezika mladih razredov za podeželje". In nimajo drugega znanja. V nasprotnem primeru ne bi sedeli na eni od najnižjih delovnih mest.

Ali veste, kaj zaslužijo? Ne, ne na prevode. Stranke teh prevodov praviloma razumejo besedilo v boljšem prevajalcu tujega jezika.

Sedijo o zahtevah zakonodaje in / ali lokalnih običajev.

No, tukaj bi morali imeti navodila za blago v ruščini. Zato uvoznik najde osebo, ki pozna malo "uvoženega" jezika, in da poučevanje prevaja. Ta oseba ne pozna blaga, nima znanja na tem področju, je imel "tri minus" v ruščini, vendar - prevaja. Rezultat je znan vsem.

Še slabše, če se prevaja obratna stran", Jaz. Na jeziku nekoga drugega (Pozdravljeni na Kitajce). Potem bo njegovo delo verjetno šlo na "Bannice" iz exlera ali njihovega lokalnega analoga.

Ali imate težji primer. Ob stiku z državo. Organi s tujimi dokumenti je treba predložiti prevodu teh dokumentov. Poleg tega prevod ne bi smel biti iz strica Vasi, temveč iz pravno spoštovanja pisarne, z "mokrimi" pečaji itd. No, povejte mi, kako težko je "prevesti" vozniško dovoljenje ali pa je rojstni list? Vsa polja so standardizirana in oštevilčena. "Prevajalec" potrebuje, v najslabšem primeru, preprosto preračunajo lastna imena iz ene abecede na drugo. Ampak ne, "stric Vasya", in najpogosteje, zaradi ne celo zakona, ampak preprosto notranja navodila lokalnih uradnih šefov.

Bodite pozorni, 80% prevoda Brez povezave živi pod notarji. Ugani S. trikratZakaj?

Kako bo ta prevajalci vplival na videz dobrega strojno prevajanje? Da, ne No, jaz. Obstaja upanje, da se bo kakovost njihovih prevodov še vedno izboljšala v nekaterih majhnih vidikih, kjer je nekaj za prevajanje. No, to je vse. Delovni čas Tu se ne bo bistveno zmanjšala, ker in zdaj večina časa kopirajo besedilo iz grafa v grafu. "V tem siru, toliko beljakovin, toliko ogljikovih hidratov ..." Nacionalne oblike v različne države Drugače, zato delo ne bo manjše. Še posebej, če ne prizadevate.

Vmesni izhod: Nič se ne bo spremenilo na spodnje 80%. Prav tako zaslužijo ne, ker prevajalci, ampak zato, ker birokrati nižje ravni.

Poglejmo nasprotni del spektra, no, naj bo zgornja 3%.

Najbolj odgovorni, čeprav ne najbolj tehnično kompleksno 1%: sinhroni prevod zelo pomembno pogajanja. Običajno med velikimi družbami, vendar v mejah - v ZN ali podobnih vrhovih. Ena napaka prevajalca med menjalom niti ne pomeni - čustva, lahko v najslabšem primeru vodi v atomsko vojno. Hkrati, kot razumete, čustvena barva celo sovpada dobesedno fraze različni jeziki Lahko zelo drugačen. Ti. Prevajalec mora idealno poznati kulturni kontekst svojih delovnih jezikov. Banalni primeri so besede "negro" in "onemogočeni". So skoraj nevtralne v ruskem in svetlo čustveno pobarvane, vse do opazovalnega, v sodobni angleščini.

Takšni prevajalci se ne smejo bati AI: Nihče ne bo nikoli zaupal tako odgovornosti na avto.

Naslednji 1% je umetniški prevajalci. No, na primer, imam celoten polk, dodeljen pod skrbno zbranih izvirnih angleško govorečih izdaj Conan Doyle, Lewis Carolla, Hugh Laurie - v izvirniku, brez kakršne koli prilagoditve in naša lokalna ponatis tam. Branje teh knjig je popolnoma razvijanje besedišča, veste, no, poleg ogromnega estetskega užitka. I, diplomant prevajalec, lahko pretvorim zelo blizu besedila kakršno koli ponudbo iz teh knjig. Toda prevod? Žal ne.

Nimam niti zagozdenja o prevodih poezije.

Nazadnje, najbolj tehnično kompleksen (za nevronsko mrežo je sploh nemogoče) 1% je znanstveni in tehnični prevod. Običajno, če je nekatera ekipa v neki državi pobegnila na svojem področju, imenujejo svoja odkritja in izume v svojem jeziku. Morda je tako, da je v drugi državi še ena ekipa neodvisno izumila / odprla isto stvar. Tako se je pojavil, na primer, zakoni Boyl Mariott, Mendeleev-Poisson in spore na temo Popov / Marconi, Mozhaisk / Brothers Wright / Santos Dimon.

Ampak, če je tuja ekipa "popolnoma jahanje" naprej, "lovljenje" znanstveniki imajo dve možnosti v jezikovnem pomenu: za izračun ali prevajanje.

Kanal imenu novih tehnologij, seveda lažje. Tako se je pojavil ruski algebra, zdravilo in računalnik, Francoščina - bistro., datcha. in vodka.; v angleščini - sputnik., tokamak in perestroika..

Ampak včasih so prevedeni. Humanitarni glas v moji glavi je divje boj iz mandata tachsota. Sklicevati na argument Fourierjevega preoblikovanja Fu Fourierjevega preoblikovanja kot prevod za querquency.. Šale na stran, v Googlu ni takšnih pogojev - vendar imam papirnato tutorial na digitalnih signalih, odobrenem in posvetujem Ministrstvo Earl, v katerem so ti pogoji.

In da, analiza dotika je edini (znan) način za razlikovanje moškega glasu od ženske. Opcije?

Jaz sem klon, da: ti ljudje nimajo ničesar, da bi se bali, ker sami tvorijo jezik, nove besede in izrazi se uvedejo v to. Neuraltas se učnejo na svojih odločitvah. No, ne pozabite na dejstvo, da ti znanstveniki in inženirji ne zaslužijo pretvorbe.

No, končno, " srednji razred", Dobri profesionalni prevajalci, vendar ne vrhovi. Po eni strani so še vedno zaščitene z birokracijo - Prevedi, na primer navodila, vendar ne za homeopatske bazene, ampak, recimo, na običajna zdravila ali tam stroji. Po drugi strani pa je to danes sodobne delavce z visoko avtomatizacijo dela. Njihovo delo se že začne z zbiranjem "slovarja" smislu, tako da je bil prevod inariziran, nato pa je dejansko sestavljen iz urejanja besedila v specializiranem tipu TDADOS. Nevronske mreže bodo zmanjšale število potrebnih sprememb in povečale produktivnost dela, vendar se ne bodo bistveno spremenile.

Skupaj, govorice o smrti poklica običajnega prevajalca so rahlo pretirane. Na vseh ravneh se delo rahlo pospeši in konkurenca se bo nekoliko povečala, vendar ni nič nenavadnega.

Toda kdo bo prišel - tako je to preveden novinarje. Pred 10 leti se lahko tiho sklicujejo na članek angleškega jezika, iz katerega niso razumeli ničesar in napisali popolno neumnost. Danes se trudijo, toda tisti, ki poznajo angleške bralce, z istim časom, ki jih naredijo v ... No, razumeli ste.

Na splošno je njihov čas opravil. Z univerzalnim strojem prevajalca srednjega nivoja, čeprav malo koryaty, "novinarji"

Yandex. Vlak je naučil biti prijatelji z nevronsko mrežo in uporabnikom omogočil boljše besedila. V Yandexu je začel uporabljati hibridni sistem prevajanja: sprva delal statistično, in zdaj ga dopolnjuje tehnologija strojno učenje Catboost. Resnica je ena, ampak. Do sedaj samo za prevod iz angleščine v ruščino.

V Yandexu trdijo, da je to najbolj priljubljena smer prenosov, ki potrebujejo 80% vseh.

Catboost je pametna stvar, ki je, ki je prejela dve različici prevod, jih primerjata z izbiro najbolj človeka.

V statistični različici je prevod običajno razdeljen na ločene fraze in besede. Neuroate To ne, analiziram predlog kot celoto, glede na možni kontekst. Zato je velik podoben človeški prevod, ker lahko nevronska mreža upošteva ujemanje besed. Vendar pa ima statistični pristop tudi svoje prednosti, ko ne fantazira, če vidi redke ali nerazumljiva beseda. Da bi bilo neravnato, lahko poskusi ustvarjalnost.

Po danes bi morala napoved zmanjšati število slovničnih napak v avtomatskih prevodih. Zdaj gredo skozi jezikovni model. Zdaj ne bi smeli priti v trenutke v duhu "Oče" je šla "ali" močne bolečine. "

V spletni različici trenutno lahko uporabniki izberejo različico prevoda, ki se jim zdi najbolj pravilna in uspešno, za to je ločen sprožilec.

Če ste zainteresirani za IT World News tudi močno, kot smo, se naročite na naš telegram kanal. Vsi materiali se pojavijo čim prej. Ali pa ste bolj priročni? Smo celo v.

Vam je bilo všeč članek?

Ali vsaj zapustiti zadovoljnega komentarja, tako da vemo, katere teme so najbolj zanimive za bralce. Poleg tega nas navdihuje. Spodnji obrazec za komentarje.

Kaj je narobe z njo? Lahko izrazite svoje ogorčenje [E-pošta, zaščitena] Poskušali bomo upoštevati vašo željo v prihodnosti, da bi izboljšali kakovost materialov spletnega mesta. In zdaj bom pritegnil izobraževalno delo z avtorjem.

ali pa se bo količina razvijala v kakovosti

Članek, ki temelji na govoru na konferenci Reef + Kib 2017.

Nevronski strojski prevod: Zakaj je prav zdaj?

O nevronskih omrežjih se že dolgo govori in se zdi eno od klasične naloge Umetna inteligenca - strojni prevod - preprosto predlaga, da se reši na podlagi te tehnologije.

Kljub temu, tukaj je dinamika priljubljenosti pri iskanju zahtev za nevronske mreže na splošno in o nevronskih strojno prevajanje zlasti:

Popolnoma je jasno, da na radarju do nedavnega ni nič o nevronskem strojnem prevodu - in konec leta 2016 so njene nove tehnologije in strojno prevajalske sisteme, zgrajene na osnovi nevronskih mrež, pokazale več podjetij naenkrat, med katerimi je Google, med katerimi Google, Microsoft in Systran. Pojavili so se skoraj istočasno, z razliko v več tednih ali celo dneh. Zakaj je to?

Da bi odgovorili na to vprašanje, je treba razumeti, kateri stroj prevod na podlagi nevronskih mrež in kakšna je ključna razlika od klasičnih statističnih sistemov ali analitičnih sistemov, ki se danes uporabljajo za strojno prevajanje.

V središču nevrolnega prevajalca, dvosmernih ponavljajočih se nevronskih omrežij (dvosmernih ponavljajočih se nevronskih mrež), zgrajenih na matričnih izračunih, ki vam omogoča, da gradijo bistveno bolj zapletene verjetnostne modele kot statistični prevajalci.


Kot statistični prevod, nevronsko prevedeno zahteva vzporedno ohišje, ki jih je treba usposobiti, kar vam omogoča, da primerjate avtomatski prevod z referenčnim "človekom", samo v učnem procesu pa ne deluje posameznih stavkov in besednih zvez, temveč za celotne predloge. Glavni problem je, da obstaja bistveno več računalniških zmogljivosti za usposabljanje takšnega sistema.

Če želite pospešiti postopek, razvijalci uporabljajo GPU iz NVIDIA, in Google je tudi Tenzorska obdelava (TPU) - lastne razvojne žetone, ki se posebej prilagodijo tehnologijam strojnih učenja. Grafični čipi so bili prvotno optimizirani pod algoritmi matričnih izračunov, zato je dobiček uspešnosti 7-15-krat v primerjavi s CPU.

Tudi z vsem tem usposabljanje enega nevrolnega modela zahteva od 1 do 3 tedne, medtem ko se statistični model prilagodi enake velikosti za 1-3 dni, in s povečanjem velikosti se ta razlika poveča.

Vendar pa niso le tehnološki problemi zavora za razvoj nevronskih mrež v okviru problema strojno prevajanje. Na koncu je bilo možno usposobiti jezikovne modele pred, čeprav počasi, vendar ni bilo temeljnih ovir.

Pohvalila je vloga nevronskih mrež. Razvoj v sebi je vodil mnogi, vendar ne mudi, da bi ga razglasili, se bojijo, da je možno povečati kakovost, ki jo družba pričakuje od fraze nevronskih mrež. To lahko pojasni dejstvo, da je več nevronskih prevajalcev takoj napovedalo enega za drugim.

Kakovost prevajanja: čigar Bleu rezultat debelejši?

Poskusimo razumeti, ali je povečanje kakovosti prevajanja skladno z nakopičnimi pričakovanji in stroški stroškov, ki spremljajo razvoj in podporo nevronskih omrežij za prevajanje.
Google v svoji raziskavi kaže, da nevronski strojni prevod daje relativno izboljšanje s 58% na 87%, odvisno od jezikovnega para, v primerjavi s klasičnim statističnim pristopom (ali stavek, ki temelji strojne prevajalke, PBMT, kot se imenuje tudi).


Systran vodi študijo, v kateri je kakovost prevajanja ocenjena z izbiro več predstavljenih možnosti različni sistemi, kakor tudi prevod "človeško". In izjavlja, da njen nevronski prevod raje 46% primerov prevajanja, ki ga je opravil človek.

Kakovost prevoda: Ali obstaja preboj?

Kljub dejstvu, da Google izjavlja izboljšanje za 60% in še višje, v tem kazalniku je majhen ulov. Predstavniki podjetja govorijo o "relativnem izboljšanju", to je, kolikor se je uspelo približati kakovosti človeškega prevoda v zvezi s tem, kar je bilo v klasičnem statističnem prevajalcu.


Strokovnjaki industrije, ki analizirajo rezultate, ki jih je predstavil Google v članku "Google" Strojno prevajalski sistem nevronov: Premostitev vrzeli med človeškim in strojnim prevodom "se dovolj nanaša na predstavljene rezultate in recimo, da je v resnici Bleu rezultat uspelo izboljšati le 10% in pomemben napredek je opazen. enostavni testi Iz Wikipedije, ki je bila najverjetneje uporabljena v procesu usposabljanja omrežja.

Znotraj ProMT, redno primerjamo prevode na različnih besedilih naših sistemov s konkurenti, zato obstajajo vedno primeri na roki, na katerih lahko preverimo, ali je nevronalni prevod res tako boljši od prejšnje generacije, kot so navedeni proizvajalci.

Izvorno besedilo (EN): Skrb nikomur nikogar ni dobro.
Google PBMT prevod: Ne skrbi, ni storil ničesar dobrega.
Google NMT: Anksioznost nikomur ni pomagala.

Mimogrede, prevod istega stavka na prevajanje.RU: "Navdušenje nikoli ni prineslo koristi vsem," lahko vidite, da je bilo in je ostala enaka in brez uporabe nevronskih mrež.

Microsoft prevajalec v tej zadevi tudi ne zaostaja. Za razliko od sodelavcev Googla so celo naredili spletno stran, kjer lahko prevod in primerjamo z dvema rezultati: nevronske in podudveone, da se prepričajo, da so obtožbe o rasti, ki niso neutemeljene.


V tem primeru vidimo, da je napredek, in to je res opazno. Na prvi pogled se zdi, da je izjava razvijalcev, da je strojni prevod praktično ujet z "človekom", je res. Ampak res je res in kaj pomeni z vidika praktična uporaba Tehnologije za podjetja?

Na splošno prevod z uporabo nevronskih omrežij presega prevajalske statistične, ta tehnologija pa ima velik potencial za razvoj. Ampak, če skrbno približate vprašanje, bomo lahko zagotovili, da napredek ni v vsem, in ne za vse naloge, ki jih lahko uporabite nevronske mreže brez upoštevanja sami naloge.

Strojna prevod: Kakšne so naloge

Od avtomatskega prevajalca, celotna zgodba o njenem obstoju - in to je več kot 60 let! - Čakal sem na nekaj čarovnije, ki ga je predstavil kot pisalni stroj iz fantastičnih filmov, ki takoj prenese vsak govor v tujec piščalko in nazaj.

Dejansko so naloge različnih ravneh, od katerih eden pomeni "univerzalno" ali, če se lahko razbije, "gospodinjski" prevod za vsakodnevne naloge in olajša razumevanje. Z nalogami te ravni, spletne prevajalske storitve in številne mobilne izdelke so popolne.

Te naloge vključujejo:

Hitri prevod besed in kratka besedila za različne namene;
Samodejni prevod v proces komuniciranja na forumih, v socialna omrežja, glasniki;
Avtomatski prevod pri branju novic, Wikipedia člankov;
Priklopnik na potovanju (mobilni).

Vsi ti primeri kakovosti prevajanja z uporabo nevronskih mrež, ki smo jih obravnavali zgoraj, so natančno povezani s temi nalogami.

Vendar pa je s cilji in cilji poslovanja v zvezi s strojno prevajanje, vse je nekoliko drugačno. Tu, na primer, nekatere zahteve, ki so predstavljene podjetjem strojne prevajalske sisteme:

Prevajanje poslovne korespondence s strankami, partnerji, vlagatelji, tujimi zaposlenimi;
Lokalizacija spletnih mest, spletnih trgovin, opisov izdelkov, navodil;
Prevajanje vsebine uporabnikov (pregledi, forumi, spletni dnevniki);
Sposobnost prevajanja v poslovne procese in izdelke in storitve programske opreme;
Natančnost konverzij z upoštevanjem terminologije, zaupnosti in varnosti.

Poskusimo razumeti, ali so poslovne naloge rešene na prevajanje z nevronskih mrež in kako.

Case: Amadeus.

Amadeus je eden največjih svetovnih svetovnih distribucijskih sistemov letenja. Po eni strani so zračni prevozniki povezani z njim, na drugi strani, ki bi morala prejeti vse spremembe v realnem času sprememb in posredovati svojim strankam.

Naloga je lokalizirati pogoje za uporabo tarif (tarifna pravila), ki se samodejno ustvarijo v sistemu rezervacij iz različnih virov. Ta pravila so vedno oblikovana v angleščini. Ročni prevod tukaj je praktično nemogoč, zaradi dejstva, da obstaja veliko informacij in se pogosto spreminja. Agent za prodajo vozovnice želi prebrati pravila o vodah v ruščini, da bi takoj in kvalificirala za svetovanje svojim strankam.

Zahteva jasen prevod, ki prenaša pomen tarifnih pravil, ob upoštevanju tipičnih izrazov in kratic. In to je potrebno, da je samodejni prevod integriran neposredno v sistem rezervacije Amadeus.

→ Podrobnosti o izvajanju naloge in projekta je pobarvana v dokumentu.

Poskusimo primerjati prevod, narejen preko API PROMT Cloud, ki je integriran v prevajalce Amadeus Fare Translator, in "Nevronski" prevod iz Googla.

Original: Okrogla potovanje Instant Nakup Cene

PROMT (analitični pristop): Instant tarife za nakup letal in nazaj

GNMT: Okrogla Nakupovanje

Očitno je tukaj nevronski prevajalec Ne spopada se, malo pa postane jasno, zakaj.

Case: TripAdvisor.

TripAdvisor je ena največjih turističnih storitev na svetu, ki ne potrebuje predstavitve. V skladu s članka, ki jo je objavil telegraf, 165.600 novih pregledov o različnih turističnih lokacijah v različnih jezikih se na spletnem mestu prikazujejo na spletnem mestu.

Prevajanje turistov iz angleščine v rusko s kakovostjo prevajanja, ki je dovolj za razumevanje pomena tega pregleda. Glavna težava: tipične značilnosti vsebine uporabnika (besedila z napakami, tipos, besedi prehod).

Tudi del naloge je bil samodejno oceniti kakovost prevoda pred objavo na spletni strani TripAdvisor. Ker je ročna ocena celotne prevedene vsebine nemogoče, bi moralo reševanje strojno prevajanje zagotoviti avtomatski mehanizem za ocenjevanje kakovosti prevedenih besedil - ocena zaupanja, da omogoči samo TripAdvisor za objavo prevedenih pregledov visoka kvaliteta.

Tehnologija PROMT DEEPHYBRID je bila uporabljena za reševanje, ki omogoča boljše prevajanje in prevod končnega bralca, vključno s statističnim post-post-rezultatom prevodov.

Poglejmo primere:

Original: Sinoči smo jedli na muhu in je bil lep obrok. Storitev je bila na stravi, ki je bila nad ležajem.

PROMT (Hybrid prevod): Pojed smo na zadnji večer naključno, in to je bil čudovit obrok. Osebje je bilo pozoren, vendar ne organ.

GNMT: Pojed smo sinoči, ko je bil čudovit obrok. Storitev je bila pozorna, ne da bi nosila več ležajev.

Tukaj vse ni tako depresivno v smislu kakovosti, kot v prejšnjem primeru. In na splošno, v svojih parametrih, je to nalogo lahko potencialno rešeno z uporabo nevronskih mrež, in lahko še vedno izboljšuje kakovost prevoda.

NMT uporablja težave za podjetja

Kot smo že omenili, "Universal" prevajalec ne daje vedno sprejemljive kakovosti in ne more podpirati posebne terminologije. Če želite vključiti v svoje procese in uporabiti nevronske mreže za prevod, morate izvesti osnovne zahteve:

Prisotnost zadostnih količin vzporednih besedil, da bi lahko trenirala nevronsko mrežo. Pogosto jih ima stranka le malo ali v splošnih besedilih na tej temi ne obstaja v naravi. Lahko jih razvrstijo ali je v državi, ki ni zelo primerna za avtomatsko obdelavo.

Če želite ustvariti model, je potrebna baza, ki vsebuje najmanj 100 milijonov žetonov (tipkanje) in pridobitev prevajanja bolj ali manj sprejemljivega kakovosti - 500 milijonov žekonov. Vsaka družba nima tega obsega materialov.

Prisotnost mehanizma ali algoritmov za samodejno ocenjevanje kakovosti rezultata.

Zadostno računalniško moč.
"Universal" nevronski prevajalec najpogosteje ni primeren za kakovost, in da bi razširili svojo zasebno nevronsko mrežo, ki je sposobna zagotoviti sprejemljivo kakovost in hitrost, je potreben "majhen oblak".

Ni jasno, kaj storiti z zasebnostjo.
Ni vsaka stranka, ki je pripravljena dati svojo vsebino za prenos v oblak iz varnostnih razlogov, in NMT je zgodba predvsem motna.

sklepe

Na splošno, nevronski avtomatski prevod ponuja rezultat višje kakovosti kot "zgolj" statistični pristop;
Samodejno prevajanje prek nevronske mreže je bolje primerno za reševanje problema "univerzalnega prevajanja";
Noben od pristopov do samega MP ni popolno univerzalno orodje za reševanje prevoda naloge;
Za reševanje nalog za prevajanje v poslu lahko samo specializirane rešitve zagotavljajo skladnost z vsemi zahtevami.

Prišli smo do popolnoma očitne in logične rešitve, ki jo je treba uporabiti prevajalca za svoje prevajalske naloge, ki je najbolj primerna za to. Ni pomembno, ali je znotraj nevronske mreže ali ne. Razumevanje nalog je pomembnejša.

Tags: Dodaj oznake

V sodoben internet Več kot 630 milijonov lokacij, vendar le 6% jih vsebuje rusko-govorno vsebino. Jezikovna pregrada - Glavni problem porazdelitve znanja med uporabniki omrežja in verjamemo, da je treba ga rešiti ne le v tujih jezikih, ampak tudi s pomočjo avtomatskega strojno prevajanje v brskalniku.

Danes vam bomo povedali bralce Habra okoli dveh pomembnih tehnoloških sprememb v prevajalcu Yandex.bauserja. Prvič, prevod označenih besed in besednih zvez zdaj uporablja hibridni model, in vas bomo spomnili, kot da se ta pristop razlikuje od uporabe izjemno nevronske mreže. Drugič, nevronska mreža prevajalca zdaj upošteva strukturo spletnih strani, o katerih funkcije bomo tudi po rezanju.

Hybrid prevajalec besede in besedne zveze

V središču prvih strojnih prevajalskih sistemov slovarji in pravila (V bistvu, ročno napisano redno), ki je določila kakovost prevoda. Profesionalni jezikoslovci so delali že leta, da bi prinesli vse bolj podrobnejša ročna pravila. To delo je bilo tako dolgotrajno, da je bilo le najbolj priljubljenih parov jezikov, ki so bile resne pozornosti, vendar celo v svojih avtomobilih, ki so jih slabo spopadli. Live Jezik je zelo zapleten sistem, ki je slabo poslušal pravila. Še težje je opisati pravila za skladnost dveh jezikov.

Edini način, da stroj nenehno prilagodi spreminjajočim se pogojem - za naučevanje samostojno na veliko število vzporednih besedil (enako v smislu, vendar napisano v različnih jezikih). To je statistični pristop do strojno prevajanje. Računalnik primerja vzporedno besedila in neodvisno identificira vzorce.

W. statistični prevajalec Obstaja tako dostojanstvo in slabosti. Po eni strani se spominja redkih in zapletenih besed in besednih zvez. Če se bodo srečali v vzporednih besedilih, jih bo prevajalec spomnil in bo še naprej pravilno prevajal. Po drugi strani pa je rezultat prevod podoben zbrani sestavljanki: splošna slika se zdi, da je jasna, če pa gledate, je jasno, da je sestavljen iz ločenih kosov. Razlog je, da prevajalec predstavlja posamezne besede v obliki identifikatorjev, ki ne odražajo odnos med njimi. To ne ustreza, kako ljudje zaznavajo jezik, ko se besede določijo s tem, kako se uporabljajo, kot se nanašajo na druge besede in kaj se razlikujejo od njih.

Rešiti ta problem pomaga nevronske mreže. Predstavitev vektorja Word (Word Embedding), ki se uporablja v nevronskem stroju, praviloma prevede vsakemu vektorju besed v nekaj sto številkah. Vektorji, v nasprotju s preprostimi identifikatorji iz statističnega pristopa, se oblikujejo pri poučevanju nevronske mreže in upoštevajo razmerje med besedami. Na primer, model lahko prepozna, da, saj "čaj" in "kavo" se pogosto pojavita v podobnih kontekstih, obe besedi možni v okviru nove besede "razlitje", s katerim smo na primer srečali samo eno v podatkih o usposabljanju.

Vendar pa je učni proces za vektorske predstavitve očitno bolj statistično zahtevni kot mehanski zapomnik primerov. Poleg tega ni jasno, kaj storiti s tistimi redkimi vhodnimi besedami, ki se pogosto ne srečajo dovolj, da bi omrežje lahko zgradilo sprejemljivo vektorsko predstavitev za njih. V tem primeru je logično združiti obe metodi.

Od lanskega leta, Yandex.Transfer uporablja hibridni model. Ko prevajalec prejme besedilo uporabnika, mu daje prenos obeh sistemov - in nevronske mreže ter statističnega prevajalca. Nato algoritem, ki temelji na učni metodi, ocenjuje, kateri prevod je boljši. Pri ocenjevanju se na desetine dejavnikov upoštevajo - od dolžine stavka (kratki stavki bolje prevajajo statistični model) za sintakse. Prevod, ki je priznan kot najboljši uporabnik.

To je hibridni model, ki se zdaj uporablja v Yandex.Browser, ko uporabnik pošlje določene besede in besedne zveze na stran.

Ta način je še posebej primeren za tiste, ki na splošno tuj jezik In rad bi prevajal samo neznane besede. Ampak, če na primer, namesto običajne angleščine, se boste srečali s kitajskim, potem bo težko narediti brez prevajalca strani. Zdi se razliko le v obsegu prevedenega besedila, vendar ne tako preprosto.

Spletne strani tolmačenja nevronskih mrež

Od časa Georgetown Eksperimenta in praktično na naše dni, so vsi strojni prevajalski sistemi naučili za prevajanje vsake ponudbe izvornega besedila ločeno. Medtem ko spletna stran ni le sklop predlogov, ampak strukturirano besedilo, v katerem obstajajo bistveno različni elementi. Razmislite o osnovnih elementih večine strani.

Naslov. Običajno svetlo in veliko besedilo, ki ga vidimo takoj, ko vstopamo na stran. Naslov pogosto vsebuje bistvo novic, zato je pomembno, da ga pravilno prevesti. Vendar je težko to storiti, ker besedilo v naslovu ima malo in brez razumevanja konteksta, ki jo lahko naredite napako. V primeru angleški jezik Še vedno je težje, ker naslovi angleškega jezika pogosto vsebujejo fraze z nekonvencionalno slovnico, infinitivi ali celo preskočijo glagole. Na primer, Igra predelov Prequel je napovedal.

Navigacija. Besede in besedne zveze, ki nam pomagajo pri navigaciji na spletnem mestu. Na primer, Doma, Nazaj in Moj račun Malo verjetno je, da bo prevajal kot "dom", "spin" in "moj račun", če se nahajajo v meniju spletnega mesta, in ne v besedilu publikacije.

Glavno besedilo. Z njim je lažje, da se malo razlikuje od običajnih besedil in ponuja, ki jo lahko najdemo v knjigah. Toda tudi tukaj je pomembno, da se zagotovi skladnost prevodov, to je, da se zagotovi, da so bili v okviru ene spletne strani, enaki pogoji in koncepti prav tako prevedena.

Za visokokakovosten prevod spletnih strani, ni dovolj za uporabo nevronske mreže ali hibridnega modela - je potrebno upoštevati strukturo strani. In za to smo morali obravnavati številne tehnološke težave.

Klasifikacija segmentov besedila. Če želite to narediti, ponovno uporabljamo catboost in dejavnike, ki temeljijo na samem besedilu in na HTML-markepuru dokumentov (TEG, velikost besedila, število sklicevanja na besedilo enote, ...). Dejavniki so dovolj topni, zato je Catboost (na osnovi gradienta Busting) kaže najboljše rezultate (natančnost razvrščanja nad 95%). Toda ena razvrstitev segmentov ni dovolj.

Zloženo v podatkih. Tradicionalno so Yandex algoritmi usposobljeni v besedilih iz interneta. Zdi se, da je to popolna rešitev za učenje spletnih strani (z drugimi besedami, omrežje študira na besedilih iste narave kot tistih besedil, na katerih ga bomo uporabili). Toda takoj, ko smo se naučili ločiti različne segmente drug od drugega, smo našli zanimiva funkcija. V povprečju, na spletnih mestih, vsebina zavzema približno 85% celotnega besedila, naslovi in \u200b\u200bnavigacija pa imata le 7,5%. Spomnimo se, da se naslovnice in elementi elementov slog in slovnične navigacije bistveno razlikujejo od preostalega besedila. Ta dva dejavnika v agregatu vodita k problemu potapljanja podatkov. Nevronska mreža je bolj donosna, da preprosto ignorirajo posebnosti teh zelo slabo predstavljenih v segmentu usposabljanja. Omrežje se dobro nauči, da prevesti samo glavno besedilo, zaradi česar je kakovost prevoda glave in navigacije trpi. Za stopnjo tega neprijetnega učinka smo naredili dve stvari: vsak par vzporednih ponudb smo pripisali eni od treh vrst segmentov (vsebina, naslov ali navigacija) in umetno dvignila koncentracijo zadnjih dveh v paketu usposabljanja na 33% Zaradi dejstva, da je začel kažejo ta primeri pogosteje pokazati učno nevronsko mrežo.

Učenje z več nalogami. Ker lahko zdaj delimo besedila na spletnih straneh v tri razrede segmentov, se morda zdi, da je naravna ideja za usposabljanje treh ločenih modelov, od katerih se bo vsaka spopadala s prenosom njene vrste besedil - glave, navigacije ali vsebine. Res deluje dobro, vendar je diagram še boljši, na katerem poučujemo eno nevronsko mrežo za prevajanje vseh vrst besedil naenkrat. Ključ do razumevanja leži v zamisli o učenju Mutli-Task (MTL): Če obstaja notranjo povezavo med več nalog strojnega učenja, potem model, ki se nauči rešiti te naloge hkrati se lahko naučijo rešiti vsakega nalog boljši od ozkega strokovnjanega modela!

Fina nastavitev.. Imeli smo že zelo dober strojno prevajanje, zato bi bilo nerazumno usposabljanje novega prevajalca za Yandex.Bauser iz nič. Logij osnovni sistem Prenos rednih besedil in ga ponovno preučite za delo s spletnimi stranmi. V okviru nevronske mreže se to pogosto imenuje izraz fino uravnavanje. Ampak, če se približate tej nalogi v čelo, tj. Samo inicializirajte težo nevronske mreže z vrednostmi iz končnega modela in zaženite učenje na novih podatkih, lahko naletite na učinek premika domene: Ker se bo kakovost prevod spletnih strani (v domeni) rasla, vendar Kakovost konvencionalnega prevajanja (izven domene) bo padla. Da bi se znebili tega neprijetnih značilnosti, ko se uporabljamo, nalagamo dodatno omejitev nevronske mreže, ki prepoveduje, da spremeni težo preveč v primerjavi z začetnim stanjem.

Matematično, to je izraženo z dodajanjem izgube izgube (funkcija izgube) (KL-divergenco) med porazdelitvami verjetnosti prehoda naslednje besede, ki jo izdajo začetne in bagri omrežja. Kot je razvidno iz ilustracije, vodi do dejstva, da rast kakovosti prevajanja spletnih strani ne vodi več do razgradnje konvencionalnega besedila.

Poliranje frekvenčnih stavkov od navigacije. V postopku dela na novem prevajalcu smo zbrali statistične podatke o besedilih različnih segmentov spletnih strani in zanimivo. Besedila, ki pripadajo navigacijskim elementom, so precej standardizirana, zato so pogosto zastavljene fraze predloge. To je tako močno, da je več kot polovica vseh navigacijskih stavkov, ki se pojavljajo na internetu, padejo le na 2 tisoč najpogostejših njih.

Seveda smo to izkoristili in dali več tisoč najpogostejših stavkov in njihovih transferjev, da bi preverili naše prevajalce, da so popolnoma prepričani v njihovo kakovost.

Zunanje poravnave. Prevajalec spletnih strani v brskalniku je bila še ena pomembna zahteva - ne bi smel izkrivljati oznake. Ko se oznake HTML nahajajo zunaj predlogov ali na svojih mejah, se ne pojavijo težave. Če pa je v stavku, na primer, dva. poudarjeno. Besede., potem v prevodu želimo videti "dva poudaril besede". Ti. Kot rezultat prevoda je treba izvesti dva pogoja:

  1. Podčrtani fragment v prevodu mora ustrezati padcem fragmenta v izvornem besedilu.
  2. Skladnost prevajanja na meje obloženega fragmenta ne bi smela biti kršena.
Da bi zagotovili takšno vedenje, prvič prevesti besedilo kot običajno, nato pa uporabljamo statistične modele poravnave poravnave, smo določimo korespondenco med fragmenti vira in prevedenih besedil. Pomaga razumeti, kaj je treba poudariti (biti v poševnem tisku, urediti kot hiperpovezava, ...).

Križišče opazovalec. Zmogljive modele nevronskih omrežij, ki smo jih trenirali, zahtevajo opazno bolj računalniški viri na naših strežnikih (CPU in GPU) kot statistični modeli prejšnjih generacij. Hkrati uporabniki ne skrbijo vedno za strani do konca, zato pošiljanje celotnega besedila spletnih strani v oblaku izgleda nepotrebno. Da bi rešil strežniške vire in promet po meri, smo prevajalcu naučili prevajalca

Spletne strani, ki jih indeksirajo iskalniki, so opravili več kot pol milijarde kopij, skupno število spletnih strani pa je več deset tisoč krat. Rusko govoreča vsebina uvršča 6% celotnega interneta.

Kako hitro prevajanje želenega besedila in tako, da avtorja ohranja avtorja. Stare metode prevajalskih modulov Statistične vsebine delujejo zelo dvomljive, ker Nemogoče je natančno določiti deklinacijo besed, časa in še več. Narava besed in povezav med njimi je zapletena, zaradi česar je rezultat včasih izgledal zelo nenaravno.

Zdaj v Yandexu se uporablja avtomatski stroj stroj, ki bo povečal rast kakovosti končnega besedila. Prenesite najnovejšo uradno različico brskalnika z novim vgrajenim prevodom.

Hybrid prevajalski stavki in besede

Brskalnik iz Yandexa je edini, ki je sposoben prevesti stran kot celoto, kot tudi besede in besedne zveze ločeno. Funkcija bo zelo uporabna in tistih uporabnikov, ki so bolj ali manj lastnega tujega jezika, vendar se včasih soočajo s težavami prevajanja.

Vgrajeni v mehanizem prevajanja besed nevronske mreže se ni vedno spopadel z dodeljenimi nalogami, ker Redke besede so bile zelo težko vdelati v besedilo in jo naredili berljivi. Zdaj hibridna metoda, ki se uporablja za aplikacijo z uporabo starih tehnologij in novih.

Mehanizem tega: Program sprejema namenske predloge ali besede, nato pa jim daje tako nevronske mrežne module in statističnega prevajalca, vgrajeni algoritem pa določa, kateri rezultat je boljši in ga nato daje uporabniku.

Prevajalec nevronske mreže

Tuje vsebine je zelo specifično:

  • prve črke besed na naslovih so napisane v kapitalu;
  • ponudbe so zgrajene s poenostavljeno slovnico, nekatere besede se znižajo.

Navigacijski meniji na spletnih mestih se analizirajo z upoštevanjem njihove lokacije, kot je beseda nazaj, pravilno prevedena nazaj (pojdite nazaj), in ne nazaj.

Da bi upoštevali vse zgoraj navedene značilnosti, so razvijalci dodatno poučevali nevronsko mrežo, ki tako uporablja veliko paleto besedilnih podatkov. Zdaj je kakovost prevoda vpliva na lokacijo vsebine in njegovega oblikovanja.

Rezultati uporabljene transformacije

Kakovost prevoda lahko merimo z bleu * algoritmom, ki primerja stroj in prenos od profesionalca. Lestvica kakovosti od 0 do 100%.

Boljši prenos nevronov, višji je odstotek. V skladu s tem se je algoritem brskalnika Yandex začel prevajati 1,7-krat bolje.