Proč má strojový překlad stále daleko k dokonalosti

Vše začalo před 60 lety na Georgetownské univerzitě. Za tu doby ušly strojové překladače kus cesty, dodnes si ale vylámou zuby na kdejakém idiomu.

Jednoho chladného lednového rána roku 1954 se na půdě Georgetownské univerzity sešla skupina lingvistů a s pomocí elektronkové mašiny IBM 701 se zapsali do dějin, jako jedni z prvních totiž demonstrovali možnosti strojového překladače.

Takzvaný Georgetown-IBM experiment byl docela jednoduchý. Paměť počítače pojala pouhých 250 slov v angličtině a ruštině, stroji se ale přesto podařilo přeložit přes šedesát ruských vět z všemožných oborů.

Klepněte pro větší obrázek
Procesor počítače IBM 701 (Zdroj: Wikimedia, CC-BY-SA)

Následujících šedesát let pak lingvisté a matematici strávili hledáním té nejlepší metody, která by přeložila větu z jednoho jazyka do druhého, aniž by se změnil její význam.

Statistická metoda

Tou nejprostší metodou je prostá substituce – náhrada. Jednoduše půjdeme slovo od slova a přeložíme jej, jako bychom měli v rukou papírový slovníček. Tato metoda ale zdaleka nefunguje vždy, protože jedno slovo může mít více významů a záleží tedy na kontextu celé věty.

Krásným příkladem může být jednoduché sdělení Dejte mi pokoj!

Kdyby stroj postupoval slovo od slova, musel by se zákonitě zastavit u pokoje, který má více významů. Může to být místnost ale stejně tak klid a odpočinek. Substituční metoda tento rébus jednoduše nerozlouskne.

Klepněte pro větší obrázek
S tímto překladem by si primitivní substituční překladač neporadil, slovo pokoj má totiž v každé větě zcela odlišný význam

S příchodem moderních počítačů se začala prosazovat statistická metoda, jejímž základem jsou rozsáhlé databáze textů ve více jazykových verzích. Software může každý z textů projít slovo od slova a zkoumat vzájemnou korelaci pořadí slov v jednotlivých jazykových mutacích.

Když by pak strojový překladač dostal za úkol přeložit určitou posloupnost slov z jazyka A do jazyka B, prostě se pokusí pomocí předchozí analýzy zvolit posloupnost s nejlepší korelací – a tedy pravděpodobností, že se bude jednat o správný překlad.  Příkladem statistického strojového překladače je dnes především Google, i když samozřejmě kombinuje více technik.

Strojové překladače se zlepšují díky byrokracii

Aby mohla statistická metoda fungovat co nejlépe, potřebuje především jeden text přeložený do hromady jazyků, na kterém se může učit. Právě proto lidstvo s trochou nadsázky vytvořilo OSN, jejíž úřední materiál v minulosti posloužil mnoha statistickým strojovým překladačům.

Dalším zajímavým zdrojem dat může být pravděpodobně nejznámější literární dílo všech dob – Bible, protože především její evangelia byla přeložená do desítek jazyků.

Statistickým překladačům nakonec velkou měrou pomohlo i to, na co nadává každý druhý Čech – evropská byrokracie. Takový Evropský parlament a Evropská komise totiž produkují každý den hromadu materiálů a to často ve všech úředních jazycích unie.

Klepněte pro větší obrázek
Česko-anglický korpus Europarl. Vlevo jsou surové zápisy z jednání EP v češtině, vpravo v angličtině. Google a další se na podobných zdrojových datech mohou učit, že textu X odpovídá text Y. S využitím korelace, derivace a dalších technik pak může odhadovat nejpravděpodobnější textové páry, které mu předložíte.

Výsledkem je pak třeba dvojjazyčný jazykový korpus Europarl, který vždy porovnává anglickou verzi textu s dalšími jazyky. Jen pro představu, česko-anglický korpus z let 2007-2011 zabírá 190 MB surových dat a obsahuje 668 tisíc vět a 13 milionů slov. Data může použít každý zájemce, protože se jedná o úřední materiál a tedy volné dílo, na které se nevztahují autorská práva.

Potíže s idiomy

Úřední akta jsou sice pro strojové učení nepostradatelným zdrojem informací, ale nesou sebou i svá úskalí. Jedná se zpravidla o příliš formální text, stroj se tedy nedokáže dost dobře vypořádat se specifickými frázemi a idiomy jednotlivých jazyků, kde je třeba mnohem lépe pracovat s kontextem celé věty a třeba i celým odstavcem. Na idiomech si tedy i dnes vyláme zuby nejeden strojový překladač včetně Googlu a větu „František si vystřelil z Miloše“ v podstatě přeloží stejně špatně jako primitivní substituční strojový překladač, protože se v jeho vícejazyčných zdrojových korpusech tato fráze vůbec nevyskytuje.

Klepněte pro větší obrázek
Nad podobným překladem by asi Angličan jen nechápavě kroutil hlavou

Google se proto nespoléhá pouze na matematiku, ale již dříve do boje povolal to nejlepší, co mu mohla komunita nabídnout – lidský mozek. Pokud máte pocit, že jsou překlady od Googlu spíše bezedným zdrojem humoru než solidní lingvistické práce, věnujte svůj volný čas dobré věci a navštivte stránky Google Translate Community (Beta), kde se můžete zapojit přinejmenším do hodnocení kvality překladů. Google vám vždy nabídne dvojici textu třeba v češtině a angličtině a vy ohodnotíte, jestli se jedná o správný, nebo naopak špatný překlad. Právě tímto způsobem pak mohou Google a další zlepšovat především práci se zmíněnými idiomy a dalším specialitami jednotlivých jazyků.

Klepněte pro větší obrázekKlepněte pro větší obrázek
Translate Community, aneb vylepšujeme jazykový korpus Googlu

„Vymodelujte si ptáka“

Abychom ale Googlu nekřivdili, občas idiomy zná, ale naopak je neumí použít – respektive je preferuje i tam, kde nejsou nutné. Překladač si tak třeba před dvěma lety sice chytře, ale zcela špatně vyložil titulek našeho článku o modelovacím nástroji od Autodesku s názvem „Vymodelujte si vlastního ptáka přímo v prohlížeči.“

Češtinářská jazyková lahůdka dala zabrat i nejednomu čtenáři, Googlu se tedy nemůžeme moc divit, jaké však muselo být překvapení v San Francisku, když jsme dostali zprávu, že si lidé z Autodesku prohnali článek překladačem a na obrazovce se jim zobrazilo „(S)Hape your own dick in your browser.“

Klepněte pro větší obrázek
Ne, tentokrát nám opravdu nešlo o český slang, ale Google mu dal přesto přednost. Zdá se tedy, že se v jeho korpusu vyskytuje slovo pták především ve slangovém kontextu a statistický engine mu proto dává vyšší pravděpodobnost.

Ten překlad je zajímavý hned ze dvou důvodů. Namísto doslovného a v tomto případě opravdu správného „bird“ se v textu objevil slangový překlad „dick“ a namísto „Shape“ (vytvarovat) chybné slovíčko „Hape“, které naprosto nic neznamená ani podle Oxfordského slovníku a tedy se nejspíše jedná o překlep slova „shape“, který se objevil v některém ze zdrojových korpusů, podle kterých se překladač učí.

Specialitou každého statistického překladače je i určitá míra nahodilosti. Stačí pozměnit slovosled, smazat jedno nepodstatné slůvko a text má rázem zcela jinou matematickou reprezentaci a tedy i pravděpodobnost různé odpovědi.

Pokud bychom tedy z původní věty smazali nepodstatné „si“, věta „Vymodelujte vlastního ptáka přímo v prohlížeči“ se přeloží jako Model your own dick in your browser.“ Namísto patvaru Hape tedy nyní Google používá jiné slovo.

Pojďme ale ještě o kousek dál a ponechme ve zdrojovém textu pouze slůvko „Vymodelujte.“ Google jej pokaždé přeloží jako „Model your“ a této verze se drží jako klíště. Větu „Vymodelujte jeho dům“ tedy tvrdohlavě překládá jako „Model your house.“

Google bude více hovorový

Podobných šotků najdete v překladači tisíce a Google hledá cestu, jak nad nimi konečně vyzrát. Na svém blogu tak nyní oznámil, že se začal soustředit na hovorovou mluvu z diskuzí a chatů a bude konstruovat lepší překlady než dříve.

Klepněte pro větší obrázek
Překlady by měly být lepší, ale především u těch nejpoužívanějších jazyků, kde má Google dostatek zdrojových dat k analýze

Pomůže mu v tom komunita už samotným používáním překladače, z telemetrických dat lze totiž zjistit, jak jsou vlastně uživatelé s překladem spokojeni – jestli jim stačí první verze, nebo upravují text, dokud nejsou spokojeni. A překladatelé službu Translate opravdu náležitě vytěžují, Google totiž dnes každý den přeloží neskutečných 100 miliard slov.

O něčem podobném se lingvistům z projektu Georgetown-IBM před těmi šedesáti lety ani nesnilo.

Diskuze (14) Další článek: Xiaomi MiNote Pro: nedokonalý übertelefon [recenze]

Témata článku: Mobilní aplikace, Technologie, Volný čas, Shape, Pro +, Dok, Určitá míra, Dokonalost, Stroj, Strojový překlad, Krásný příklad, František, Str, Lidstvo, Šot, Titulek, Bible, Autodesk, Lidský mozek, Autorská práva, Překlad, Evropský parlament, Oxford, Jednotlivý jazyk, Hodnocení kvality



Sex manželských párů? Jen výjimečně. Ložnice ovládnou roboti s umělou inteligencí

Sex manželských párů? Jen výjimečně. Ložnice ovládnou roboti s umělou inteligencí

** Sex manželských párů jen při zvláštních příležitostech. ** Ložnice ovládnou sexuální roboti s umělou inteligencí. ** I to je jeden ze závěrů Mezinárodní robotické konference.

Filip KůželJiří Liebreich
RobotiSexUmělá inteligence
Vybrali jsme nejlepší telefony, které si v červnu 2022 můžete koupit

Vybrali jsme nejlepší telefony, které si v červnu 2022 můžete koupit

** Každý měsíc vybíráme nejlepší mobily v několika kategoriích. ** Smartphony dělíme podle výbavy a ceny, aby si mohl vybrat každý. ** Nezapomínáme ani na tablety a tlačítkové telefony.

Jan Láska
TelefonySmartphonyNákup a ceny
Malé telefony s Androidem ještě nevymřely. Cubot Pocket si vás získá čtyřpalcovým displejem a nízkou cenou

Malé telefony s Androidem ještě nevymřely. Cubot Pocket si vás získá čtyřpalcovým displejem a nízkou cenou

** Hledáte kompaktní telefon okolo čtyř palců? ** Dotykáč už možná nenajdete, budou zde jen tlačítkové telefony ** Zavedené pořádky chce změnit Cubot Pocket

Martin Chroust
Kompaktní velikostAndroid
Nový hit. Tahle appka vám udělá profilovku jako od pouličního ilustrátora

Nový hit. Tahle appka vám udělá profilovku jako od pouličního ilustrátora

** Aplikace NewProfilePic se na Androidu stala hitem ** Můžete si v ní vytvořit profesionálně vypadající profilovky ** Pozor ale na agresivní cenovou politiku za Pro verzi

Martin Chroust
FotografieUmělá inteligenceMobilní aplikace
Google není jen vyhledávač: 15 užitečných funkcí, o kterých možná ani nevíte

Google není jen vyhledávač: 15 užitečných funkcí, o kterých možná ani nevíte

** Google umí kromě vyhledávání i spoustu dalších věcí ** Vybrali jsme více než 15 užitečných funkcí a schopností ** Stačí zadat do vyhledávače ta správná klíčová slova

Karel Kilián
TipyVyhledávačeGoogle
Horší než covid, mobilní výrobci zažívají krušné časy. Samsungu uvízlo po světě 50 milionů neprodaných telefonů

Horší než covid, mobilní výrobci zažívají krušné časy. Samsungu uvízlo po světě 50 milionů neprodaných telefonů

** Dozvuky pandemie, nedostatek čipů a teď zase válka ** (Nejen) mobilní výrobci zažívají krušné časy ** Samsung má např. ve skladech na 50 milionů neprodaných telefonů

Martin Chroust
Nižší třídaStřední třída