Glosář: Strojový překlad

Základní informace

Strojový překlad (machine translation, MT) je překlad textu pomocí počítačového programu bez zásahu člověka.

Program obsahuje gramatická a skladební pravidla jazyka a velký korpus textů, v nichž vyhledává vhodné překlady na základě podobnosti s překládaným textem. Jedná se tedy v zásadě o velmi sofistikovaný „slovníkový nahrazovač“.

Aktuálně (podzim 2023) nejoblíbenějšími strojovými překladači jsou zřejmě:

  • DeepL – obvykle považován za nejlepší volně dostupné řešení
  • Google Translate – integrován do mnoha služeb společnosti Google
  • ChatGPT – není primárně určen k překladu a vyžaduje složitější obsluhu

Souvisejícím, ale ne totožným řešením je strojový překlad s následnou korekturou (opravou) člověkem, obvykle inzerovaný pod toporným názvem „post-editace strojového překladu“ (machine translation post-editing, MTPE).

Je třeba si neplést strojový překlad s překladatelským nástrojem (CAT). CAT je v zásadě textový editor se specializovanými funkcemi pro překladatele, ve kterém překlad vytváří člověk, nikoliv stroj.

Zvažujete strojový překlad? Přehledné bodové shrnutí pro praxi najdete na konci textu.


Více o heslu

Stručná historie

Pokusy o strojový překlad mají dlouhou historii. První snahy se objevily hned v prvních generacích tranzistorových počítačů v 50. letech 20. stol., převážně v USA.

Už tehdy se překlad textu stal jednou z hrstky dovedností, jejichž zvládnutí počítačem vědci považovali za nutný krok k všeobecné umělé inteligenci (artificial generalized intelligence, AGI), tedy myslícímu stroji. Pokusy o vývoj strojového překladače tedy doprovázely většinu snah o vývoj umělé inteligence.

Původně se očekávalo, že vývoj strojových překladačů srovnatelných s lidským překladatelem bude otázkou několika málo let, a AGI bude rychle následovat. To se však nestalo. První pokusy o strojový překlad byly jazykově na úrovni předškoláka a v praxi nepoužitelné. Po zjištění, že zlepšení není na tehdejších strojích reálné, zájem o vývoj AGI i strojového překladu opadl.

S postupující technikou se tento zájem v několika vlnách vrátil v následujících desetiletích, výsledek však byl podobný: Po počátečním nadšení se problém ukázal mnohem složitějším, než se dříve myslelo, a vývoj byl po mírném pokroku znovu opuštěn.

Čeští uživatelé si budou nejspíše pamatovat výsledky předposlední generace vývoje strojového překladu, která byla běžně dostupná online, zejména v podobě starších verzí Google Translate. Ty fungovaly zhruba v letech 2005 – 2020, a stejně jako předchozí generace nebyly k překladu souvislého textu použitelné. Byly však již obvykle použitelné jako náhrada slovníku pro vyhledání jednotlivých slov.

Kvality částečně použitelné k překladu souvislého textu strojové překladače dosáhly teprve nedávno s nasazením pokročilých prediktivních algoritmů, tzv. umělé inteligence (artificial intelligence, AI). Ta byla nasazena mezi lety 2020 – 2022 a dokáže generovat překlady, které jsou obvykle pro člověka na základní úrovni srozumitelné a víceméně správně předají holá fakta i z delšího textu.

Kvalita

Přes nedávné pokroky strojový překlad stále není plnohodnotnou náhradou kvalitního lidského překladatele. Výstup ze stroje vypadá na první pohled překvapivě dobře, při bližším prozkoumání však místy obsahuje významné chyby.

Navíc tyto chyby může být pro lidského čtenáře velmi těžké odhalit, neboť zbytek textu zní „rozumně“ a stroj dělá chyby jiného druhu a v jiných místech textu, než kde by chyboval člověk (a kde by tedy čtenář chybu očekával). Problémem zůstává i nedostatečná plynulost a přirozenost projevu (tzv. otrocký překlad) a neschopnost stroje zachytit jiný než prvoplánový význam (metafory, idiomy, subtext apod.).

Jsou-li ve zdrojovém textu chyby, lidský překladatel si obvykle domyslí, co chtěl autor říci, a chybu v překladu opraví. Stroj to neumí a chyby ve zdroji zůstanou i v překladu. Některé druhy chyb stroj zcela zmatou a v překladu se ještě zvětší (např. malý překlep ve zdroji často způsobí celou nesmyslnou větu v překladu).

Kvalitu strojového překladu dále významně ovlivňuje obor textu a způsob jeho výstavby: Věcné, popisné texty s jednoduchou stavbou (např. návody k použití, denní zprávy) překládá stroj převážně dobře (ne však zcela bez chyb). Naopak texty se složitější stavbou, abstraktními myšlenkami a hojným výskytem metafor (např. literatura, marketing apod.) nejsou pro strojový překlad vůbec vhodné.

Konečně kvalita strojového překladu závisí i na jazykové kombinaci: Nejlepší kvalita je obvykle dostupná pro kombinace angličtiny s ostatními významnými západními jazyky (španělština, francouzština, němčina apod.). Kombinace angličtina-čeština je na střední úrovni ve směru do češtiny, ale na relativně špatné úrovni ve směru do angličtiny.

Kombinace neobsahující angličtinu (např. čeština-němčina) jsou obecně horší, a v kombinacích sestávajících pouze z „malých“ jazyků (např. jazyky chudých zemí třetího světa) je obvykle strojový překlad nepoužitelný, nebo není dostupný vůbec.

Důvodem této závislosti kvality na jazykové kombinaci je, že moderní „AI“ překladače musí být pro každou kombinaci jazyků a každý směr překladu (tj. např. z AJ do ČJ versus z ČJ do AJ) zvlášť takzvaně „natrénovány“. To je úkol nutný k vývoji všech AI programů dnes dostupného typu, a je velmi náročný na výpočetní výkon a čas, tedy i na náklady.

Proto je nejvíce zdrojů investováno do těch jazykových kombinací, kde vývojáři systému předpokládají nejlepší zpeněžitelnost. Jde tedy obvykle o jazyky, kterými mluví co největší množství lidí v bohatších částech světa. Angličtina má navíc výhodu coby rodný a / nebo pracovní jazyk velké většiny AI vývojářů.

Výsledky „tréninku“ také významně závisí na množství textů, na nichž se AI může „učit“, a na jejich literární kvalitě. Jelikož k tréninku překladače je nutné použít párované originály a jejich překlady (tedy nikoliv např. jen jednojazyčný korpus literatury), závisí kvalita strojového překladu i na průměrné kvalitě lidských překladů v dané jazykové kombinaci.

Použitelnost

Jako překladatel zatím nemohu doporučit nasazení strojového překladu bez zásahu člověka na žádný úkol, kde na kvalitě textu záleží. Sem by měly spadat všechny situace, kde je text používán pro veřejné a / nebo obchodní účely.

I při kontrole člověkem dosahuje AI překlad přijatelné kvality jen na určitých druzích textu, jejichž výběr by měl zákazník zkonzultovat s překladatelem, který má s hodnocením strojových překladů zkušenost. Více o použitelnosti strojových překladů s opravou člověkem (MTPE) najdete v jejich glosářovém heslu.

Co se týče zde popsaného strojového překladu bez kontroly člověkem, tam je riziko chyb zatím příliš velké na to, než aby se zákazník mohl spolehnout, že text splní svůj účel a nezpůsobí mu problémy v důsledku nedorozumění.

Bohužel na českém trhu je kvalita lidských překladatelů velmi různorodá. Není vzácné se setkat s „profesionálními“ lidskými překlady, které kvalitu dnešního AI překladu (jakkoliv je tato problematická) také nepřekonají. V té situaci samozřejmě může mít zákazník pocit, že strojový překlad je menším zlem, neboť je alespoň (mnohem) levnější. Nicméně doporučeným řešením je najít si kvalitního překladatele, nikoliv na kvalitu rezignovat.

Naopak místa, kde je strojový překlad dobrým kandidátem, jsou situace, v nichž nedává ekonomický ani jiný smysl platit za překlad člověkem. Práce překladatele je časově poměrně náročná (jedna hustě popsaná strana A4 trvá zhruba hodinu) a nevyjde proto levně, a na některé úkoly se prostě nehodí.

Typickým příkladem je překlad informativních textů pro osobní potřebu čtenáře (např. překlad zahraničních zpráv, které čtete ze zájmu, nikoliv jako klíčový podklad pro svou práci) nebo pro interní potřebu organizace (např. překlad rutinního e-mailu od zahraničního partnera, kde se nediskutují klíčové otázky, ale kterému přesto musíte porozumět a srozumitelně na něj odpovědět).

Další možností využití je sebevzdělávání a seberozvoj: Zejména obyvatelům menších, jazykově izolovaných zemí (včetně Česka) se zde otevírá dříve nevídaná možnost přistoupit ihned, zdarma a z pohodlí domova k informační sféře v podstatě celého světa. To může být do budoucna velkou výhodou jak pro snížení názorové a kulturní izolovanosti, tak pro uplatnění v moderní „znalostní ekonomice“ vyspělého světa.

Použití strojových překladačů pro tyto účely tedy mohu doporučit, i když je stále nutné mít na paměti, že strojové překlady nejsou dokonalé, nemusí být literárně kvalitní (tzn. „příjemné na čtení“) a nelze jim stoprocentně věřit (kdekoliv se může objevit chyba).

Praktické otázky strojového překladu – shrnutí

Příklady veřejně dostupných systémů

  • DeepL, Google Translate, ChatGPT a další

Kvalitu ovlivňuje

  • Jazyková kombinace – větší světové jazyky mají výhodu (v češtině je kvalita na střední úrovni)
  • Směr překladu – překlad z angličtiny bývá lepší než do angličtiny (vývojáři jej prioritizují)
  • Druh textu – lepší u věcných textů s jednoduchou skladbou (návody k použití, denní zprávy apod.); horší u složitě stavěných, vysoce metaforických a / nebo uměleckých textů (marketing, literatura, eseje, věda apod.)
  • Tréninkový korpus – překladače trénované na méně kvalitních lidských překladech nemohou umět nic lepšího (překlady v Česku obecně nejsou v průměru příliš kvalitní)
  • Chybovost zdrojového textu – na rozdíl od člověka strojový překladač neumí rozpoznat a zachytit chybu ve zdroji, naopak ji v překladu často zvětší (chyba jej zmate)

Běžné kvalitativní nedostatky

  • Občasné vážné chyby – zcela změněný význam, holý nesmysl, vynechaná část věty apod.
  • Celková topornost textu, primitivní stavba, problémy s metaforikou, ignorování jiného než prvoplánového významu a nedostatek literární imaginace – tzv. otrocký překlad
  • Chyby jsou těžko viditelné – stroj chybuje jinak než člověk, což ztěžuje hledání a opravu chyb člověkem (pokud k ní tedy vůbec dojde)

Nepřímo související problémy

  • Mediální bublina: Časté a ne vždy objektivní mediální diskuse o umělé inteligenci, jakož i nízká technická úroveň těchto diskusí, mohou vést čtenáře k nereálně optimistické představě o skutečných možnostech současného strojového překladu. Před jeho nasazením doporučuji konzultaci se zkušeným překladatelem.
  • Nerovnoměrná kvalita lidských překladů: V Česku jsou jen minimální překážky ke vstupu na trh s překlady a obecně pro zákazníka je těžké najít, nebo často i jen rozpoznat, kvalitního překladatele. To vede k šíření a dlouhodobému přežívání na trhu nepříliš kvalitních překladů, a to i u velkých překladatelských agentur. Tato situace může vést zákazníky k rezignaci na hledání kvality nebo i dojmu, že lidské překlady prostě lepší být nemohou. Lidský dodavatel je pak nahrazen strojem, který sice není lepší, ale je výrazně levnější. Kvalitní překladatelé však existují a stále ještě překládají mnohem lépe než stroje.

Situace vhodné k použití

  • Překlad pro osobní informační nebo vzdělávací potřebu (s výjimkou důležitého profesního vzdělávání, na kterém přímo závisí výkon vaší práce)
  • Překlad pro rychlou pomoc v osobní nebo méně důležité pracovní komunikaci s cizinci
  • Obecně překlad textů, na nichž nic důležitého nezávisí a / nebo které nejspíše nebude nikdo číst

Situace nevhodné k použití

  • Překlad pro důležitou pracovní potřebu
  • Překlad pro čtenáře mimo vaši organizaci (zákazníky, obchodní partnery, úřady atd.)
  • Překlad textů k veřejné publikaci (včetně internetu)
  • Překlad textů s úředním významem (právo a zákony, úřední dokumenty apod.)
  • Obecně překlad textů, na kterých něco důležitého závisí nebo které mají ekonomickou nebo uměleckou hodnotu

Externí odkazy

« Zpět na seznam pojmů