Nedávno počas pracovného stretnutia došlo k zaujímavému okamihu, keď IT manažér jednej technologickej firmy prehlásil, že v ich firme je dovolené používať externé AI služby len na výnimku (t. j. štandardne sú zakázané). Ako jednu z nepovolených služieb uviedol aj Google translate.
Firmy (nie len) kvôli GDPR musia riešiť ochranu osobných dát, ale aj ochranu firemného know-how. Máloktorý používateľ tam vloží jedno-dve slovíčka – väčšina tam „past-ne“ celé vety alebo odstavce, aby dostali lepší preklad z väčšieho kontextu…
To ma viedlo k otázke, že či je možné tieto služby (ktoré používam ;-) ) nahradiť nejakou rozumnou opensource alternatívou – ideálne tak, aby bežala lokálne u mňa (bez posielania dát „von“). Krátky prieskum “trhu” ukázal, že Language Technology Research Group na Univerzite Helsinkách v rámci projektu Opus-MT má vygenerované aj rôzne jazykové páry na strojový preklad a medzi nimi aj ten, ktorý ma zaujíma: en-sk.
Ďalšou úlohou bolo vytvoriť, nejaké rozumné rozhranie, ktoré by bežalo „všade“ s minimom závislosti. Skončil som pri python-e a FastAPI, s ktorým sa v poslednom čase hrám (neočakávajte geniálny kód – pokojne pošlite vylepšenie). Výsledok (s postupom inštalácie) je na Githube pySKTranslator.
Príjemne prekvapený som bol rýchlosťou (v porovnaní sú inými skúsenosťami pri behu rôznych transformer modulov lokálne). Prvý preklad je pomalý -inicializuje sa model a pri zvolenom odseku trval cca 21 sekúnd:
Pri ďalšom použití je už rýchlosť primeraná dĺžke odseku (1,6 – 4,6 sekúnd):
Čo sa týka kvalita prekladu, tak viac ako nepresná gramatika a štylistika ma vyrušujú nepreložené slová. Podľa všetkého „boom“ AI v posledných rokoch sa nedotkol „en-sk“ modulu – podľa údajov na Hugging Face, bol vygenerovaný 8.1.2020 a odvtedy sa nerozvíjal. Myslím, že dostupných voľných dát je (zatiaľ) dosť, aby kvalita prekladu mohla byť lepšia. Určite by bolo vhodné urobiť trénovanie z prekladov programov ako napr. “The Translation Project”: https://translationproject.org/html/welcome.html (možno ako samostatný modul). EU takmer všetko zverejňuje viacjazyčne (a má dokonca na to aj projekt European language initiatives) , najmä preklady rokovaní sú zaujímavé, aby tam nebola len “právničtina” ale aj bežne používané slová (napr. v en a sk).
Otázka na záver: je niekto, kto vie rozchodiť dotrénovanie “en-sk” modulu (kým používanie AI modulov nemusí byť náročné na hardvér, tak trénovanie náročné je), aby mohol vzniknúť tím, ktorý by pripravil podklady pre dotrénovanie?