Eesti - võru ( - eesti) tõlkemasina kommentaarid

Ajaloost ja ülesehitusest.

Ajaloost

2017
2016

I pool tööst oli tõlkemasina digisõnaraamatu mahu suurendamine, mis oli tingitud eesmärgist tõsta tõlkemasina kvaliteedi (testimis-staadiumist kuni väikese kasutamiskõlbliku staadiumini), mis omakorda väga tugevalt sõltus liiga väikesest sõnaraamatu mahust. Aasta alguses oli ligikaudu kaheksa ja pool tuhat rida, aasta lõpuks on digisõnaraamatus peaaegu 80 tuhat rida. Pabersõnaraamat ning klassikaline veebiliidesega sõnaraamat loendab sõnu lekseemidega, Siinkohal kasutatav sõnaraamat kasutab teistsugust kahe keele vahelist kaardistamist ning arv 80 000 on kahe keele sõnade vastanduste arv.

II pool oli tõlkemasina kvaliteedi arendus, millest enamus tööd kulus käänete ja pöörete töötluse kvaliteedi parandamisele.

2015

Jõuti tõsisema käänete ja pöörete toeni. (Muide, google'il polnud ei siis, ega pole ka 2016.a. lõpu seisuga mingitki märkimisväärset käänete-pöörete tuge. Ehkki nüüd juba esineb mõningaid sõnu käändes/pöördes, on need valed.) Ehk teisisõnu, nii eesti kui võru keele käänete ja pöörete kirjeldus on kogu grammatika ulatuses kirjeldatud ja teoreetiliselt töödeldav. Võru keele tugi piirdub siiski ainult Võru - Eesti sõnaraamatus kirjeldatud grammatika tabelite mahu ja kvaliteediga.

Digisõnaraamatu suurus kasvas selleni, et korrektselt tõlgiti ära vähemalt pooled lähteteksti sõnad ja mõnede valitud tekstide puhul tõlgiti ära 70-80 % (kvaliteedi vahe sõltub oluliselt (ja kindlasti veel mitmed aastad, kuni võru keel pole lõplikult standardiseeritud) võru keele hindaja lähtepositsioonist...) ilma, et oleks tõlkemasina programmi lähteteksti justnimelt nende tekstide puhuks kohandatud. Sõnaraamatu suurus kasvas vähimast minimaalsest vajalikust kuni lihtsalt väikesemahulise sõnaraamatuni, kaheksa ja pool tuhat rida.

2014

Praktiliselt esimene aasta tõlkemasina arenduses. Disainiti ja tehti tõlkemasina meetod, kus tõlkimisel arvestatakse käänete ja pööretega. Ja tehti esimene minimaalne võru-eesti sõnaraamat, mis vähemalt võimaldaks tõlkimisteste läbi viia. Täielikku eesti ja võru keele grammatika toeni ei jõudmine polnud selle aasta eesmärk.

2013

Ühe kuu mahus tõestus (proof of concept), et mingigi eesti keelne tekst jõuab mingigi, kasvõi kaugelt äratuntava, võru keelse tekstini.

Ülesehitusest

Eesti - võru - eesti masintõlge põhineb peamiselt täisautomaatidel.

Käesolev programm luuakse arvestades läänemere-soome keelte keele omadusi ning on seetõttu väga lihtsalt laiendatav lähematele sugulaskeeltele. Eesmärk on väga vähese finantsilise toega teha maksimaalselt lihtsa ülesehitusega ning minimaalse lähtekoodiga läänemere-soome keelte tõlkimiseks (finantsilises toes ei saa ju konkureerida suurettevõtetega nagu Google ja teised). Kuna mõlemad, nii eesti kui võru (laias mõttes tänapäeva Lõuna-Eesti keele tähenduses) keel on analüütilised, siis kõige esimene eesti - võru masintõlke programmi eesmärk oli käänete-pöörete grammatika täielik tugi. Kuna indogermaani keelte peamine erinevus soome-ugrikeeltest on ees- ja tagasõnade kasutamine (peale vastavalt range/vaba süntaksi), siis piisab lihtsa kaardistuskihi vahele ehitamisest, kui seda saab kasutada ka soome-ugri ja indogermaani keelte vaheliseks tõlkimiseks.

Lähtetekst on kirjutatud python3-s, aga suur maht on SQL-päringute käes, millega on saavutatud mitu eesmärki:

  1. Tekst loetakse lähtetekstide andmebaasi.
  2. Tekst protsessitakse tõlgitavateks sõnadeks ning (enamasti) mittetõlgitavateks numbriteks, emailideks, jne.
  3. Tõlgitavatel sõnadel lihtne sõnavõrdlus, siis keerulisem rekursiivne sõnavõrdlus.
    1. lõpp küljest
    2. tüveotsimine
  4. süntaksi analüüs, koht tekitatud
  5. sihtkeelde tõlge
    1. sihtkeele tüve leidmine
    2. sihtkeele lõpp otsa
  6. parima tõlke valik hinnangute najal ning tõlke salvestus paralleeltõlkeks andmebaasi.