Datorerna råpluggar översättning

Text: Martin Volk & Martin Warin

Gå till translate.google.se och välj att översätta från svenska till danska. Skriv in ”lätt som en plätt” och klicka på ”Översätt”. Resultatet blir er sjovt, ’är roligt’. Och visst kan man tycka att det är roligt, men det är nog inte avsikten.

Trots den här typen av felaktigheter har maskinöversättning gjort fantastiska framsteg på senare år. Men skulle vi vilja se tv-program översatta med Googles tjänst? Knappast. Frågan är om det med avancerad teknik går att göra ett automatiskt översättningssystem som fungerar för tv.

Det mesta av arbetet med undertextning sker i dag manuellt och är mycket tidskrävande. För att göra det mer effektivt har vi fått i uppdrag att ta fram ett system som automatiskt ska kunna översätta undertexter från svenska till danska och norska. Med tanke på att lätt som en plätt kan bli er sjovt finns det nog anledning att visa en viss ödmjukhet inför uppgiften. Men faktum är att det fungerar.

Systemet vi har tagit fram bygger på statistik. Det måste träna genom att analysera stora mängder text som redan har översatts av mänsklig hand. Man kan till exempel mata systemet med ett antal svenska texter och deras danska översättningar. Det beräknar då vilka svenska ordsekvenser som motsvaras av en viss dansk ordsekvens. Sedan räknar det ut sannolikheten för att ett visst ord, eller en viss ordföljd, på svenska översätts med ett visst ord eller viss ordföljd på danska.

Vårt system har fått en hel del att bita i. Det har tränats med 14 000 tv-program, vars undertexter översatts till svenska och danska. Samlingen innehåller alla möjliga typer av program: bland annat såpoperor, detektivserier, tecknade serier, komedier, dokumentärer, och långfilmer. Materialet motsvarar 5 miljoner textremsor och 45 miljoner ord. En textremsa är en till två rader lång, och har upp till 37 tecken per rad, i snitt nio ord per textremsa.

De svenska undertexterna är manuellt översatta och tidskodade av professionella översättare. Dessa har haft tillgång till programmets ljud, bild och ibland även en utskrift på originalspråket – som oftast är engelska (läs mer om hur sådant arbete går till i Språktidningen 5/08).

Tidskoden bestämmer när och hur länge en textremsa ska visas i bild. Den som sedan gör översättningen från svenska till danska har tillgång till programmet på originalspråk och de svenska undertexterna med tidskoder.

Systemet saknar alltså handskrivna grammatiska regler av typen ”i svenska kan en fråga konstrueras genom att verbet flyttas fram till början av meningen”. Allt bygger i stället på statistik. När en ny svensk filmtext ska maskinöversättas till danska tar systemet fram den översättning som verkar mest sannolik enligt statistiken.

En grundläggande skillnad mellan svenska och danska är att så kallade verbpartiklar, som ut i hälla ut, kommer direkt efter verbet i svenska, men flyttas efter objektet i danska:

Svensk textremsa: Du häller ut krutet.

Dansk textremsa: Du hælder krudtet ud.

Trots att systemet inte känner till regeln, klarar den relativt enkelt av att hantera sådana återkommande skillnader i svensk och dansk ordföljd.

En av de stora fördelarna med statistisk maskinöversättning är att systemet lär sig med tiden. Felöversatta undertexter som korrigerats, kan med jämna mellanrum matas in i systemet. Det kan alltså, precis som människor, lära sig av sina misstag.

Vårt system är speciellt utformat för att översätta undertexter mellan de nordiska språken. Med det följer vissa fördelar som vi har kunnat dra nytta av:

Undertexter är korta och saknar invecklad satsbyggnad.

Danska och svenska är nära besläktade språk.

En annan stor fördel har varit att det textningsföretag som beställt systemet har samlat på sig stora mängder svenska undertexter och manuellt översatta danska undertexter. Och med hjälp av tidskoderna går det att räkna ut vilka textremsor som är översättningar av varandra.

Men det finns även nackdelar med att arbeta med undertexter. De innehåller ofta ofullständiga meningar, något som vi har lagt extra mycket tid på. Undertexter innehåller också ofta kreativt språk, som har mer att göra med skönlitterär än facklitterär översättning. Man kan se avvikande stavningsformer som abso-jävla-lut eller ä-ä-älskar, som textaren har använt sig av, till exempel för att framhålla ett ord eller för att härma ett visst uttal.

Dessutom sträcker sig undertexterna över många olika områden; de ska ackompanjera allt från utbildningsprogram till ungdomsserier. Och maskinöversättning fungerar ofta bättre ju snävare det språkliga området är. Det är således lättare att automatiskt översätta väderleksrapporter än tecknade serier, skräckfilmer, såpor och andra genrer där den språkliga variationen är stor och svårkontrollerad.

Väderleksrapporter har ett litet och begränsat ordförråd, som ofta är entydigt. Här kan man säkert veta att ett ord som kall är ett adjektiv som hänvisar till låg temperatur. I ett drama däremot, kan kall även hänvisa till känslomässig inställning (kall och hänsynslös) eller uppgiften i någons liv (jag har hittat mitt kall). Väderleksrapporter innehåller som regel inte heller kulturella referenser, poesi eller ordvitsar.

En annan svårighet har att göra med de redan översatta undertexterna som används som träningsmaterial för systemet. Ibland kan den svenska textremsan innehålla två meningar som den danska översättaren sedan skrivit i tre meningar:

Svensk textremsa: Det är slut, vi hade förfest här. Jätten drack upp allt.

Dansk textremsa: Den er væk. Vi holdt en forfest. Kæmpen drak alt.

Det kan även bli problematiskt om de två textarna gör olika ordval:

Svensk textremsa: Där ser man vad framgång kan göra med en ung person.

Dansk textremsa: Der ser man, hvordan succes ødelægger et ungt menneske.

Uppdraget från textningsföretaget var att automatiskt ta fram utkast till danska översättningar, baserade på svenska, manuella översättningar. Efter att ha konstruerat grunderna matades systemet med hela fyra miljoner slumpmässigt utvalda textremsor, från tre olika tv-program: en deckarserie, en komediserie och en bildokumentär. Varje textremsa i detta material fanns både på svenska och på danska, översatta av professionella textare.

När den träningsomgången var klar matades helt nya, obekanta textremsor in, från samma tre program. Dessa textremsor fick systemet översätta till danska för egen maskin. Resultatet kunde sedan användas för en utvärdering. Vi jämförde de maskinella översättningarna med motsvarande manuella, som fick fungera som facit.

I den första utvärderingen kontrollerades hur ofta systemet översatte en textremsa på exakt samma sätt som de mänskliga översättarna. Sedan mättes det så kallade Levenshteinavståndet mellan den maskinöversatta textremsan och facit. Det innebär att man räknar hur många tecken som måste tas bort, läggas till eller bytas ut när en text ska omvandlas till en annan. Om det krävs fem eller färre sådana ingrepp i texten är alltså Levenshteinavståndet 5 eller lägre.

Översättningar med ett Levenshteinavstånd på 5 eller lägre jämfört med facit räknades som ”godkända”, eftersom de är lätta att korrigera manuellt i efterhand.

Skillnaderna i de två olika översättningarna kan bero på missar i interpunktion, fel val av pronomen eller böjningsändelser, som plural-s:et i följande exempel:

Automatisk översättning: Det gør ikke noget. Jeg prøver gerne hotdog med kalkun.

Facit: Det gør ikke noget. Jeg prøver gerne hotdogs med kalkun.

Denna första utvärdering visade att mellan 3,5 procent (dokumentären) och 15 procent (deckaren) av de automatiskt framställda textremsorna stämde helt överens med de mänskliga översättningarna i facit, i snitt 9 procent.

I den andra utvärderingen, där översättningarna kunde ha ett Levenshteinavstånd på 5 eller lägre, var resultaten mellan 23 procent (dokumentären) och 35 procent (deckaren), i snitt 21,5 procent.

I en tredje utvärdering fick sex textare redigera systemets översättning av samma tre program, i stället för att översätta hela programmen själva. Dessa mänskligt redigerade maskinöversättningar jämfördes sedan med facit.

Ser man på deras medelvärden så stämde denna gång mellan 13 procent (dokumentären) och 28 procent (deckaren) helt överens med originalet, och mellan 36 procent (dokumentären) och 47,5 procent (deckaren) hade ett Levenshteinavstånd på mindre än 5, i snitt 43 procent.

Detta betyder att 43 procent av undertexterna, som systemet producerar, inte alls behöver korrigeras, eller bara mycket lite.

Maskinöversättning går fort. Ett vanligt halvtimmeslångt program översätts på ett par minuter. Sedan är det svårt att exakt bedöma hur mycket tid företaget sparar, men vår utvärdering visar att en textare arbetade minst 15 procent snabbare med vårt system. Att utveckla ett system av det här slaget för ett nytt språkpar, till exempel svenska och isländska, kan ta mellan sex och tolv månader.

Även om maskinöversättningen blir bättre och bättre så kommer den troligen aldrig att helt kunna ersätta den mänskliga översättaren. Tv-serien Star Treks Universal translator och Babelfisken från Douglas Adams bok Liftarens guide till galaxen kommer antagligen alltid att förbli science fiction. Men vem vet?