Datorn  god översättare i snäv mening

Text: Rickard Domeij

Besökare på Stockholms stads webbplats erbjuds numera att läsa texterna på mer än 50 olika språk. Det flotta erbjudandet kommer sig av att sajten är kopplad till det automatiska översättningsprogrammet Google translate. Och det är inte bara en kul gimmick. Myndigheterna är skyldiga att kommunicera på fler språk än svenska. Det står i språklagen. Frågan är dock om automatisk översättning klarar av den uppgiften.

Över en miljon svenskar har utländsk bakgrund;  många av dem har ett annat modersmål än svenska. Man räknar med att det finns mellan 150 och 200 modersmål i Sverige. Fem språk har särskild status som nationella minoritetsspråk: finska, jiddisch, meänkieli, romska och samiska. Nationella minoriteter har rätt att kommunicera med myndigheterna på sina språk. I hela Sverige har det allmänna en skyldighet att främja och synliggöra minoritetsspråken. Samma sak gäller det svenska teckenspråket.

Stockholms stads webbplats är ett exempel på att myndigheterna försöker leva upp till det flerspråkiga samhällets nya krav.

Google translate finns i dag på 57 olika språk och kan användas både för att söka information på ett annat språk och få de eftersökta webbsidorna översatta till det egna språket. Systemet  kan också användas för att översätta  e-brev och chatt i Googles webbaserade e-posttjänst Gmail och textremsor  i filmer på webbplatsen Youtube.

Tidigare erbjöd Google översättning av eftersökta webbsidor med maskinöversättningssystemet Babelfish. Det är ett mer traditionellt system, där det är människor som har skrivit regler för hand. Dessa regler beskriver hur en mening  i ett språk ska översättas till ett annat.

Sedan 2006 har Google ett egenutvecklat system, där översättningen i stället baseras på statistik över tidigare översättningar. Googles tillgång till enorma mängder mänskligt översatta texter gör att de statistiska modellerna ger bättre resultat än de tidigare handskrivna regelbaserade metoderna.

Men är Google translate verkligen tillräckligt bra för att användas på myndigheternas webbplatser?

Stefan Johansson, tillgänglighetskonsult på företaget Funka nu, har undersökt hur användbara Googles automatiska översättningar är för personer som inte förstår svenska tillräckligt väl. Än så länge har han bara hunnit göra inledande tester för att jämföra begripligheten i automatiskt översatta webbtexter med mänskliga översättningar av samma texter.  

– De preliminära testerna visar att användarna inte ens förstår de mänskliga översättningarna. Det pekar på ett grundläggande problem med myndighetstexter: de är ofta för krångligt skrivna redan från början. Begripligheten blir förstås inte bättre om översättningarna inte är att lita på.  

Och det är de inte. Stefan Johansson visar exempel på både godtagbara och mindre godtagbara översättningar. Han använder svenska och norska som exempel på att resultatet ibland är svårt att förstå, som när meningen ”Hur upplever läsaren texten?” översätts till ”Hvad gjør leseren teksten?”.

I det här fallet kan man gissa att det  är det engelska do som ställer till det.  Jo, du läste rätt. Google använder nämligen engelska som övergångsspråk när det inte finns tillräckligt med text som underlag för att göra tillförlitliga statistiska beräkningar för andra språk. Meningen ”Hur upplever läsaren texten?” översätts alltså först till engelska och blir, kryptiskt nog, ”What do the reader the text?”. Sedan översätts meningen från engelska till norska, och blir ”Hvad gjør leseren teksten?”.

Frågan är om det över huvud taget är möjligt att göra pålitliga översättningar på automatisk väg. Kanske kan  det ambitiösa EU-projektet Molto ge svar. Projektet, som koordineras vid  Göteborgs universitet, har fått 25 miljoner kronor för att skapa ett pålitligt verktyg för automatisk översättning.  Det ska fungera mellan alla språk inom Europeiska unionen.  

Om två år ska projektet vara klart.  På längre sikt är förhoppningen att Molto ska bidra till att alla EU-medborgare, oavsett modersmål, ska få samma tillgång till information och service på nätet.

Molto skiljer sig från Google på flera sätt. En avgörande skillnad är att Googles översättningssystem riktar sig till informationskonsumenterna, medan Molto riktar sig till producenterna.

– Eftersom producenterna har ett ansvar för informationens kvalitet, måste översättningarna gå att lita på, säger Aarne Ranta. Han är professor i datavetenskap vid Göteborgs universitet och Chalmers, och leder projektet.

– Google translate fungerar oftast mycket bra för den som snabbt vill skaffa sig en uppfattning om innehållet på en webbsida, men räcker inte för den som har ett ansvar för det som står där, säger han.

Aarne Ranta påpekar att statistiska metoder fungerar hyfsat bra på engelska, som har fast ordföljd och relativt enkel ordbildning och böjning. Men statistiska metoder fungerar mindre bra på andra språk. Därför använder Molto regelbaserade metoder, som klarar både tysk ordföljd och finska kasus lika bra i översättningar till och från alla andra EU-språk.

– Den som ska sälja något kan inte ha ett system som översätter ”prix 99 euros” till ”pris 99 kronor”, ett vanligt fel i statistiska översättningar, säger Aarne Ranta.

Men Molto kommer inte att kunna översätta en godtycklig text som Google translate gör. För att få en pålitligare översättning måste man begränsa sig till vissa fackområden, enligt Aarne Ranta.

– I stället för att översätta texter av alla möjliga slag håller vi oss till en viss typ, som medicinska patent. Det gör att ordförrådet kan begränsas och grammatiken beskrivas med regler på ett mer förutsägbart och kontrollerat sätt.

Många EU-språk har redan tidigare beskrivits grammatiskt för automatisk översättning. Det system som beskrivningarna görs i, Grammatical frame-work, har också funnits med ett tag. Skillnaden är att arbetet nu ska göras i större skala och på ett mer samordnat sätt. Moltosystemet ska också kompletteras med statistik när så är motiverat.

Tre domäner som ska prövas till att börja med är medicinska patent, matematiska uppgifter och beskrivningar av objekt på museer. För varje domän skapas en beskrivning av de begrepp och relationer som ingår, en så kallad ontologi. Den fungerar som ”mellanspråk”. Sedan görs grammatiska beskrivningar för varje språk, så att allt som finns beskrivet inom domänen kan översättas mellan språken.

I stället för att förlita sig på statistik bygger Moltos modell på terminologiskt arbete.

– Många tror att terminologi gör språket svårare, men ofta är det tvärtom, säger Henrik Nilsson på Terminologicentrum, TNC.

Han menar att när man klargjort olika begrepps innebörd och relationer, och bestämt sig för vilka termer som ska användas för de olika begreppen blir myndighetsspråket tillgängligare för alla.

Ibland behöver myndigheterna använda fackord och uttryck som kan vara svåra att förstå, till exempel bostadsbidrag och rehabiliteringsersättning. Då är det viktigt att förklara ordet första gången det används i texten eller göra en ordlista med begripliga förklaringar på webbplatsen.

I översatta texter är det viktigt att man förstår att en översatt term som housing allowance är detsamma som bostadsbidrag genom att till exempel skriva den svenska termen inom parentes i den översatta texten, så att termerna kopplas till varandra.

Och har man utvecklat en enhetlig terminologi för flera språk parallellt har man också en bra grund för automatisk översättning.

– En konsekvent användning av termer gör det lättare att översätta, både för människor och för maskiner, säger Henrik Nilsson.

För att se till att också den samiska minoritetsbefolkningen får ta del av språkteknologins möjligheter utvecklar Sametinget i Norge elektroniska ordböcker, termdatabaser, korrekturprogram, språkinlärningsprogram, talsyntes, översättningsminnen och maskinöversättning för samiska.

– Om samhället ska ta ansvar för de nationella minoritetsspråken, som det står i språklagen, måste vi också se till att minoritetsspråken får liknande möjligheter att användas på internet som majoritetsspråken, säger Sjur Moshagen från Sametinget i Norge.

Från majoritetsspråk till minoritetsspråk måste kvaliteten på översättningen vara bra. Då får man översätta manuellt med hjälp av just sådant som elektroniska ordböcker, termdatabaser och översättningsminnen.

– Men från minoritetsspråket till majoritetsspråket kan det räcka med maskinöversatta texter som ger en grov förståelse av innehållet, säger Sjur Moshagen.

Man får inte heller glömma den potential som finns hos användarna själva. De är fenomenala på att bidra till och förädla innehållet på internet när möjlighet ges. Facebook har översatts till 75 språk, de allra flesta av användarna själva. I Språktidningen 3/08 berättade till exempel Simon Johansson om sina vedermödor med att översätta Facebook till svenska. Och i webbuppslagsverket Wikipedia finns 197 språk med fler  än 10 000 uppslag. Alla skapade av användare.

Så visst finns det möjligheter. Men det gäller att kombinera och använda dem  på bästa sätt.

Som grund för teknikutvecklingen behövs språkdatabaser där alla ord markerats och systematiserats. Man kan se det som ett slags infrastruktur i den digitala världen, motsvarande vägar och tågräls, för att möjliggöra kommunikation på olika språk på internet, så att inte alla tvingas använda majoritetsspråket.

Svenskan har samma problem i förhållande till engelskan – majoritetsspråket på hela internet – som samiskan har i förhållande till svenskan – majoritetsspråket i den svenska delen av internet. Men än har vi i Sverige inte gjort som i Nederländerna, Storbritannien och nu senast i Norge. Vi har inte skapat en nationell språklig infrastruktur som grund för språkanvändningen i det digitala samhället. I Norge har stortinget avsatt 100 miljoner norska kronor för detta ändamål.

En liknande satsning i Sverige skulle tas emot med öppna armar av bland andra Sveriges Television.

– Vi har som mål att texta alla program, även direktsändningar, som man numera gör på BBC, säger Johan Hartman, tillgänglighetsansvarig på SVT.

För att nå det målet behövs teknik för automatisk igenkänning av talad svenska.

– Men det går inte utan statsfinansierade språkdatabaser, eftersom det kommersiella intresset inte är tillräckligt stort.

Samma språkdatabaser kan användas för att driva på teknikutvecklingen och öka tillgängligheten till information också i andra sammanhang, vilket enligt Johan Hartman gör det till en nationell angelägenhet.

Uppenbart är att språkteknologin erbjuder helt nya möjligheter att möta människors språkliga behov och rättigheter på internet. Problemet är att den lika gärna kan användas som ett sätt att smita ifrån ansvaret.