Därför rättar mobilen så fel

Den är skapad för att visa oss vägar genom språkets snårskog. Mobilens autokorrigering ska ta oss i örat då vi skriver fel, men kan i stället dra oss vid näsan när vi skriver rätt.

”Jag fick ett sms där det stod: ’Gonatt ålskinn.’ Det tog ett tag innan jag fattade att autokorr ändrat ordet älskling”, skriver Yvonne i ett lekfullt språkforum på Facebook.

”Redaktören ville ha hjälp med korrläsning. Det blev hjälp med norrlänning”, berättar Susanne, en annan deltagare i diskussionen.

”Skrev till en vän som skulle komma på besök att jag skulle sätta på kaffet. Mobilen ändrade kaffet till katten”, skriver Birgitta.

Ann-Charlotte skrev till vänner en varm sommardag: ”Hur har ni det i värmen?” Men telefonen ändrade till: ”Hur har ni det i tarmen?”

Ju mer tid vi tillbringar med våra mobiler, desto viktigare blir autokorrigeringen. Men även om den blir alltmer sofistikerad kan vår hjälpare lätt bli en stjälpare.

Ett svårslaget dubbelfel drabbade en man som skickade sms om ett damlag i handboll:

”Hej, vi får ihop ett samlag denna vecka. Torsdag klockan 8. Jättekuk!”

Detta sms återges i den finlandssvenska språkpodden Näst sista ordet, som listar halsbrytande missförstånd orsakade av autokorrigeringen – som kondom i stället för gondol och narkomaner i stället för matkoma. Ett tragikomiskt fel uppstod när en man messade en kyrkoherde om jordfästning: ”Om jag förstått saken rätt är det du som ska korsfästa min far.”.

Rimligen borde felen bli färre med mobilernas utveckling, men tyvärr kan vi inte vara säkra på det. Ett grundproblem är att funktionerna utvecklas på teknikplattformar som har tagits fram för engelska. Ett annat problem är att mobilens autokorrigering baseras på ord så som vi skriver dem i våra telefoner – och inte som de står i ordböcker.

Ordböcker kan vara deskriptiva, det vill säga beskrivande, eller preskriptiva, det vill säga normativa. Idealet kan tyckas vara en autokorrlista med ord som de ska skrivas enligt en språklig auktoritet, som Svenska Akademiens ordlista. Men då missar den mycket av vårt talspråk, ord vi blandar in från andra språk, emojier och förkortningar.

Före de smarta telefonerna fanns bokstäverna på mobilernas sifferknappar, tre på varje. Programmet T9 gissade vilket ord man ville skriva genom att kombinera bokstäverna på de tryckta knapparna för att få till verkliga ord. Med tangentbord i dagens mobiler förutspås orden, så kallad ordprediktion, genom att systemet kollar de bokstäver man trycker på – och närliggande – för att parera eventuella feltryckningar.

– Då väljs det mest troliga av tänkbara ord, vilket kan ställa till problem. Det märker man inte minst när man skriver engelska ord i en svensk text och tvärtom. Mobilen är dålig på att växla språk, säger Rickard Domeij, språkteknologiskt ansvarig på Språkrådet.

”Mest stressat blir autokorret av språkliga drag som saknas eller är ovanliga i engelskan”

Mest stressat blir autokorret av språkliga drag som saknas eller är ovanliga i engelskan, exempelvis ordböjningar. Det hanterar autokorret genom att utgå från en lista med ordens stammar, och lägga till de ändelser som är tänkbara i ett aktuellt språk. Sedan lägger det ändelse på ändelse ifall man fortsätter skriva. Det blir ett träd som förgrenar sig i allt finare grenar.

Ett enkelt exempel: Om du börjar med h-o-p-p och sedan fortsätter skriva, söker sig autokorret stegvis fram till exempelvis hopp-a-de-s genom att lägga till en eller flera bokstäver i taget för att hitta riktiga ord.

Med sammansatta ord blir det knepigare – både för mobilernas autokorr och för stavningskontroller på datorer. I svenskan är det lätt att skapa sammansatta ord som aldrig har använts tidigare.

Fotboll är en lexikal sammansättning – den finns alltså i ordboken. Sådana som inte finns med kallas produktiva sammansättningar, till exempel fotbollsläktare, säger Rickard Domeij.

Många sådana ord skapar vi i stunden. Då blir det problem.

– Stavningskontrollen ska godkänna dem, men om det finns ett lexikalt ord som ligger nära är det troligare att det väljs. Om man skriver grönstänker kommer den att föreslå grönsaker. En person som hörde av sig till mig hade fått skamlösa på förslag i stället för skumläsa.

Fler exempel från Facebookgruppen: det nyskapade hostinfluensa får ”hostig linedance” som förslag på korrekt uttryck. Storfångsten blir ”stödåtgärden”, teamsmöte blir ”tarmsköljning” och Skärholmen blir ”skärselden”.

Varifrån kommer alla långsökta, ekivoka och stötande förslag? Vad är det för infernaliska ordlistor som har installerats i våra mobiler?

Ett ordbehandlingsprograms interna lista för stavningskontroll tas fram ur en korpus – i det här fallet systematiskt insamlade texter från ordböcker och andra publikationer. Till det läggs skrivregler från till exempel Språkrådet.

Autokorrigeringens listor bygger däremot på texter från sociala medier, bloggar och webbplatser. Orden hanteras statistiskt med maskininlärning; systemen räknar hur många gånger orden förekommer och rangordnar dem efter hur vanliga de är. Ett vanligare ord får företräde före ett mer ovanligt om de båda ligger nära det man har skrivit.

Därmed kommer inte bara talspråket in, utan även särskrivningar, felstavade ord och slang. En lista som är framtagen på det sättet är alltså beskrivande snarare än normativ. Den avspeglar hur vi skriver, inte hur vi borde skriva om det ska vara strikt korrekt.

”En dator eller mobil förstår inte språket, utan orden kontrolleras på en ytlig nivå”

Ordlistorna för autokorrigering lagras i våra mobiler. Listorna får man på köpet när man väljer språk och tangentbord i mobilen.

– En dator eller mobil förstår inte språket, utan orden kontrolleras på en ytlig nivå. Tittar man bara på ett ord i taget får vanliga ord företräde, säger Jonas Sjöbergh, forskare på Institutionen för elektroteknik och datavetenskap vid Kungliga tekniska högskolan, KTH.

– Ser man även på tidigare ord kan man göra avancerade modeller för hur meningar byggs upp. I dag kan man göra en språkmodell för svenska som fungerar betydligt bättre än för 20 år sedan: har man skrivit om fisk i en mening ges högre vikt åt andra ord som har med fisk att göra, som fiskenät, hav och metkrok.

Att orden tar så lite plats i mobilen beror på att det finns mycket redundans i språket, det vill säga övertydlighet. När vi pratar med varandra är vi begripliga även om vi utelämnar delar av ord eller flera ord i en mening. Många ord liknar också varandra, och det räcker ofta att lagra deras stammar. Till ordstammen hopp kan läggas ändelser som -et, -ens, -ar, -as, -full och -lös för att få de likartade orden. 

Datamängden blir kompakt – även sedan man har lagt till bland annat regler för hur ord kan böjas.

Ordlistorna för autokorrigeringen blir bättre med tiden, eftersom användarnas egna rättningar av felaktiga ord också läggs till listorna. Listorna kan även utökas med ord som man själv lägger in för att öka den egna autokorrens träffsäkerhet.

Stavningskontrollen i datorer fungerade däremot bättre förr, åtminstone vad gäller sammansatta ord i svenskan. Programmen gjordes i Finland av företaget Lingsoft, som har blivit världsledande på att analysera språk med avancerad morfologi, det vill säga hur ord får olika former beroende på till exempel kasus och tempus.

Men numera gör Microsoft programmen själva, vilket skapar problem.

– Språk som inte är kommersiellt intressanta, som samiska och andra minoritetsspråk, får ingen stavningskontroll alls, säger Rickard Domeij.

Mats Karlsson är vetenskapsjournalist.

Av:

Bild: Istockphoto