Därför är din mobil fördomsfull
Negerhora, rumänsvin, nazistparkering, mongoluder och dubbelfitta. Nej, det är inte en uppräkning av ord som förbjudits på en skolgård någonstans i Sverige. Det är tvärtom några ord som godkänns av mobiltelefonens ordlista.
När du skickar textmeddelanden och använder ordlistan i telefonen som hjälp uppstår de mest märkliga skevheter. Varför kan man skriva Bergman men inte Polanski? Mobilen känner till kärnvapenkrig men inte världsfred, Jesus men inte Buddha, Presley men inte Jagger och ASEA men inte ABB.
Det finns även frågor som rör könsroller och konstiga ämnesval: ordlistan klarar pung men inte mens, militärbas men inte livmoder, underhållsbidrag men inte barnbidrag och marknadsplan men inte blöja.
Eftersom den hjälper till när du ska skriva ett sms, har ordlistan ett ganska stort inflytande. Den är en viktig del av det program som används i mobilen när du ska mata in text utan ett riktigt tangentbord.
Det finns flera olika tillverkare, men det system som dominerar heter T9 och står för Text on 9 keys. Det finns flera andra tillverkare som arbetar med liknande teknik, två av dem heter Itap och Letterwise. T9 karakteriseras av tre saker. Den känner igen vad vi försöker skriva och föreslår ett ord, den varnar för glosor som inte känns igen och dess regler tillåter ord som väcker förundran.
För att lyckas med det använder T9 något som språkvetare kallar ordprediktion. Metoden uppfanns av amerikanska forskare som utvecklade hjälpmedel för handikappade. De insåg att när det gäller mobiltelefoner och textinmatning är vi alla handikappade.
Varje knapp på telefonen representerar tre bokstäver, men genom att använda statistik över hur vanliga olika bokstavskombinationer och ord är i representativa texter kan ändå rätt bokstav väljas ut. Mobilen kan gissa sig till vilka bokstäver som ska kombineras och se om resultatet motsvarar ord i en inbyggd ordlista.
Trycker man in knapp 2 väljs bokstaven a, och när man sedan fortsätter med 7 väljs teckenkombinationen är som visar sig motsvara ett vanligt ord i ordlistan. Andra möjliga bokstavskombinationer som bildar ord och orddelar föreslås som alternativ i prioriterad ordning: ar, år och cp.
–?Det finns alltså två viktiga parametrar att ta hänsyn till: statistik över bokstavskombinationer och ordfrekvenser, säger Rickard Domeij, språkteknologiansvarig vid Språkrådet.
Han berättar att system för ordprediktion måste ha mycket effektiva metoder för att snabbt komma åt ord i ordlistan och lagra allt på ett litet utrymme. Till exempel i tabeller, där ord som börjar med samma bokstavssekvenser lagras gemensamt.
–?På så sätt bildas ett ”teckenträd”, som snabbt kan matchas mot de knapptryckningar som görs på telefonen, säger han.
Enligt företaget nuance, som äger T9, innehåller den svenska ordlistan cirka 72 000 ord. Det kan jämföras med Svenska Akademiens ordlista som innehåller ungefär 150 000 uppslagsord och där varje ord omfattar flera former, vilket ger över en miljon olika ordformer.
Vilka ord är det då som lagras?
–?Ordlistorna återspeglar vardagsspråket och innehåller ord från nyhetsmedier, konversationer och affärssammanhang. Vi använder många källor från nätet, till exempel diskussions- och chattforum. Alltsammans sker i en process som till största del är automatiserad, berättar William Clement vid Nuance communications inc i USA.
Företaget kör alltså textmassor genom datoriserade analyser.
–?Men vi kontrollerar också ordlistorna tillsammans med folk som har språket som modersmål för att garantera att de vanligaste orden återges korrekt.
Trots alla kontroller har ordlistorna problem.
– Ett problem är att de inte klarar alla sammansatta ord, säger Rickard Domeij.
Systemet borde kunna känna igen och plocka ihop orddelar i sammansatta ord, något som exempelvis rättstavningen i många ordbehandlingsprogram kan.
Enligt jussi karlgren, forskare i informationsåtkomst vid Swedish institute of computer science, SICS, finns framför allt två felkällor till att ord saknas eller blir fel i mobilernas ordlistesystem.
– Om ordlistorna är uppbyggda utifrån tidningstexter, eller nyhetstexter över huvud taget, så kommer till exempel inte vissa äldre ord att finnas med.
Den andra felkällan handlar om att systemet måste byggas så öppet att det tillåter ”konstiga ord”, trots att det normalt inte tillåter sammansättningar.
– Ibland när vi skriver blir det bokstavssallad, ett obegripligt ord, säger Jussi Karlgren.
Det beror på att systemet måste vara förberett för att hantera ord som inte finns med i de inbyggda språkreglerna. Ordlistesystemet får inte blockera för många ord som eventuellt kan vara möjliga.
De märkliga ord som går att skriva i T9, som rumänsvin och hitlertidning, tror han kommer från reglerna om hur ord får böjas. Att så är fallet styrks av att man kan skriva mongoluddsill, mognnilitp och andra icke-ord.
– Det visar att det går att skriva sådant som inte ligger i ordlistan. Olika bokstavskombinationer accepteras även om de inte utgör ord i ordlistan.
Båda språkforskarna påpekar att det är viktigt att tillverkarna inte tar bort ord.
– Det vore ju riktigt obehagligt om den som gör ordlistorna valde att ta bort vissa ord av lämplighetsskäl, säger Rickard Domeij.
Men vad händer om ordlistornas tillverkare lägger till andra ord än de vi verkligen behöver? Får till exempel mobiltelefontillverkare eller teleoperatörer föra in egna ord, exempelvis varumärken, i ordlistorna?
– Vi levererar samma ordlistor till alla våra kunder, men vi erbjuder också en möjlighet för operatörer eller tillverkare att lägga till ord. En amerikansk telefonoperatör lanserade exempelvis en mobil tillsammans med motorsportorganisationen Nascar. Den innehöll namn på bilförare och bilbanor, säger Vanessa Richter vid Nuance communications.
För en tid sedan introducerade Nuance en efterföljare, kallad XT9. Enligt företaget ska skräporden bli färre.
I XT9 innehåller ordreglerna lite mer information.
Databasen är också lite större, varför skräporden är lättare att undvika. En stavningskontroll ingår.
Med en tillräckligt stor ordlista går det att skriva regler som gör att de flesta sammansättningar accepteras utan att det blir för mycket tokigheter.
– Men tyvärr bryr man sig inte tillräckligt mycket om att anpassa tekniken till hur det svenska språket fungerar. Detsamma gäller många andra språk som inte är lika kommersiellt intressanta som engelskan. Jag hoppas att XT9 visar att jag har fel, säger Rickard Domeij.