Okontrollerad och oemotståndlig

Text: Maria Arnstad

Används media mer än medier? Hur många skriver större än mig? Finns det något bra exempel på frasen ta i med hårdhandskarna? Hur spridd är sammansättningen lattemamma?

Internet är oemotståndligt för den språkintresserade. En gigantisk container fylld med all världens skriftspråk. Och dessutom finns det omedelbart tillgängligt på Google, ett verktyg som verkar kunna hitta vartenda ord, varenda felstavning och nymodig fras på en tiondels sekund. Man behöver inte vara språkforskare för att lockas till denna till synes kompletta källa.

Lars-Gunnar Andersson är professor i modern svenska vid Göteborgs universitet och medverkar som språkexpert i radioprogrammet Språket i P1. En av Språktidningens läsare kallade programmet ”Ring så googlar vi”, eftersom Lars-Gunnar Andersson ofta ”besvarar språkriktighetsfrågor genom att undersöka vilken uttrycksvariant som har flest googleträffar”.

Och visst refererar Lars-Gunnar Andersson ofta till Google, men han använder källan med varsamhet.

– Google ger inte det slutgiltiga svaret, men resultaten kan leda ett steg vidare i efterforskningarna, säger Lars-Gunnar Andersson.

Det typiska fallet där han använder Google är när en språkfråga handlar om nya ord eller nya formuleringar. Där blir Google ett redskap för att hitta nyheterna.

– Jag använder Google först, eftersom sökmotorn ger tillgång till den största mängden textmaterial på nätet, säger han.

Där har han också stor chans att se om uttrycket är etablerat i text eller inte. Han brukar också jämföra bruket på nätet med bruket i Språkbankens tidningstexter, för att få en uppfattning om skillnaden mellan den mer standardspråkliga dagstidningsprosan och internets mer vildvuxna språkbruk.

I ett brev till Språket hade till exempel en lyssnare noterat att folk använde frasen hur eller hur. Vad var det för ett uttryck? Lars-Gunnar Andersson googlade på ”hur eller hur” och såg att frasen användes en hel del, och att det verkade betyda samma sak som hur som helst, som i ”hur eller hur ska det bli spännande …”.

– Sedan kan man nysta lite till, och i vissa fall går det till och med att ringa in det geografiska område där formuleringen förekommer. När lyssnarna sedan reagerar, och kommer med egna iakttagelser, går det att dra ytterligare slutsatser om användning och spridning.

När det gäller Googles uppgifter om antal träffar poängterar Lars-Gunnar Andersson att det krävs både källkritik och omdöme.  

– Om man vill jämföra alternativa uttryck, till exempel för de som och för dem som, så är det relationen mellan antalet träffar som är det intressanta – inte själva antalet. Ibland kan man också behöva fingranska en del av träffarna för att förstå hur uttrycken används.

Det gäller också orden framledes och framdeles, som vi skrev om i Språktidningen 3/08. Enligt ordlistor och språkvårdens rekommendationer var förut framdeles den enda möjliga stavningen, men numera anses också framledes vara okej. Så, hur skriver folk? När jag söker i Google ger framledes 23 200 träffar medan framdeles ger 41 400 träffar. Enligt Google skulle alltså framdeles vara nästan dubbelt så vanligt som framledes.

Men redan när jag tittar närmare på listan med länkar framträder en hel rad märkligheter. Till exempel kommer jag inte längre än till 878 träffar för ordet framledes, när jag klickar igenom länklistan. Sedan tar det stopp med det kryptiska beskedet: ”Vi har uteslutit vissa svar som var snarlika de 878 som redan visats för att kunna ge dig de mest relevanta resultaten. Om du vill kan du göra om sökningen och inkludera tidigare uteslutna resultat.”

Sagt och gjort, jag gör om sökningen. Men den här gången kommer jag endast en liten bit längre: 913 träffar. Sedan tar det slut. Långt ifrån 23 200 länkar att titta på.

Jonas Söderström uppmärksammade detta fenomen på sin blogg Blind höna förra året. Han sökte på konstnären Lars Vilks, varpå Google svarade att det fanns ”ungefär” 474 000 träffar på ”Lars Vilks”. När han stegade sig igenom Googles träfflista fann han dock att det snarare rörde sig om cirka 600 texter. En rätt märklig definition av ordet ungefär. Jonas Söderström gjorde om sökningen, inkluderade de tidigare uteslutna, ”snarlika”, resultaten och undersökte länkarna närmare. Han hittade då ”uppskattningsvis 8 000 dubbletter i Googles träfflista”. En och samma puff för en artikel om Vilks hade lagts in på en massa olika webbsidor. Och exakt samma ”Lars Vilks” räknades om och om igen.

- Det är väldigt svårt att säga vad Googles frekvenssiffror betyder, säger Lars Borin, professor i språkvetenskaplig databehandling vid Göteborgs universitet. Google levererar inte ordstatistik. Det är inte företagets affärsidé.

Google säger sig i stället leverera ”de mest relevanta” träffarna först i resultatlistan. Resultaten kan inte användas som bevis för något, bara ge en fingervisning.

- Allt behöver kompletteras och dubbelkollas. Det finns inga garantier, säger Lars Borin.

Ändå används Googles frekvenssiffror flitigt, också i akademiska sammanhang. Det gäller främst i uppsatser på lägre nivå.

- Men även forskare kan använda sig rätt obetänksamt av Google, säger Sture Allén, professor emeritus vid Göteborgs universitet och medlem i Svenska Akademien.

Han bekräftar Lars-Gunnar Anderssons inställning att man på sin höjd kan använda Google för att få ledtrådar till vidare undersökningar.

- Google är ett bra verktyg om man vill se om ett visst ord finns belagt och i vilket sammanhang, säger Sture Allén. Men man ska vara ytterligt vaksam.

Datorlingvisten Adam Kilgarriff, verksam vid Sussex universitet i Storbritannien, listar i artikeln Googleology is bad science sådant som är bra att ha i bakhuvudet när man använder kommersiella sökmotorer som hjälpmedel i språkforskning.

Till exempel går det inte att söka på ett ords grundform och samtidigt få med alla dess olika böjningsformer. Om du söker på grön får du 4 580 000 träffar, men missar till exempel 179 000 grönare, 15 000 grönast och 22 100 grönaste. Om man vill säga något om hur ofta ordet grön egentligen förekommer på nätet måste man därför göra flera sökningar och lägga ihop dem.

Adam Kilgarriff berättar om två brittiska forskare som ville se hur ofta fulfil förekom tillsammans med obligation på nätet. Hela trettiosex olika sökningar gick åt för att få med alla böjningsformer av verbet och substantivet, och alla de olika artiklar och annat som kunde finnas mellan orden: fullfil obligations, fulfil the obligation, fulfil an obligation, fulfil the obligations och så vidare. Och här finns ytterligare en hake. Det finns en begränsning i Google som gör att en användare endast får göra tusen sökningar per dag. Arbetet kan alltså dra ut på tiden om man vill undersöka fler än en ordkombination.

Där finns heller ingen information om vilken ordklass som orden tillhör. Därför måste man vara försiktig om man bara är ute efter en bestämd betydelse av ett ord. Söker du på substantivet eka får du även med verbet eka. Sökmotorn betraktar sökordet som en räcka av tecken, utan betydelse. Bokstäverna som du skriver in i sökrutan matchas helt enkelt mot motsvarande bokstäver i Googles sidsamling, utan någon analys av vad de betyder. Att gå igenom alla träffar och se efter vad som ska räknas med i statistiken är näst intill omöjligt.

– Google gör heller inte skillnad på gemener och versaler, och prickar och andra så kallade diakritiska tecken försvinner, säger Lars Borin. Å kan bli a, och ö kan bli o.

Man kan dessutom inte lita på att Googles siffror redogör för hur ofta ett ord eller en fras hittas i texter på nätet. Det som räknas är i stället det antal sidor där ordet förekommer. Om ordet grön förekommer tio gånger på en webbsida, räknas det ändå bara en enda gång.

För att komma åt det hon eller han vill ha på webben måste forskaren ta till sökningar med plus-, minus- och citattecken runt de eftersökta ordkombinationerna och många andra knep. Det krävs till exempel manuella genomgångar för att se om träffarna över huvud taget är relevanta. Dessutom måste man noga göra skillnad mellan till exempel sökningar ”på svenska sidor” och sökningar på webben som helhet. Det blir omständligt och tidskrävande. Adam Kilgarriff menar att vi blir experter på hur Google fungerar, inte på lingvistik. Vi blir ”googleologer”.

Vad finns det då för alternativ? Hur går man till väga om man verkligen vill ha reda på hur ofta ett ord används i text?

- Frekvens i det här sammanhanget måste alltid vara relaterad till en väl definierad korpus, säger Sture Allén. En korpus är en avgränsad och preciserad mängd språk. Man vet hur stor mängden är, hur den är sammansatt och vilken typ av texter den representerar.

Det material som samlas in av Google utgör ingen korpus. Det är inte kontrollerat, och ingen vet hur mycket eller vad det egentligen består av.

Detta är ett område som Sture Allén behärskar väl. Han har arbetat med korpusar sedan 1961, då han började samla in texter elektroniskt, bland annat för att underlätta ordboksarbete. Det var ett pionjärarbete inom det forskningsområde som numera kallas korpuslingvistik. Och 1972 blev Sture Allén världens första professor i språkvetenskaplig databehandling.

Tre år senare grundade han Språkbanken, en avdelning vid Göteborgs universitet som ”bygger upp och ger tillgång till språkliga referensmaterial i form av texter och lexikaliska data”. Språkbanken består i dag av cirka 200 miljoner ord svensk text från alla det svenska skriftspråkets perioder, med absolut övervikt för modernt språk och dagstidningstext. Om man söker på ett ord i Språkbanken får man som resultat ordet i dess sammanhang, i en så kallad konkordans.

En sökning på ordet framledes i Språkbanken ger fem träffar om jag väljer att söka i text från Göteborgsposten 2004. Till exempel ”De offentliganställda distriktsläkarna får framledes begränsade medel…” En sökning på framdeles ger tre träffar i samma material.

- Genre är viktigt i korpusar, säger Lars Borin, som är Sture Alléns efterträdare som föreståndare för Språkbanken.

Man vill helt enkelt kunna se vilken typ av text man söker i. Är det tidningstexter, romaner, bloggar, brev eller något annat? Språket skiftar som bekant beroende på var det publiceras.

Lars Borin poängterar också vikten av att samma resultat ska visas vid varje söktillfälle, eftersom forskningsresultaten måste kunna återskapas. Det är ett krav vid all seriös forskning. När man använder en kommersiell sökmotor varierar sökresultatet, även om man upprepar exakt samma sökning, beroende på vilka olika webbsidor som sökmotorn för tillfället har tillgång till och hur ofta dessa sidor uppdateras.

För att konkurrera med Google kan språkforskaren förstås bygga upp sin egen korpus. Till exempel med material från webben. Men det är tidsödande. Texterna måste samlas in med hjälp av ett speciellt program, en så kallad spindel, de måste ”tvättas” på sådant som fotnoter, konstiga tecken, annonsrutor och annat. För att det ska gå att söka i korpusen automatiskt måste texterna få en sorts standardutseende. Och så vidare.

Dessutom får man inte samla in texter hur som helst. I alla fall inte om fler än man själv ska använda dem. Mycket av det material som publiceras på webben är upphovsrättsskyddat, och den person eller det företag som äger materialet måste ge sitt tillstånd.

- Språkbanken har fört hårda förhandlingar med tidningar och förlag om upphovsrätt för att få tillgång till texter. Det är till exempel strikt be­gränsat hur mycket text som får visas runt ett sökord, berättar Lars Borin.

Sofia Gustafson-Capkova och Beáta Megyesi är bägge forskare i datorlingvistik vid Institutionen för lingvistik och filologi, Uppsala universitet. De har hjälpt till att bygga upp flera korpusar, och vittnar också om de stora svårigheterna att komma över text i språkforskningens namn.

- Till slut blir man desperat, eftersom ingen vill släppa ifrån sig texter, säger Sofia Gustafson-Capkova. Man får väl gå på förlagsfest och prata högt om sitt projekt, i hopp om att någon välvillig författare kan tänka sig att donera en text eller två.

Beáta Megyesi framhåller också de ekonomiska hindren.

- Det saknas pengar, säger hon. I dag är det mycket svårt att få ekonomiskt stöd för att sammanställa korpusar. Regeringens infrastruktursatsningar innefattar inte språkforskning.Det kan få stora konsekvenser för svenska språkets bevarande, till exempel.

Upphovsrätt och brist på pengar är alltså orsaken till att de flesta allmänt tillgängliga korpusar är små. Här har Google också sin största och viktigaste konkurrensfördel – storleken. Google har rekordet i antal tillgängliga och sökbara webbsidor. Och vill man studera hur det levande språket ser ut är det ovärderligt med ett så stort underlag.

- Google bryr sig inte ett dugg om upphovsrättsskyddet, säger Lars Borin. Men ingen har heller brytt sig om att dra Google inför rätta för det.

Lars Borin berättar att Google under de senaste åren i alla fall anställt flera datorlingvister. Det är personer som är kunniga inom både språk- och datavetenskap, och som forskar om hur en dator kan programmeras för att behandla mänskligt språk. Syftet är bland annat att förbättra kommunikationen mellan människor och datorer. Dessa forskare skulle kunna utveckla Google att fungera bättre som språkvetenskapligt verktyg.

– Men det är förstås helt frivilligt, säger Lars Borin. Google är ett vinstdrivande företag. Deras sökmotor är inte avsedd att användas som redskap för språkvetenskaplig forskning.

Google har också flera språkprojekt på gång, och vissa finns redan tillgängliga, som Google translate, där det går att översätta mellan ett tjugotal olika språk.

Kommersiella sökmotorer har alltså i första hand utvecklats för att användas till andra typer av informationssökning, och Lars Borin tycker inte att man kan lägga något ansvar på dem för hur sökresultaten används inom språkvetenskapen.

– Google har inget ansvar för hur deras sökmotor används. Det är ungefär som att säga att SJ skulle ha ansvar för att man får höra så många irriterande ringsignaler på tåget.