Läsbart tal i stora lass, tack!

Mikael Parkvall väntar på perfekt talad Big Data.

Text:

Foto: Saga Bergebo

Förmodligen har inga vetenskapsgrenar undgått att påverkas av de senaste decenniernas digitalisering. För språkvetenskapen innebär denna att enorma textmängder – skrivna av människor med varierande bakgrund – har blivit tillgängliga. För inte länge sedan hade vi bara tillgång till ganska små mängder text. Och dessa var oftast producerade av professionella skribenter med en icke-representativ klassbakgrund. Vad vi hittar i gamla texter är därmed inte nödvändigtvis ett sanningsvittne på hur folk faktiskt pratade när det begav sig.

Därtill kommer att den överväldigande majoriteten av världens språk inte skrivs över huvud taget, och detta är ett av skälen till att de flesta lingvister tycker att tal är mer intressant än skrift.

För ett ofta skrivet språk som svenska har mängden tillgänglig text vuxit enormt på senare år, samtidigt som avståndet mellan tal och skrift har krympt genom ömsesidig påverkan.

Och bara det faktum att text numera är maskinläsbar gör den enormt mycket lättare att söka i än vad som är fallet för tal eller ens äldre text. Kort och gott: den digitala revolutionen ger möjligheter som bara kunde finnas i de våtaste av drömmar hos tidigare generationer språkvetare. Med en sentida (ehuru fantasilös) benämning har vi nu tillgång till Big Data.

Ett nyligt tillskott är artikeln ”Language left behind on social media exposes the emotional and cognitive costs of a romantic breakup”, som studerar webbskribenters reaktioner på att dumpa eller dumpas.

Författarnas slutsats är att skribenter på internet (i varierande grad, så klart) är nedstämda tre månader innan det att förhållandet avslutas – och ett halvår efter uppbrottet. Man jämför alltså språkbruket hos folk i allmänhet med språkbruket hos sådana som uttryckligen säger sig ha separerat.

”Har man något hum om hur svårlöst problemet är
kan det vara svårt att inte imponeras”

Dessa specifika individers forumaktivitet på nätet undersöktes också två år före och två år efter den omvälvande händelsen. Enligt forskarna använde de separerande personerna ett språk som var mer informellt och mindre analytiskt, de talade mer om ”jag” och ”vi” och uppvisade vad som uppfattades som språkliga tecken på nedstämdhet.

Dessa indikatorer gällde även när individerna ifråga diskuterade andra ämnen, alltså utan direkt bäring på relationsstatusen.

Utan dagens datorteknik skulle man givetvis inte ha kunnat analysera en miljon inlägg från tusentals diskussionsdeltagare.

Man kan möjligen ifrågasätta kvaliteten hos en mer eller mindre maskinell analys, men tanken är förstås att den enorma kvantiteten ska kompensera för den saken. Om sanningen ska fram är det inte i samtliga specifika fall uppenbart att dessa studier innebär älgkliv för vetenskapen. Och ryktet om träffsäkerheten har ibland överdrivits. Vi talar här inte om magi, och många studier är snarare material för en betraktelse i radioprogrammet Spanarna. Underhållningsvärde är för all del inte det sämsta, och i några fall finns en samhällsnyttig aspekt. Språklig Big Data har med viss framgång använts för att identifiera exempelvis terrorister och pedofiler.

Lingvister är som sagt ofta mer intresserade av talspråk, men forskar ändå mycket på skrift av den enkla anledningen att tal är flyktigt och i praktiken behöver det reduceras till någon form av skrift för att alls vara beforskningsbart.

De flesta av oss skriver inte som vi talar, och därför är skrift en halvdan stand-in för the real thing. Men alla som någonsin har försökt sig på det, vet att det är ohyggligt tidskrävande att överföra ett samtal till en skriftlig version.

En av de riktigt stora utmaningarna för modern språkforskning har varit att få maskiner att utföra just den uppgiften. Hittills har resultaten kunnat beskrivas som sisådär, vilket i sin tur säger något om den mänskliga hjärnans kapacitet. Men framsteg har gjorts. Den som sett SVT:s experiment med automattextning eller tryckt på Youtubes textningsknapp vet att resultaten är långtifrån perfekta, men har man något hum om hur svårlöst problemet är kan det samtidigt vara svårt att inte imponeras. Månne kan framtida tekniska framsteg även erbjuda oss talad Big Data.

Mikael Parkvall är forskare i lingvistik vid Stockholms universitet.