Snart svårare att gömma sig i text
Texter har förfalskats i alla tider. Men ny teknik gör det lättare att identifiera den verkliga avsändaren.
I slutet av 1430-talet befann sig kung Alfons den femte av Aragonien i konflikt med påven över vem som skulle styra över Neapel. Som argument för sin auktoritet hade påven den så kallade Konstantinska donationen, en kungörelse skriven av den romerske kejsaren Konstantin år 324. I denna lämnar kejsaren över makten över Västromerska riket till påven, som tack för att påven har botat honom från spetälska och döpt honom.
Men kungen vänder sig till den italienska professorn Lorenzo Valla, och ber honom undersöka dokumentet. Och år 1440 skriver Valla sitt mest kända verk: De falso credita et ementita Constantini Donatione declamatio, fritt översatt ’Om den förfalskade Konstantinska donationen’, efter att noga ha analyserat kungörelsen. Han kommer fram till att den omöjligt kan ha skrivits på 300-talet, och därför måste vara en förfalskning. Ett av bevisen är att texten omnämner kejsaren och hans satraper, en titel som inte användes i Romarriket vid den tiden.
Lorenzo Vallas kritik mot den okände författaren är hård: ”Vad! Hur har du tänkt få in satraperna här? Ditt dumhuvud, din träskalle! Talade Caesar så? Brukade de romerska kungörelserna utformas så? Vem har hört talas om satraper i romarnas råd?”
Denna historia är det första kända exemplet på att det går att läsa en text och säga något om vem som har skrivit den. Ett modernare exempel är från 1995, då en man vid namn David Kaczynski fick sig en obehaglig överraskning när han läste dagens tidning. Under många år hade FBI jagat den så kallade una-bombaren i USA. Denne spred skräck och död genom en rad bombattentat, främst mot personer inom universitet och flygbolag.
Till slut meddelade una-bombaren att han skulle sluta med sina dåd, om tidningarna bara publicerade hans manifest, vilket de gjorde. David Kaczynski läste manifestet i tidningen, och insåg efter hand att han kände igen stilen. Det visade sig vara hans bror Ted Kaczynski som hade skrivit texten. Och så fick ett av historiens mest uppmärksammade brottsfall sin lösning.
Med internet har vi fått nya möjligheter, och nya behov av, att analysera och klassificera text, med avseende på vem eller vilka som har skrivit den. En dator kan analysera stora mängder text, många miljoner ord, för att bygga upp statistiska modeller av hur olika grupper skriver. Man kan till exempel räkna hur ofta vissa ord eller grammatiska konstruktioner används. Dessa modeller kan sedan användas för att automatiskt säga något om en text med anonym skribent.
En del har stora planer på vad man ska kunna uträtta med den här sortens teknik, till exempel för att bekämpa brott. Om vi med datorns hjälp kan avgöra vem som har skrivit en text, så skulle vi kunna lösa tvister om plagiat och upphovsrätt, och avslöja förfalskningar i stil med Konstantinska donationen. Man skulle också kunna analysera påstådda självmordsbrev, för att se om de är äkta eller skrivna för att dölja ett mord.
Vissa hävdar att tekniken för textklassificering också skulle kunna användas för att förebygga terrorism, och i ett tidigare skede kunna hindra sådana som Ted Kaczynski. Innan Anders Behring Breivik genomförde attacken på Utøya skrev han till exempel om sina åsikter och planer på internetforum.
En sak som vara mycket användbart för polisen är att kunna avgöra om två olika användaridentiteter på olika forum egentligen är en och samma person. Då skulle man till exempel kunna avgöra om en person som skriver hatiska kommentarer om en folkgrupp på en sida är samma person som visar stort intresse för explosiva kemikalier på en annan.
Det finns redan nu en hel del företag och andra organisationer som studerar det vi skriver om oss själva på internet och drar slutsatser av det, bland annat för att kunna rikta reklam till oss. Men att automatiskt identifiera en anonym skribent – som ingenstans skyltar med sin identitet – är en helt annan och mer komplex uppgift.
En del forskning har gett oväntat positiva resultat, och forskare har hävdat att man med stor säkerhet kan identifiera en person även bland tusentals möjliga författare. Man behöver inte heller använda särskilt avancerade metoder – en del har inte ens tittat på ord, utan helt enkelt gått efter hur ofta en författare använder olika bokstäver. Det ser alltså ut att vara möjligt att känna igen en författare enbart på att den använder ovanligt många g eller vad det nu kan vara.
Vissa har därför haft stor tilltro till de statistiska metoderna och de har redan använts i rättsfall för att avgöra vem som har skrivit en text. Men det finns anledning att vara försiktig. För det första visar mycket av forskningen att det krävs stora mängder text. Man räknar ofta med att runt tio tusen ord behövs för att ha en rimlig chans att identifiera någon, och för att kunna vara på den säkra sidan vill man gärna ha hundra tusen, alltså motsvarande ungefär en genomsnittlig roman. Så den som skriver ett anonymt brev behöver knappast vara särskilt orolig för att bli avslöjad, om den inte formulerar sig alldeles oerhört långrandigt.
För det andra baseras testerna av metoderna oftast på texter ur ett och samma sammanhang. Om man till exempel har använt text ur en bok för att bygga upp en statistisk modell av hur en författare skriver, då kan det fungera bra att identifiera andra textstycken ur samma bok. Men redan i andra böcker av samma författare blir dennes text svårare att känna igen. Om man skulle försöka sig på att identifiera till exempel ett brev eller en internetbaserad text av samma författare, skulle det kunna bli ännu svårare.
I en studie 2017 undersökte vi engelska bloggtexter för att se hur väl en dator kan identifiera en persons ålder, kön, yrke och stjärntecken. En metod vi testade var att räkna hur ofta personen använder några av de vanligaste orden, som the, of, and och så vidare.
Det visar sig att ålder är klart lättast att avgöra. Om skribenterna delas in i två åldersgrupper, kan vi med datorns hjälp gissa rätt på 80 procent av fallen. Kön är lite svårare, och vi får rätt svar i runt 65 procent av fallen. Yrke är lite av ett gränsfall – det ser ut som datorn kan träffa rätt lite oftare än genom ren gissning, men skillnaden är så liten att det ändå kan vara en slump att svaret blir rätt. Att avgöra personers stjärntecken utifrån deras sätt att skriva visar sig däremot, inte helt oväntat, vara helt omöjligt.
Beroende på vilka stildrag man analyserar, vilka matematiska metoder man använder, och vilka texter man arbetar med, kan resultaten variera, men överlag överensstämmer de: både kön och ålder kan maskinen avgöra bättre än slumpen, även om den ligger ganska långt ifrån 100 procent rätt.
Men om det nu går att se skillnad på hur till exempel män och kvinnor skriver, vad är det då som skiljer dem åt?
Vi kan se några generella mönster: Kvinnor använder fler pronomen – som jag och du – och hjälpverb – som måste, kan och vill. Män använder fler konjunktioner – som och och men. Dessutom skriver männen längre meningar.
Mer specifika resultat beror på från vilket sammanhang vi hämtar texten. När vi undersökte engelska bloggtexter såg vi att de tre mest överrepresenterade orden bland kvinnor är I, my och me (’jag’, ’min’ och ’mig’). Är kvinnor mer självcentrerade? Nja, inte nödvändigtvis. Det skulle kunna vara så att kvinnor oftare använder bloggar för att skriva om sina personliga erfarenheter, medan män skriver om andra saker. Det skulle också kunna vara så att kvinnor uttrycker sina åsikter med fraser som jag tycker att det är så här …, medan männen är mindre blygsamma och uttrycker sina åsikter som fakta: det är så här.
Vi kan också ta tillfället i akt att testa några andra fördomar om hur män och kvinnor talar och skriver. En vanlig tanke är att kvinnor talar mer om känslor. Kan det stämma? Om vi provar att lista de vanligaste orden som har med tankar och känslor att göra, som tänka, älska, bra och intressant, ser vi att de flesta av dem används betydligt oftare av kvinnor.
En annan fördom är att kvinnor talar mer om familj och relationer, så vi tittar på ord som barn, kvinna och familj. Även här får vi vatten på vår fördomsfulla kvarn – alla orden används betydligt mer av kvinnor. Vi ser också en inte helt oväntad trend: Kvinnor använder ord för kvinnor (som hon, kvinna, mamma) oftare än de motsvarande manliga orden (som han, man, pappa), och det omvända gäller för män. Men i allmänhet är alla de här orden, även de manliga, vanligare i texter av kvinnor än i texter av män. Det kan verka lite förvånande att ordet fru används mer av kvinnor, eftersom de mer sällan har en fru att tala om. Men även om vi tittar på uttrycket min fru visar flera textdatabaser att det är mer vanligt förekommande hos kvinnor. Uppenbarligen är det så att om en man i en bok pratar om sin fru, då är det troligen en fiktiv man – i en bok av en kvinna.
Hur är det då med skillnader mellan åldersgrupper? Här kan vi se ännu tydligare skillnader. Yngre personer använder i större utsträckning pronomen, och äldre personer skriver längre meningar med fler bisatser. Upprepar vi experimentet med ord för känslor ser vi att yngre använder dem mycket mer än äldre. I själva verket är det till stor del samma ord som är överrepresenterade hos kvinnor och hos yngre, men med en ännu större skillnad mellan åldersgrupper än mellan kön.
Så vad ska vi dra för slutsatser av det? Att kvinnor inte bara är självcentrerade, utan också barnsliga? Nej, snarare är det så att kvinnor och yngre oftare använder sig av ett informellt, ledigt, och kanske mer modernt språk. Andra studier har också visat att skillnaderna mellan fakta och fiktion liknar dem mellan manliga och kvinnliga författare.
I slutänden är det inte så lätt att identifiera en författares kön trots allt. En metod som bara går efter den här statistiken skulle kanske ta fel om en kvinna skriver en formell text, eller om en man skriver ett personligt brev. På samma sätt skulle man ju kunna gissa en persons kön utifrån dess yrke, men det vore bara en fråga om statistik, knappast några djupare insikter än så.
Det finns alltså en hel del kvar att göra i arbetet med att automatiskt klassificera texter. I dag är det framför allt enklare sysslor som kan skötas med tekniken – sådant som människor enkelt skulle kunna göra, men som ändå är praktiskt att överlåta till datorn. Det kan vara att filtrera skräppost eller ovälkomna inlägg på internetforum, eller att identifiera vilket språk en text är skriven på. Det finns även system för att kategorisera texter efter ämne eller genre, till exempel i en databas över tidningsartiklar eller böcker.
I vissa fall är det en ganska lätt uppgift – det är inte svårt att hitta nyckelord för att skilja artiklar om sport från artiklar om utrikespolitik. Andra fall är fortfarande under utveckling, till exempel att automatiskt klassificera en recension som positiv eller negativ, eller att avgöra hur lättläst en text är.
Någon gång i framtiden kanske vi också har utvecklat enkla och effektiva program för att identifiera en anonym författare. Men det innebär också att den som vill vara anonym kan använda programmet, och ändra sitt sätt att skriva, tills den inte blir identifierad – eller tills den identifieras som någon annan. Så även i framtiden kommer vi säkert att behöva bildade personer som, precis som Lorenzo Valla, kan analysera texter och upptäcka förfalskningar.
Niklas Zechner arbetar som expert på Språkbanken vid Göteborgs universitet.
”Helt säker kan man aldrig vara”
Niklas Zechner är datavetare, lingvist och musiker.
Du forskar om textklassificering med hjälp av dator. Går det att pricka in exakt vem som har skrivit ett anonymt dokument?
– Det beror på omständigheterna. I vissa fall är det ganska lätt, i andra är det väldigt svårt. Helt säker kan man aldrig vara, eftersom det inte finns något facit.
Finns det annat som man kan vara mer säker på?
– En del saker är lätta att göra med datorn, som att avgöra vilket språk en text är skriven på.
Du har ett stort musikintresse också. Vilka är beröringspunkterna mellan musiken och textforskningen?
– Musik är ju också på sätt och vis ett språk. Det finns liknande metoder för att låta datorn gissa vem som har skrivit en melodi, och till och med skriva nya melodier i samma stil. Jag har också forskat på att låta datorn automatiskt tonsätta en text.