Så funkar stilometri
Speciella förkortningar och en sällsynt stavning hjälpte polisen att identifiera mannen som drev en drogmarknadsplats på nätet. Nu spanar polisen efter brottslingars fingeravtryck i text.
Länge höll polisens Nationella operativa avdelning, Noa, tyst om att de anammat metoden stilometri. De ville att kriminella obrytt skulle knappa vidare på sina tangentbord.
Stilometri användes i utredningen av sajten Flugsvamp 2.0 där det gick att köpa till exempel cannabis, dopningsmedel, hallucinogener och receptbelagda läkemedel som bensodiazepiner. Alla är farliga vid missbruk.
Som regel utförs den här sortens illegala handel på det som kallas darknet, en slags undre värld på internet där användare månar om sin anonymitet.
– De gör ju allting för att vara så svårupptäckta som möjligt och tekniskt är det mycket svårt att spåra och identifiera de som befinner sig på darknet, säger utredaren Peter Marklund på Noa.
– Så vi satte oss ner och spånade för att hitta andra angreppssätt.
Fem sätt att stava ett ord
I Svenska Akademiens olika ordböcker finns totalt fem stavningar av det ord som i dag oftast skrivs schysst:
→ schysst
→ schyst
→ sjyst
→ juste
→ just
Svaret blev det som på engelska kallas för stylometric analysis – eller kort och gott stylometry.
– I grunden handlar det om att sammanfatta en författares stil på ett sätt som går att kvantifiera för en dator, säger Robert Östling, docent i datorlingvistik på Stockholms universitet.
Metoden förlitar sig på att företeelser ska vara mätbara, exempelvis ordfrekvens.
– Till exempel kanske jag använder och oftare än vad du gör, medan du i stället använder utan oftare, säger Robert Östling. Här kan man också lägga till grammatiska konstruktioner, till exempel hur ofta du använder bisatser eller sätter objektet först i meningar.
När det inte fanns någon misstänkt i utredningens början letade Peter Marklund på bred front efter mönster i texterna. Förutom ett välkomstmeddelande som hade lagts ut när Flugsvamp 2.0 lanserades hade han ganska lite text att gå på, men han hittade ett användarkonto vid namn ”Agnes” som språkligt liknade kontona ”Reinfeldt”, ”support” och ”admin 6”. Sedan tog det stopp.
”Man lämnar fingeravtryck i text. För att inte göra det krävs att man är väldigt medveten.”
Den tekniska utredningen puttrade dock på. Noas experter fortsatte att följa pengarna i kryptovalutornas värld. När en brittisk kryptotjänst skickade information tog polisens arbete fart.
– Då fick vi ett namn på en svensk man helt enkelt, säger Peter Marklund.
En ung man i södra Sverige, Mattias, var nu under språklig lupp.
Hos Åklagarmyndighetens riksenhet mot internationell och organiserad brottslighet förkovrade sig kammaråklagare och förundersökningsledare Annika Wennerström i stilometri.
– Man lämnar fingeravtryck i text. För att inte göra det krävs att man är väldigt medveten, säger hon.
– Hade Mattias känt till stilometri hade han kanske inte lämnat de här spåren efter sig.
På polisen märkte Peter Marklund att texterna sällan var det som man skulle kunna kalla välskrivna. Det kunde tyda på att personen inte var högutbildad. Det framkom att Mattias knappt hade klarat skolan. Ett märkligt stavfel stack ut i materialet.
– Det finns hur många sätt som helst att skriva schysst på och han skrev shjyst, säger Peter Marklund
Mattias språkmönster
→ Hursom i stället för hursomhelst
→ Utav i stället för av
→ Shjyst i stället för schysst
→ Ihopskrivningar som såkallade och menmen
→ Tecknet &
→ Kolon mitt i meningar
→ Meningsfragment
→ Parenteser som skiljetecken vid numrerad lista
Källa: Polisen
För att bekräfta att stavningen var ovanlig besökte han diskussionsforumet Flashback som då hade funnits i nära tjugo år. Varianten shjyst förekom i drygt 50 inlägg och av endast 21 användare – och vid den tidpunkten fanns 1,5 miljoner konton på sajten. Frågan var om någon av användarna kunde kopplas till Flugsvamp 2.0.
För att få fler och längre texter som utan tvivel skrivits av Mattias vände sig polisen till andra myndigheter och även till hans bank. Sedan var det bara att vänta.
Kortare inlägg lämpar sig sällan för stilometrisk analys. Exempelvis föll metoden platt när polisen gick igenom den omfattande men fragmentariska kommunikationen på Encrochat och Sky ECC, två av de krypterade appar som varit populära inom organiserad brottslighet. Förutom samtal om narkotikaförsäljning beställdes också mord.
– Det fanns särskilda utmaningar med meddelanden med befallningar och uppmaningar, och uppdateringar som i regel var korta, säger åklagaren Annika Wennerström.
”Det finns hur många sätt som helst att skriva schysst på och han skrev shjyst”
Även när analyser i framtiden kan komma att utföras av artificiell intelligens, AI, förblir textmängden förmodligen avgörande, enligt datorlingvisten Robert Östling.
– Det kräver att du har tillräckligt mycket data, säger han.
Därför arrangeras regelbundet tävlingar där forskare försöker skapa de bästa systemen för att utföra just den här uppgiften.
– I korthet är det en svår uppgift med relativt korta texter. Om man har tillgång till längre texter av samma typ kan det gå lättare, säger Robert Östling.
Äntligen kom svar från CSN och en bank som skickade vidare brevväxling med Mattias till polisen. Det fanns en otvetydig språklig koppling till det tidigare materialet, ansåg utredarna.
– Det var en väldigt bra belysning på att den digitala och den analoga bevisningen pekade i samma riktning, säger Annika Wennerström.
Till slut kunde tre användare på Flashback som stavade shjyst kopplas till Mattias. Tillsammans med andra fynd var utredningen då så stark att han kunde gripas.
Kort därefter började Flugsvamps användare surra om att de inte längre fick svar från något av sajtens administrationskonton. Tesen att Mattias hade jobbat själv och försökt gömma sig bakom flera alias stärktes.
Fortfarande ovetande om att hans språk granskades i detalj skrev Mattias flera brev från häktet. Även de analyserades. Och även där återkom flera av hans språkliga vanor.
”Ovetande om att hans språk granskades i detalj skrev Mattias flera brev från häktet”
Snart hade åklagaren tillräckligt med material för att väcka åtal. Dock togs beslutet att inte ha med den stilometriska analysen som bevisning, delvis för att Noa fortfarande var förtegen om metoden.
sensommaren 2020 frikände tingsrätten Mattias. När målet gick upp till hovrätten så ändrade sig åklagarsidan om textanalysen. Nu skulle den tas upp i rätten. Det var dags för Peter Marklund att infinna sig som vittne i rättssalen. Med hjälp av ett flersidigt bildspel gick han igenom det han ansåg vara säregna kännetecken.
Det var inte bara shjyst som nämndemännen hade att ta ställning till. Han tog upp en rad andra språkdrag som stack ut. Till exempel användes menmen i stället för Men men och ett antal förkortningar hade konsekvent punkten på fel plats, som b.la i stället för bl.a.
I rätten tycktes nämndemännen med lätthet ta till sig materialet. Och enligt åklagaren verkade de göra det med en viss lättnad efter flera veckors invecklad kryptobevisning.
Stilometrin används till att ...
→ med mätbara medel, såsom frekvens av vissa språkdrag, identifiera en skribent.
→ bidra till en gärningsmannaprofil. Förekomsten av ett ord som det könsneutrala pronomenet hen kan till exempel tyda på att skribenten är ganska ung.
→ upptäcka nättroll som med ett stort antal konton i sociala -medier förstärker politiska budskap.
→ ge en fingervisning om antalet författare. I dag tror exempelvis forskare att Beowulf, ett epos skrivet på fornengelska, författades av en och samma person efter-som stilen och språket är så konsekvent.
→ applicera litteraturvetenskaplig analys av en författares språkutveckling.
– Den här analysen var väldigt konkret och väldigt allmäntillgänglig, säger Annika Wennerström.
Frågan var om Mattias hade gjort språkligt självmål. Var det egentligen så ovanligt – vilket åklagarsidan lyfte fram – att skriva punktlistor med siffra följt av parentes på engelskt vis? Många ordbehandlingsprogram föreslår ju automatiskt det formatet. Och att använda tecknet & var väl långt ifrån unikt? Sådana frågor behövde hovrätten ta ställning till.
Under förhandlingarna hade Mattias försvarsadvokater påpekat att det kunde finnas likheter i texterna, men att det även fanns olikheter som expertvittnet inte gick igenom. Det behövde rätten ta i beaktande, argumenterade de. En bredare fråga var om själva metoden var att lita på. Den var ovanlig, men inte ny.
I sitt bildspel hade Peter Marklund lagt till den spökbild på Unabombaren Ted Kaczynski som i USA är lika välkänd som skissen på Lasermannen i Sverige. Under de nästan tjugo år som FBI la på utredningen dödades tre personer i sprängdåd som även skadade ett tjugotal personer. Därefter fick utredarna mannens antikapitalistiska manifest på 35 000 ord. Texten innehöll ålderdomliga ord och även uttryck från Chicago med omnejd. Men det fanns ingen garanti för att han bodde kvar i trakten.
När FBI offentliggjorde delar av manifestet var det Unabombarens egen familj som kände igen hans idéer och formuleringar. De lämnade över gamla brev till polisen som jämförde sättet att skriva på. 1996 greps Unabombaren i sin stuga 170 mil från Chicago.
– Det är helt otroligt att de lyckades hitta honom utan tillgång till internet, säger Peter Marklund.
Unabombaren dömdes till åtta separata livstidsstraff som ska avtjänas i rad. Ted Kaczynski, som nu är 80 år, kommer att dö i fängelset.
Ett kvarts sekel efter gripandet av Unabombaren var det dags för Svea hovrätt att skriva sin dom. Rätten hade inte köpt allt. Punktlistorna och & ansågs svaga som bevisning, men en del mönster gick inte att bortse ifrån och på det tillkom den tekniska utredningen.
I juni 2022 dömdes Mattias till elva år och åtta månader för bland annat synnerligen grovt narkotikabrott.
– Jag tror att stilometri kan komma att användas i fler utredningar och att den här domen banar vägen för det, säger Annika Wennerström.
– Metoden är inte så känslig längre, det innebär att man har etablerat den.
Ann Törnkvist är frilansjournalist och författare.
Fotnot: Mattias, som egentligen heter något annat, har via sitt försvar erbjudits möjligheten att ge en intervju. Han överklagade utan framgång den fällande domen till Högsta domstolen.