Talande bevis
Ett bestialiskt mord har begåtts. Polisens utredare lägger sitt sedvanliga pussel av bevismaterial. Bland fingeravtryck, mordvapen och dna-rester finns också en knastrig ljudinspelning från en telefon. Ändå står utredningen och stampar – tills en av FBI:s röstexperter träder in på scenen.
Kostymklädd, sval och fåordig packar han upp sin bärbara dator och kör telefonrösten i ett superprogram. Det blippar och bloppar innan plötsligt ordet MATCH blinkar till över hela skärmen. Ännu en tv-deckare har fått sin lösning.
Det är med filmindustrins kreativa fantasier på näthinnan vi beger oss till Göteborg för att träffa Jonas Lindh. Han är rättsfonetiker och polisens externa ”röstdetektiv”, alltså Sveriges egen motsvarighet till den svale FBI-agenten. Men på väg genom korridorerna mot Jonas Lindhs arbetsplats börjar deckarassociationerna att kännas långsökta. Kontoret på Enheten för logopedi vid Göteborgs universitet kan på sin höjd fungera som kuliss till en collegefilm. Särskilt hårdkokt är det inte.
Jonas Lindh själv gör inte heller mycket för att befästa våra vanföreställningar. Bekvämt tillbakalutad i kontorsstolen finner vi i stället en utåtriktad datanörd med svaghet för udda språk och espresso. Just nu lägger han sista handen vid sin avhandling i forensisk fonetik, eller rättsfonetik. Att studera människans tal är grunden i fonetikämnet, och en rättsfonetiker är specialiserad på användningen av röster i rättssammanhang.
På något sätt hinner Jonas Lindh också med att undervisa blivande logopeder i databaserad röstanalys, men framför allt utför han analysuppdrag för Statens kriminaltekniska laboratorium, SKL.
– Många tycker ju att mitt jobb är något väldigt häftigt, men jag måste säga att det blir rätt tråkigt med långa ljudinspelningar. Det är inte så glamoröst som man kan tro. Fast det är roligt med Säpo – alla har bara förnamn. De kommer hit, glider in i korridoren: ”Är det du som är Jonas? Har du legitimation?”
Även om Jonas Lindh emellanåt tycker att jobbet är långrandigt, kan man inte komma ifrån att det är unikt. Hur många språkforskare blir handplockade av polisen för att jobba som externa utredningskonsulter? För det var just så det gick till. Jonas Lindh hade sysslat med sin forskning i ett och ett halvt år när telefonen ringde.
– ”Det var som fan”, tänkte jag, ”läser polisen akademiska uppsatser?” Jag gick med på att göra en analys av en röst, och testa.
Det var 2005, och sedan dess har samarbetet rullat på. Det vanligaste scenariot är att polisen har en inspelning som de vill att Jonas Lindh ska jämföra med en misstänkt persons röst. Med korrekt terminologi kallas det för en forensisk talarjämförelse. I det här läget är allt av intresse: dialekt, tvekljud, typiska skratt och pauser. Det är bara att utrusta sig med tålamod, ta på sig hörlurarna och lyssna om och om igen.
– I det första steget handlar analysen om talaren och talarens beteende. Sättet man pratar på är ju delvis inlärt. Det kan vara saker från barndomen, och mer eller mindre personliga drag som man har tillägnat sig under livet.
Jonas Lindh plockar alltså manuellt ut relevanta detaljer, som han sedan mäter och jämför med den misstänkte gärningsmannens tal. Vad som går att mäta varierar från fall till fall. Till exempel kan grundtonsfrekvensen, som har med storleken på stämbanden att göra, vara ett intressant mått – förutsatt att inspelningarna är av likartad karaktär. Någon som vrålar detta är ett rån!, går inte att jämföra med en röst som muttrar inga kommentarer. Ställer man däremot ett buggat telefonsamtal mot en inspelning från ett polisförhör blir läget annorlunda. Då kan grundtonsfrekvensen vara användbar, liksom artikulationshastigheten, det vill säga hur många stavelser eller pauser som förekommer under en viss tidsperiod.
– Man kan också lyssna på hur personerna på inspelningarna låter när de tvekar. Då plockar man ut alla ööh och aah och mäter hur vokalerna ser ut. Ovanför stämbanden finns nämligen ett filter – huvudet – som man ju får tro är ganska unikt. Det skapar dalar och toppar i energifrekvenser, och dem kan vi mäta.
Gemensamt för alla mätningar är att det gäller att hitta likheter mellan de inspelade personerna. Men för att likheterna ska vara värda något som bevis måste de vara typiska och utmärka sig i förhållande till hur de flesta av oss talar, förklarar Jonas Lindh.
– Ta till exempel en bankrånare som kommer in och pratar skånska, men stammar och har främre, ”rullande”, r-ljud och väsande s. Det är en udda kombination helt enkelt. Den är så särskiljande att bevisningen blir väldigt stark om den misstänkte också har samma drag.
Talar däremot både bankrånarrösten och den misstänkte vanlig, slätstruken skånska, passar alltför många in på beskrivningen. I sådana fall får Jonas Lindh helt enkelt lägga hörlurarna åt sidan och plocka fram sitt trumfkort – superprogrammet.
För det finns faktiskt ett sådant.
– Programmet som jag har gjort är en anpassning av den franska mjukvaran Alize. Det fungerar så att det gör stora matriser av varje tidsenhet när du pratar. Sedan bygger det liksom en liten boll – eller en matematisk och statistisk modell – av hur rösten ser ut. Programmet ignorerar helt vad som sägs. Det bara mosar ihop allting och ger ett rent naturvetenskapligt, statistiskt mått på röstkvaliteten.
Den lilla ”röstbollen” jämförs därefter med större röstbollar. Jonas Lindh har lagt in tusentals röster med olika ljudkvalitet som han har ”tränat” programmet på. Tillsammans bildar de en hel röstvärld, som fungerar som en sorts bakgrundspopulation. Ur denna enorma boll av röster kan han också plocka ut en mer koncentrerad referenspopulation, till exempel unga män från Göteborg. Liksom i den manuella analysen handlar det om att hitta likhet och typiskhet, men skillnaden är att Jonas Lindh nu jobbar med statistiska hårddata.
De forensiska talarjämförelserna består lite förenklat av tre delar: Först lyssnar man. Sedan gör man olika manuella, akustiska mätningar och till sist utförs en automatisk behandling av materialet. Men rättsfonetiken handlar förstås om annat också. Jonas Lindh får relativt ofta beställningar på forensiska transkriptioner, alltså att han ska skriva ner inspelade röster, för att försöka tyda vad de verkligen säger.
Mer sällsynt är talarprofilering, där man skissar fram ett slags gärningsmannaprofil utifrån en röst. Jonas Lindh har bara haft ett sådant fall på sex år, och är inte särskilt förtjust i uppgiften. Det är för många länkar som saknas, menar han:
– Man kan göra kvalificerade gissningar om en persons längd och storlek genom att lyssna på rösten. Framför allt om längden. Lägre grundton innebär till exempel en längre person, troligtvis. Somliga påstår att grundtonen också korrelerar med kroppsvikten, men jag har spelat in mig själv, och min röst ser likadan ut nu som för 15 år sedan. Tyvärr är inte min vikt densamma, så nja …
Som den forskare han är, vill Jonas Lindh helst inte säga saker som han inte har täckning för. Några hundraprocentiga svar går aldrig att få med rättsfonetikens hjälp, och det är inte heller möjligt att bara mata in röstinspelningar i datorn och tro att den ska lösa fallet. Att arbeta med den mänskliga rösten är något helt annat än att laborera med dna eller fingeravtryck. Begreppet voiceprint analysis, ’röstavtrycksanalys’, existerar visserligen, men Jonas Lindh skakar på huvudet när vi tar upp det.
– Voiceprint analysis är helt fel koncept, men används fortfarande i USA på vissa ställen, till och med av FBI.
Visst vore det smidigt att kunna använda rösten som ett slags fingeravtryck, men de sekundsnabba röstmatchningarna som man kan se i deckare fungerar tyvärr inte så bra i verkligheten. Bara för att det går att göra diagramliknande bilder av rösten innebär det inte att man kan sätta likhetstecken mellan bild och ljud. Rösten är alltför komplicerad för det.
Jonas Lindh är också försiktig med att ta uppdrag som innefattar andra språk än svenska, förutsatt att inte någon kvalificerad samarbetspartner finns tillgänglig. Men under åren har han ändå samlat på sig en nätt samling kontakter för att kunna hantera engelska, polska, arabiska, danska, urdu, hindi och kinesiska. Den kan komma väl till pass i till exempel fall med människosmuggling. Och i ett Clark Olofsson-ärende löstes de nederländska inslagen tillsammans med en kvinna från Nederländernas motsvarighet till SKL.
Även om den forensiska bevisningen är oklanderlig, så kan det ändå bli problem i rätten, oavsett vilken typ av fall det handlar om. Jonas Lindh har märkt att kunskapen om hur man ska hantera och förstå röstbevisning inte alltid är så god.
Det är ett av skälen till att Stockholms universitet ordnar populärvetenskapliga kvällskurser i forensisk lingvistik, eller rättslingvistik, där Jonas Lindhs forskarkollega Lisa Gustavsson är en av lärarna:
– Kvällskursen är riktad till sådana som i sitt jobb kommer i kontakt med språk som en del i en rättsprocess, som poliser och jurister. Det viktigaste budskapet vi för fram är försiktighet: man ska veta vad man kan utläsa av en röst och vad man inte kan utläsa. Det är farligt att lägga ett forensiskt utlåtande i händerna på folk som inte förstår hur det ska tolkas.
Eftersom kursen handlar om forensisk lingvistik – till skillnad från fonetik – är innehållet bredare än bara ljud och inspelningar. Lingvistiken, språkvetenskapen, handlar ju också om text. På jakt efter pedofiler kan polisen till exempel ägna sig åt att spana i olika chattrum på nätet, och i det läget blir det intressant att kunna knyta en viss text och dess författare till ett brott.
Men det gäller som sagt att vara försiktig. Lisa Gustavsson berättar att det förekommer en hel del oseriösa försök att slå mynt av den okunskap som finns. Säg det försäkringsbolag som skulle tacka nej till att kunna avslöja om någon försöker bluffa sig till ersättning. Tanken är så lockande att till och med den brittiska regeringen i sin jakt på bidragsfuskare för ett par år sedan bestämde sig för att testa lögndetektorer. Affären avbröts i förtid tack vare en obekväm artikel av fonetikprofessorerna i Stockholm och Göteborg, Francisco Lacerda och Anders Eriksson. Deras granskning visade att lögndetektorer ofta själva far med osanning. Fast då var britterna redan åtskilliga miljoner fattigare.
För en rättsfonetiker handlar jobbet aldrig om att tolka känslolägen eller att peka ut gärningsmän. Men det går att göra mycket annat med hjälp av hörlurar och ”röstbollar”, också om ljudkvaliteten sviktar. När Jonas Lindh under en period blev överhopad med närmast oanvändbara inspelningar från bankrån, byggde han till exempel upp en särskild databas som kunde definiera en typisk bankrånarröst.
Det svenska buset gör alltså klokast i att arbeta i det tysta. Röstdetektiven Jonas Lindh står beredd. Det verkar nästan som om han till och med längtar lite efter att den klassiska röstförvrängaren – näsduken framför ansiktet – ska få en förfinad uppföljare som verkligen kan ge honom något att bita i:
– Jag ser fram emot den dag när folk kanske börjar låta som smurfar eller kodar sitt tal. På något sätt får man väl erkänna att de har lyckats då. Ut och leta efter en smurf – det är han som är knarkkungen!