Bild: 
Istockphoto
Datorer matas med enorma ­mängder text för att lära sig att greppa relationerna mellan orden.

Bert: en språklig relationsexpert

Nya kraftfulla modeller för språkanalys gör AI allt bättre på att förstå text. Datorer kan numera till exempel tränas att bedöma texters politiska färg. Forskare talar om en revolution.

Kan datorer känna igen politisk färg i en text? Forskare på Peltarion bestämde sig för att testa. Peltarion är ett företag som utvecklar artificiell intelligens, AI, det vill säga den sorts intelligens som tillskrivs ett datorsystem.

Först tränade forskarna en språkmodell att skilja på olika partiers budskap genom att de matade datorn med riksdagsmotioner från 2010 och framåt.

– Det gick förvånansvärt bra, säger Anders Arpteg, forskningschef på Peltarion.

Tester av modellen visade att den fick rätt i drygt 80 procent av fallen. Högst var träffsäkerheten för Sverigedemokraterna, med 89 procent, och lägst för Kristdemokraterna, med 70 procent.

Felen berodde oftast på förväxlingar inom de politiska blocken. Modellen trodde ibland att en motion från Socialdemokraterna var skriven av Miljöpartiet eller Vänsterpartiet, medan Moderaternas motioner förväxlades med antingen Centerpartiets, Liberalernas eller Kristdemokraternas.

Modellen finns på nätet för den som själv vill testa (se fotnot).

På motsvarande sätt kan en ny generation kraftfulla språkanalysmodeller tränas till andra uppgifter. Peltarion arbetar till exempel med en AI-modell för sjukvården, som ska hjälpa läkare att ställa rätt diagnos.

– De senaste AI-modellerna förstår mer än bara enskilda ord. De kan även förstå vad orden betyder i dess rätta sammanhang, vilket inte har varit möjligt tidigare, säger Anders Arpteg.

Att få datorer att förstå och tolka text och tal har länge varit ett mål inom språklig AI. Ett problem är alla ord som ändrar betydelse efter sammanhanget. Står tre för siffran tre eller telefonoperatören Tre? Talar vi om väder eller byggnader när vi använder ordet vind? En dator har också svårt att avgöra om ordet den syftar på katten eller maten i satser som Katten åt inte maten. Den var inte hungrig.

Men de senaste två åren har någonting hänt. Plötsligt kan datorer förstå sammanhanget på en helt ny nivå. Genombrottet kom i november 2018 när sökmotorföretaget Google presenterade en ny modell för textanalys, Bert, bidirectional encoder representations from transformers.

– Modellen har inneburit en revolution för hela fältet, säger Magnus Sahlgren, som leder forskningsgruppen inom språkteknologi på forskningsinstitutet Rise i Stockholm.

Han är doktor i datorlingvistik och har jobbat i 20 år med att bygga datormodeller som tolkar språk. Att få dem att förstå sammanhang har varit en viktig del av forskningen. Traditionellt har det krävt en hel del handpåläggning, till exempel genom att forskarna märker upp stora mängder text med relevant information för att kunna ”träna” modellerna – som vilken ordklass ett ord tillhör och vilken funktion det har i en viss mening. Partiet skriver en motion till riksdagen är ju något annat än Motion är bra för hälsan – trots att motion är ett substantiv i bägge fallen.

Google har använt en annan strategi. Ingenjörerna tränade den nya modellen med enorma mängder ostrukturerad text, till exempel från Wikipedia. Här och där tog de slumpmässigt bort ord ur textmassan. Uppgiften för modellen blev att, på egen hand, räkna ut vilka ord som fattades. Gissade den fel fick den räkna om.

Det visade sig vara en lyckad taktik. Bert slog tidigare språkmodeller med hästlängder. En viktig del av förbättringen förklaras av en inbyggd finess, en mekanism som kartlägger relationen mellan orden.

– Den väger samman vilka ord som är viktiga i sammanhanget. Det kräver ofantligt många beräkningar, men är nyckeln till att resultatet blir så bra, Magnus Sahlgren.

Bert lär sig alltså inte hur man bildar satser, fraser och ord, eller tolkar betydelser på det sätt som språkvetare är vana vid. I stället räknar den fram förhållandena mellan orden.

Språkförståelsemodellen bygger på djupinlärning som är en gren inom maskininlärning, det vill säga hur datorer lär sig sådant som människor kan. Djupinlärning slog igenom som en kraftfull metod inom bildigenkänning för åtta år sedan – en evighet mätt med AI-mått.

Sedan dess har djupinlärningen firat triumfer på område efter område. Mästare i brädspelet go och i poker har till exempel fått se sig besegrade av en maskin.

Tekniken används i allt från de smarta röstassistenterna i mobilen till att avgöra om en hudförändring beror på hudcancer eller inte.

För text- och talanalys har AI hittills fungerat bäst för specialiserade uppgifter, där den vet på förhand vad konversationen kommer att handla om. Att få en AI att hänga med i en naturlig konversation har varit en svårare nöt att knäcka, eftersom det kräver djupare förståelse av sammanhanget.

Det är här som Bert kommer in i bilden. Googles mål med textmodellen var att vässa sökmotorn. För att förstå användarnas sökfrågor och hitta de bästa träffarna behövdes helt enkelt bättre textförståelse.

Google har nu byggt in Bert i sin sökmotor men har också släppt modellen fri för andra att använda. Den finns på flera olika språk, inklusive svenska, och har gett upphov till massor av efterföljare.

En av dem som såg hur den nya språkförståelsemodellen spred sig som en löpeld var Love Börjeson, föreståndare för datalabbet på Kungliga biblioteket, KB. Han och hans kolleger bestämde sig för att utveckla en bättre, svensk version.

– Det är viktigt för att Sverige ska hänga med i den snabba utvecklingen inom datadriven forskning, säger Love Börjeson.

I februari i år kom KB:s ”svenska Bert”. Den bygger på Googles modell, men har tränats på svenskt textmaterial som forskarna på KB har hämtat både från de egna, omfattande arkiven och i databaser på andra håll. Förutom Wikipedia ingår offentliga utredningar, tidningstext, böcker och text från sociala medier och olika webbforum. Resultatet är en grundmodell med kunskap i svenska som sedan kan tränas för olika specialuppgifter.

För att till exempel lära AI:n att skilja på texter skrivna av män eller kvinnor matas den först med texter som är märkta med information författarens kön. Under träningen hittar AI:n mönster som skiljer texterna åt, mönster en människa inte skulle kunna hitta. När modellen har tränats upp kan den bedöma om en okänd text är skriven av en man eller kvinna.

Love Börjeson kan ge massor av andra exempel. Modellen kan lära sig att kategorisera text och avgöra om en tidningstext är en ledare eller en kulturartikel. Den kan lära sig att känna igen falska nyheter, svara på frågor eller plocka ut namn och platser ur en text. Man försöker också utveckla alternativ till opinionsundersökningar och i stället analysera vad folk skriver på nätet.

– Man kan släppa lös den på vilket textmaterial som helst, säger Love Börjeson. Om jag vore doktorand i litteraturvetenskap skulle jag använda den för att till exempel spåra hur en viss författare har influerats av andra.

Näringslivet har varit snabba på bollen och tränar Bert-modeller för uppgifter som att sortera inkommande mejl, skriva offerter och för att kategorisera texter: Är inläggen på sociala medier eller till företagets kundtjänst negativa eller positiva? Vilka ska skickas vidare till en mänsklig handläggare?

AI har tidigare kunnat utföra den här typen av uppgifter men Bert-modellerna har gjort att de klarar dem bättre och mer effektivt, om än långt ifrån perfekt. Det finns fortfarande massor som behöver förbättras.

I samarbete med Rise och Språkbanken Text vid Göteborgs universitet jobbar KB-labbet med sätt att utvärdera de svenska språkmodellerna. I ett projekt anpassas till exempel de standardverktyg som finns på engelska till svenska. På så sätt ska det bli lättare att utvärdera hur bra modellerna är på att lösa konkreta uppgifter, som att kategorisera eller hitta namn i texter.

Både inom sjukvården och på myndigheter är intresset stort. Enligt Love Börjeson finns det avsevärda samhällsvinster att göra genom automatiserad administration. Bland de exempel han själv har sett är ett högst oväntat.

– Inte ens i min vildaste fantasi hade jag trott att vår modell skulle användas i Västernorrland för att anlägga busshållplatser.

På Rise leder Magnus Sahlgren ett projekt med deltagare från både universitet och industri, som går ut på att bygga en språkmodell för svenska myndigheter. I projektet deltar även Skatteverket, Tillväxtverket och Arbetsförmedlingen som vill minska sina kötider, få hjälp med att sammanställa rapporter och sortera inkommande handlingar med hjälp av AI. Arbetsförmedlingen vill använda tekniken för att matcha jobbsökande med platsannonser.

En av utmaningarna är att mata modellen med ”neutral” och fördomsfri data.

– Om inlärningen bygger på texter från Flashback är modellen troligtvis inte särskilt lämplig att använda på myndigheter, säger Magnus Sahlgren.

Även Markus Forsberg, docent i språkteknologi och föreståndare för Språkbanken Text vid Göteborgs universitet, ser en fara med snedvridningar som kan komma ur underliggande data.

– Innehåller den fördomar, sexism eller rasism, så är risken stor att även språkmodellerna gör det. Används sedan dessa språkmodeller på fel sätt – exempelvis inom en myndighets digitala verksamhet – kan vi få allvarliga problem i samhället.

Och precis som den kan lära sig att känna igen falska nyheter från trollfabriker kan den lära sig att skapa trovärdiga falska nyheter.

En annan utmaning är att ju kraftfullare modellen är, desto mer energikrävande är den att träna. Och modellerna blir allt större. I somras presenterade det amerikanska företaget Open AI sin senaste AI-modell med namnet GPT-3.

– Bert hanterar ett par hundra miljoner parametrar. Här talar vi om 170 miljarder. Det är häpnadsväckande ingenjörskonst men otroligt resurskrävande. Varje gång man bygger en sådan här modell så dör en isbjörn.

Forskning pågår för att effektivisera modellerna. Samtidigt ökar de sin språkliga förmåga. GPT-3 kan med sin massiva beräkningskraft till exempel generera längre sammanhållna texter än tidigare.

– Jag tror att vi kommer se en framtid med automatgenererad text, film och musik. Det blir en del av vardagen, säger Magnus Sahlgren.

Modellerna kommer inte bara att lära sig från text. De kan redan kombinera bild och text, men framöver kan det utökas med fler inputsignaler för att de ska lära sig allt från känselintryck till röstläge.

Men kan man säga att modellerna förstår språk?

Magnus Sahlgren anser att frågan är överflödig.

– Måste man vara en människa för att förstå? Är maskinen en människa? Nej. Men kan maskinen hantera språk? Ja, och allt bättre. De nya modellerna är inte fulländade, men de är den mest lovande vägen för att få datorer att förstå vårt mänskliga språk.

Testa att klassificera texter utifrån politisk färg: spraktidningen.se/peltarion

SVT: ”Utvecklingen går oerhört snabbt”

SVT använder AI för att transkribera tal, det vill säga överföra tal till text. Nästa steg är översättningar.

Sveriges Television har krav på att alla program som inte direktsänds ska tillgängliggöras med svensk text. Transkriberingen har hittills skötts manuellt, men nu tas uppgiften över av AI.

– Texten till alla lokala nyheter på SVT Play är i dag AI-genererade. Det fungerar över förväntan och blir hela tiden bättre, allt eftersom modellen lär sig, säger Adde Granberg, produktions- och teknikdirektör på SVT.

Inom något år tror han att i princip all transkribering kommer att skötas av AI. Människans uppgift blir att korrigera och därmed förbättra systemet, som hela tiden lär sig ju mer det jobbar.

Nästa steg blir att även använda AI för översättningar av utländska program. En intressant fråga är hur kvalitet ska bedömas när maskiner tar över det som tidigare skötts av människor.

– Vilka krav ska vi ställa på AI? Får den göra fel på samma sätt som människor felar?

AI används även i det journalistiska arbetet för analyser av stora mängder data. Hur AI kommer att användas framöver inom SVT är enligt Adde Granberg omöjligt att svara på.

– Utvecklingen går oerhört snabbt. Det är inte alla företag som insett det. Det finns en stor okunskap och rädsla inför AI.

Publicerad i nummer: 
1/2021