Vem är Watson?

Text: Anders Thoresson

Vem är Kenny Rogers?

Frågan ställdes i den kända tv-frågesporten Jeopardy, där programledaren ger svaren och de tävlande står för frågorna.

Tävlingsdeltagare Watson frågade efter rätt person.

Svaret, det vill säga ledtråden från programledaren, löd: ”’You got to know when to hold them, know when to fold them.’ Just det gjorde denna Texas ranger, som har ett bekant namn, den 28 juli 1994.” Amerikaner gillar sin baseboll. I ledtråden fanns dessutom en referens till idrottsmannens namne, countrysångaren Kenny Rogers.

Det anmärkningsvärda är att Watson är en dator. Den första som ställt upp i Jeopardy, dessutom på samma villkor som mänskliga deltagare. Ingen hjälp av andra personer, ingen internetuppkoppling för att kunna göra snabba sökningar på nätet. Bara sin egen samlade kunskap att luta sig mot.

Den 1416 februari 2011 mötte denne Watson två amerikanska stormästare. Efter tre dagar med svar och frågor stod Watson som överlägsen segrare efter att ha spelat ihop 77 147 dollar. Motståndarna, stormästarna Ken Jennings och Brad Rutter, slutade på 24 000 respektive 21 600 dollar.

För IBM, som utvecklat datorn och döpt den efter företagets grundare Thomas J. Watson, är det en oerhörd framgång. Den 10 februari 1996 vann en annan av IBM:s datorer, Deep blue, ett schackparti mot den regerande världsmästaren Garry Kasparov. Ett drygt år senare vann Deep blue en hel match, spelad i sex partier.

Det var ett stort steg i relationen mellan människa och maskin. Men just schack är hemmaplan för datorer, med tydliga regler och stora inslag av matematik. Jeopardy är något helt annat. För att bygga en dator som lyckas i frågesport är det två utmaningar som måste angripas: datorn måste förstå frågorna som ställs och den måste ha kunskap för att kunna svara på dem. Båda kräver avancerad språklig kompetens, något som datorer inte är kända för att besitta.

– Datorer är bra på att räkna ut summor, multiplikation och sådant, säger Aarne Ranta, professor i datavetenskap vid Göteborgs universitet och Chalmers tekniska högskola. Men om du ger datorn ett matematiskt bevis och frågar om det är korrekt, kan den inte svara. Det är för att beviset är skrivet på mänskligt språk som datorn inte förstår.

Vårt mänskliga språk är långt ifrån lika väldefinierat som matematikens regelverk. Vad ett ord betyder beror på det sammanhang som det förekommer i. Banan kan vara en frukt, eller en bestämd bana för bilar. Vi använder oss flitigt av metaforer – språkliga bilder – och synonymer. Pronomen som han, hon och det kan syfta flera meningar bakåt i en text. Den som läser meningen hon gick in i huset igen måste komma ihåg att det var Ebba och Arvid som i kapitlets början kom ut genom ytterdörren på ett känt hus, och dessutom känna till att Ebba är den av de två som är flicka.

– Vad en siffra eller ett plustecken betyder är lätt att sätta upp regler för. Med ord är det svårare, säger Sverker Sikström, professor i psykologi vid Lunds universitet. Det finns många gråzoner. En fåtölj slutar någonstans att vara en fåtölj och blir i stället en soffa. När det sker beror på hur stor den är, men också var möbeln är placerad. Det är det som är det finurliga med språk och mänskligt tänkande, att det bygger på massor av saker samtidigt. Och det är något som datorer är dåliga på.

Det finns två huvudsakliga sätt att ta sig an problemet med att få datorer att förstå mänskligt språk. Det ena är genom att försöka formalisera språket i en regelsamling, en detaljerad grammatik, med tillhörande ordböcker, synonymordlistor och liknande. Det andra är att använda statistik och andra matematiska metoder. Med allt kraftfullare datorer i kombination med nätets informationsmassa som ”träningsmaterial” har de matematiska metoderna stått i fokus de senaste åren.

Malmöföretaget Saplo, som bygger på Sverker Sikströms forskning, har valt det matematiska angreppssättet. Företagets teknik kan bland annat söka igenom texter och hitta vilka platser, personer och företag texterna handlar om.

– Tidigare trodde man att ordförrådet växte när någon visade ett litet barn en pall och sade pall, säger Sverker Sikström. Men när vi lär oss nya ord får vi dem nästan aldrig så tydligt definierade.

I stället plockar vi upp orden på andra sätt, genom att se vilka andra ord som används i samband med de nya orden.

– Säger föräldern åt sitt barn att sätta sig på pallen, och det inte finns någon stol i närheten, så förstår barnet ändå vad en pall är.

Saplos teknik är ett sätt att simulera den mänskliga inlärningsmekanismen. En människa ger några exempel på vad som är ett personnamn, en plats, ett företag. Sedan kan de matematiska modellerna på egen hand gå igenom massor av text och lära sig hur ord används i olika sammanhang, hur de är kopplade till varandra och vilka ledtrådar som finns för att avgöra om ett ord är ett namn, till exempel.

Att bygga generella system som förstår vilken text som helst är en enorm uppgift, som dessutom kompliceras ytterligare av att mänskligt språk ofta har ett syfte. Meningen det är kallt här inne kan förvisso vara avsedd som ett krasst konstaterande, men kan lika gärna vara en outtalad önskan om en värmande kram eller att någon ska skruva upp termostaten.

Praktiska tillämpningar brukar byggas för avgränsade användningsområden. Röststyrda telefonsystem, som tar emot biljettbeställningar, är ett exempel. För datorn som hjälper kunden är det då självklart att Lund är en ort och inte en dunge träd.

Men för en dator som tävlar i Jeopardy finns inget avgränsat sammanhang att röra sig i. Frågorna kan handla om vilket ämne som helst. Och att försöka gissa vilka frågor som ska komma, och ge datorn svaren i förhand, är givetvis meningslöst. Det hade förstås gått att ge Watson en lång lista med namn på kända personer, deras födelseort, hårfärg, antal barn, yrke och kända citat. Men hur lång skulle den listan göras? Det är omöjligt att veta. Om listan ändå skulle bli färdig, så återstår i alla fall listor över grundämnen, historiska händelser, sjukdomar, musik och ett okänt antal andra saker.

IBM:s lösning blev att låta Watson läsa massor av text, med hjälp av samma språkteknik som användes för att förstå frågorna. Datorn matades med motsvarande en miljon böcker, och fick på egen hand strukturera informationen i dessa.

Då räckte det inte med att kunna göra enkla sökningar på nyckelord, som vi gör när vi letar efter information på Google. Watson måste förstå vad det är den läser. Ett exempel från Watsons träning inför Jeopardy förklarar varför.

En ledtråd i frågesporten löd: ”I maj 1898 firade Portugal 400-årsdagen av att denna upptäcktsresande kom fram till Indien.” Meningen ”I maj kom Gary till Indien, efter att ha firat sin årsdag i Portugal” kan antyda att ”Vem är Gary?” är den rätta frågan, eftersom flera ord från ledtråden finns med i meningen. Att ”Vasco da Gama landsteg vid Kappad den 27 maj 1498”, ser däremot ut att vara ointressant. Åtminstone för den som använder sig av nyckelord, då bara ordet ”maj” matchar mellan de två meningarna. Men givetvis är det frågan ”Vem var Vasco da Gama?” som ger poäng.

Till sin hjälp att komma fram till det har Watson en mängd matematiska modeller. En hittar samband i tiden: 400-årsdagen av 1498 firas 1898. En annan förstår att ”kom fram” och ”landsteg” i det här sammanhanget är att betrakta som synonymer. En tredje upptäcker att Kappad ligger i Indien. Resultatet blir att Watson får fram Vasco da Gama som den bästa kandidaten.

Mikael Haglund, teknisk direktör på IBM Sverige, förklarar hur tekniken fungerar:

– Watson går igenom texten och försöker analysera vad den handlar om. Vilka är objekten? Vad är det de gör? Sedan försöker datorn tolka det utifrån sammanhanget. Verkar det handla om någon som heter George Bush och någon som heter John F. Kennedy, men också en del om terminaler och flygplan, då är det antagligen George Bush som ska flyga till John F. Kennedy-flygplatsen och inte två före detta amerikanska presidenter som träffas.

Det kan tyckas som om Watson simulerar en mänsklig hjärna. Och visst påminner metoden som används för att komma fram till rätt upptäcktsresande mycket om hur vi människor skulle tolka informationen i frågan. Men datorn besitter inte mänsklig intelligens för det.

– Watson har inget medvetande, ingen förmåga att hitta på egna saker eller uppleva känslor. Watson är mer lik datorn i Star Trek, som kan svara på väldigt komplicerade frågor, än den liknar HAL9000, datorn i Stanley Kubricks film 2001, som är mer som en levande organism i ett datorchip, säger Mikael Haglund.