Nu ska roboten lära sig kallprata
I dag kan en robot boka tid hos frissan – utan att någon märker att det är en maskin som pratar. Med ny teknik klarar robotar allt mer avancerade samtal.
Maya är nervös. Efter flera webbaserade tester har hon kallats till en första intervju för jobbet som projektledare på ett stort byggbolag. Hon stiger in i rummet och sätter sig i en stol vid bordet. Mitt emot henne sitter intervjuaren – en robot. Det människoliknande huvudet lyser upp.
– Hej Maya! Välkommen till den här anställningsintervjun, säger robotrösten vänligt.
– Hej, svarar Maya lite tvekande.
Efter några artighetsfraser sätter intervjun i gång.
– Berätta om när du senast jobbade i ett team, säger roboten och ler uppmuntrande.
Maya berättar, och efter en stund glömmer hon bort att hon pratar med en maskin. Roboten hummar och följer upp svaren med nya frågor. Det märks att den har läst på. Den vet allt om vilka jobb Maya har haft tidigare och vilka olika utbildningar hon har. Efter en halvtimme är intervjun över.
– Tack så mycket, Maya! Vi kommer att höra av oss, avslutar roboten.
Det här är snart ett fullt realistiskt scenario, enligt Åsa Edman Källströmer, vd för rekryteringsföretaget TNG i Stockholm. Redan nästa år planerar hennes företag att låta en robot hjälpa företagets rekryterare att intervjua jobbkandidater.
– Tanken är att roboten ska ta hand om det första urvalet när vi använder många standardiserade frågor, säger hon.
Robotens uppgift blir att skanna av kompetenser som samarbetsförmåga och initiativförmåga med hjälp av ett färdigt frågebatteri. Fördelarna är flera, enligt Åsa Edman Källströmer:
– Så länge vi laddar roboten med objektiva algoritmer är den neutral. Den engagerar sig inte känslomässigt och tar inte hänsyn till faktorer som kön, ålder, utseende och etnisk bakgrund, vilket annars kan påverka bedömningen, säger hon.
Att algoritmerna ska vara objektiva kan låta självklart. Men i flera tidigare fall har försök med AI-system visat sig diskriminera kvinnor eller etniska grupper på grund av att algoritmerna som styr systemen har haft en skev utformning. Det har att göra med att systemen har tränats på data som redan finns, och där ojämlikheter kan finnas ”inbyggda”. Till exempel har vissa AI-system som har använts i det amerikanska rättsystemet oftare pekat ut svarta, helt enkelt för att svarta oftare har pekats ut i tidigare rättegångar. Systemet blir alltså inte bättre än de indata som det en gång har tränats upp med.
Det problemet undviker TNG genom att alla kandidater bedöms utifrån samma parametrar och på samma sätt.
Rekrytering är bara ett av de många områden där vi i framtiden kan mötas av talande, sociala robotar. Utvecklingen går nu blixtsnabbt tack vare framstegen inom den gren av artificiell intelligens som kallas djupinlärning.
Under lång tid var det hopplöst svårt att få robotar att förstå mänskligt tal, och forskningen stod och stampade. Men i och med att tekniken med djupinlärning slog igenom för några år sedan har felfrekvensen rasat. Robotarna har inte bara blivit bättre på att tolka vad vi säger, de har också lärt sig att tala på ett mer naturligt sätt.
– Framstegen har gått mycket snabbare än vad jag har kunnat ana. Robotar klarar i dag många uppgifter lika bra som en människa, så länge uppgifterna är väl definierade, säger Gabriel Skantze, professor i talteknologi vid Kungliga tekniska högskolan, KTH, i Stockholm.
Han är en av fyra KTH-forskare bakom det sociala robothuvudet Furhat, som ska användas för att intervjua jobbkandidaterna hos TNG.
Furhat kan både tala och förstå en mängd språk. Tack vare en kamera som följer huvudrörelser kan Furhat hålla reda på vem som pratar när det är flera personer som deltar i samtalet. En projektor inne i det konstgjorda huvudet ger liv åt ansiktet.
– Vi har lagt mycket jobb på att ge roboten en uttrycksfull mimik. På så sätt kan den visa känslor och det är en viktig del av all kommunikation, förklarar Gabriel Skantze.
Genom att roboten har ett ansikte skiljer den sig från de röstbaserade robotassistenter som vi vant oss att prata med i mobilen eller i företags kundtjänster. Den skiljer sig också från hur vi talar med de allt mer populära hemassistenterna i form av smarta högtalare, som kan hjälpa till med vardagliga saker, som att hålla koll på hur länge äggen ska koka, välja ny spellista och beställa resor.
Furhat har bland annat prövats som hjälplärare i skolan. Och i våras svarade den på frågor som: ”Är planet till Milano i tid?”, under ett fyra veckor långt test som trafikvärd på Frankfurts flygplats.
Enligt Gabriel Skantze kommer vi snart att se liknande sociala robotar i hotellreceptioner, på snabbmatsrestauranger och som guider på museum. Ju mer begränsad och förutsägbar en uppgift är, desto enklare är det att träna upp en robot att sköta den. Att jobba som rekryterare blir däremot en knepigare uppgift, enligt Gabriel Skantze:
– Då måste roboten förstå tillräckligt mycket av samtalet för att klara av att ställa relevanta följdfrågor. Och om personen som blir intervjuad ger vaga svar måste roboten kunna be om förtydliganden, som ”Kan du ge några andra exempel?”
Roboten måste också förstå vems tur det är att prata. Om det blir jättelånga pauser flyter inte samtalet smidigt, och om roboten börjar prata i munnen på sin samtalspartner blir det rörigt. Detta är något som Gabriel Skantze forskar på.
– Tonfall och hur vi riktar blicken ger signaler om vems tur det är att tala. Det försöker vi lära roboten med hjälp av djupinlärning. Målet är att roboten ska anpassa sig till motparten under samtalets gång.
För att samtalet ska kännas naturligt är det också viktigt att roboten kan tolka och använda korta återkopplingsljud, som ett instämmande hummande eller ett förvånat åh!
Detta är något som till exempel Google jobbar hårt med. Företaget har demonstrerat en röstassistent som är närmast omöjlig att skilja från en människa när den till exempel ringer upp och beställer tid hos frisören eller bokar bord på restaurang.
– Det är imponerande, men man ska komma ihåg att det bara fungerar för väldigt begränsade uppgifter med en förutsägbar dialog, säger Gabriel Skantze.
Tidigare byggde taligenkänning på att talet bröts ner till enstaka språkljud – fonem – som sedan pusslades ihop till ord igen med hjälp av statistiska metoder och fonemlexikon. Det krävde både mycket tid och manuellt arbete.
Med djupinlärning behövs inte dessa mellansteg. I stället lär sig datorn att gå direkt från tal till text. Det kräver dock stora mängder träningsdata. För att lära sig att boka ett restaurangbesök, som i exemplet med Googles röstassistent, matas AI-systemet först med miljontals inspelade restaurangsamtal. Till slut har systemet analyserat proceduren att boka bord i sådan detalj att det klarar av att göra en egen bordsbeställning under nya förhållanden.
På samma sätt måste Furhat lära sig att intervjua jobbkandidater. Första steget är att träna på ett hundratal frivilliga personer. Så småningom kommer roboten att kunna göra riktiga intervjuer på egen hand – och ju fler den intervjuar, desto bättre blir den.
Nästa steg blir robotar som kan utföra mer generella uppgifter. Redan i dag pågår till exempel försök att lära robotar att konversera som en människa.
– Att föra ett samtal där svaren inte är givna är en svårare nöt att knäcka. Här hjälper det inte att ösa ner data i en svart låda och träna. Roboten måste då också ha ett visst mått av sunt förnuft och kunna läsa av tankar, viljor och intentioner, säger Gabriel Skantze.
Ett av de företag som försöker få robotar att föra fria samtal är det amerikanska e-handelsföretaget Amazon. Genom att bjuda in forskare och studenter från hela världen till en årlig tävling vill företaget driva på utvecklingen. Uppgiften är att bygga ett AI-system som kan föra ett naturligt samtal med en människa i 20 minuter. Alla som har tillgång till Amazons röstassistent Alexa kan hjälpa till att kora vinnaren. Genom kommandot Let’s chat kopplas användaren till en slumpmässigt vald konversations-robot och får sedan sätta betyg på hur bra roboten klarade samtalet.
Mitt test visar att det faktiskt går att föra ett samtal, men att dagens AI inte räcker till för en helt fri konversation. Roboten vill gärna styra samtalet mot böcker, filmer eller nyheter, och ställer frågor som: ”Vilken är din älsklingsförfattare?” Svaren innehåller data om författaren i fråga, men mer djuplodande än så blir det inte – än så länge.
Det krävs fortsatta framsteg inom flera områden, förklarar Nikko Ström, en av de ledande forskarna inom talteknik hos Amazon i Seattle, USA. Han förklarar att forskningen måste gå framåt när det gäller att få maskiner att både förstå och kunna svara med hjälp av naturligt tal. Datorerna måste också bli bättre på att tolka det vi säger genom att förstå sammanhanget. Djupinlärning fungerar bra så länge målet är tydligt, men i en fri konversation finns inga på förhand korrekta svar. Roboten måste lära sig att leta efter svar på många olika ställen och kunna koppla ihop begrepp som Zlatan och fotboll. Nikko Ström förklarar att djupinlärningsmodellerna därför kompletteras med andra metoder, där AI-systemet får hjälp av forskarna att tolka situationen på rätt sätt.
Men varför ska vi egentligen kunna snacka med våra prylar? Nikko Ström menar att rösten är det mest naturliga och bekväma sättet att samspela med tekniken. Men bekvämligheten har också en baksida, som har väckt kritik. Röststyrda robotar är alltid påslagna för att kunna reagera på kommandon och hör därför allt vi pratar om. Företagen bakom de olika tjänsterna vill sedan använda denna extra information för att kunna skräddarsy annonser. Det är därför också viktigt att föra en diskussion om hur avlyssningen kan användas på andra sätt – och hur vår integritet påverkas av att leva tillsammans med smyglyssnande apparater.
Artikeln har tidigare publicerats i Forskning & Framsteg