”Maskinen tränar tills det låter bra”

Utropen i kollektivtrafiken och på järnvägsstationer ska tränga igenom bruset. Men samtidigt ska rösterna uppfattas som neutrala. Trots hjälp av ny teknik kan det vara svårt att hitta rätt.

Text:

En kvinnlig röst läser meddelandet från trafikledningen för tunnelbanan i Stockholm:

”Tåg mot Telefonplan vänder vid Liljeholmen på grund av tekniskt fel på banan. Tekniker på väg till platsen.”

Så ska ett utrop i trafiken låta: det viktigaste först, vad som händer, varför och hur det ska lösas.

I Stockholms tunnelbana är alla stationsutrop manuella. En manlig röst för södergående tåg och en kvinnlig för norrgående. Samma sak på pendeltågsstationerna, med den skillnaden att där är rösterna digitala. Trafikverket står nämligen för röster och teknik på alla järnvägsstationer, inklusive pendeltågens.

Ingen annanstans i Sverige är körriktningen könsmärkt. Enligt SL, som ansvarar för trafiken, är skälet att Stockholms län har mer trafik än alla andra län tillsammans och att tåg därför ofta kommer in samtidigt på båda sidor om perrongen. Rösterna hjälper också synskadade att gå på rätt tåg.

”I kollektivtrafiken vill man till exempel inte ha
en glad röst som berättar om störningar”

Vi människor reagerar instinktivt mer på mänskliga röster än på andra ljud. Det är enligt forskning från Chalmers tekniska högskola i Göteborg en del av en överlevnadsstrategi.

Människan har också ett ofrivilligt sätt att göra sig hörd i bullrig miljö: höja rösten, sänka hastigheten och tala tydligare. Det kallas Lombardeffekten och kan användas för att testa om en person har hörselnedsättning. En hörande höjer nämligen rösten automatiskt.

– För att resenärer ska höra bra bör utropet vara kortfattat, tydligt, naturligt, med rätt uttal och pauser, säger Svante Boo på Trafikverket, som ansvarar för utropen på drygt 500 av landets järnvägsstationer och pendeltågsstationerna i Stockholmsområdet.

Att förverkliga det kan dock vara knepigt. När utropen görs manuellt blir det olika varje gång. Med en inspelad röst där meningarna klipps ihop blir det stolpigt och onaturligt. Störst chans att få rätt är med talsyntes, text-till-tal.

– De senaste fem tio åren har utvecklingen gått framåt när det gäller text till tal och i dag låter det betydligt bättre och naturligare, säger Jonas Beskow, professor i talkommunikation på Kungliga tekniska högskolan och som forskar på att utveckla talsyntes.

Men det finns utmaningar. Tekniken består av två delar: en språkmodul och en talmodul, som tillsammans utgör en mjukvara som omvandlar text till tal. För att skapa talmodulen spelas en mänsklig röst in i flera timmar. En person läser olika meningar, ungefär som när en vanlig ljudbok läses in. Språkmodulen bearbetar det inlästa fonetiskt.

– Det fonetiska är det lättaste. Det svåra är intonationen, som ju är väldigt viktig för att det ska låta naturligt. Liksom uttalet av olika namn. Maskinen tränar tills det låter bra, säger Jonas Beskow.

Det multinationella företaget Acapela levererar många talsyntesröster till den svenska kollektivtrafiken. De använder professionella röstaktörer för att spela in rösterna och har hjälp av lingvister som ser till att uttalet av till exempel stationsnamn blir rätt.

Rösterna används för såväl kundtjänst som trafikupplysning. I valet av röst bestämmer man först om det ska vara man eller kvinna, sedan ålder. Till det läggs andra egenskaper efter kundens önskemål. Det kan vara sådant som att rösten ska vara energisk, lugn, bestämd, glad och liknande.

– Kunderna vill ha en röst som de tycker passar verksamheten. I kollektivtrafiken vill man till exempel inte ha en glad röst som berättar om störningar. Men vilken röst det till sist blir beror på tycke och smak, säger Susanne Magnusson, försäljningschef vid Acapela.

Många väljer kvinnoröster, av tradition och för att kvinnoröster anses gå igenom brus bättre än mansröster. Kvinnoröster är också helt dominerande i kommersiella applikationer, som till exempel Apples Siri, något som har genererat kritik. För några år sedan kom FN-organet Unesco med en uppmärksammad rapport på temat.

– Kritiken går ut på att det cementerar könsstereotyper och att den mansdominerade tech-branschen skapar kvinnliga assistenter som alltid är till lags. Trenden att välja kvinnliga röster framför manliga tror jag är en del av samma stereotypa utveckling. Det är lite tråkigt, säger Jonas Beskow.

Helena Pagels är teknisk projektledare på SL för den senast inköpta tunnelbanevagnen C30. Hon har inga problem med kvinnliga utropsröster. Men hon är inte nöjd med Acapelas standardröst Elin som ingår i vagnen.

– Jag önskar att vi hade en egen SL-röst som var anpassad efter våra behov.

Resenärerna har varit kritiska till uttalet av olika stationsnamn, som Alby och Fittja. För att få bättre uttal har SL sänkt taltempot i utropen till 90 procent. Det har gett resultat, men Helena Pagels tycker fortfarande att det låter monotont och stolpigt.

– Jag saknar Linda, den inspelade röst som gjorde utrop i tunnelbanevagnarna innan SL gick över till talsyntes. Men ett problem med den gamla tekniken var att varje nytt ord måste spelas in. Lindas röst förändrades också över tid, så det kunde låta konstigt.

Västtrafik använder den egna rösten Tone i  kollektivtrafiken i hela Västra Götaland.
Foto: Istockphoto

Systemet med talsyntes är trots allt bättre, säger Karl Bergkvist, specialist på den teknik som är kopplad till trafikinformationen på SL. Han tycker att det inte borde vara så svårt att utforma en egen SL-röst med de ganska få ord som krävs i trafiken. En projektgrupp på SL försöker hitta en enhetlig lösning.

– Det som krånglar till det är att det är så många intressenter inom trafiken i Stockholm, allt från bolag för bussar och pendeltåg till dem för båtar, säger presskommunikatören Elin Lindström.

Det SL försöker uppnå har Västtrafik redan förverkligat: den egna rösten Tone. Hon hörs i hela Västra Götalandsregionen. Tone togs fram när Västtrafik för fem år sedan bestämde sig för att gå över från inspelad röst till talsyntes. En tävling utlystes bland resenärerna. 18 000 röstade på tre förslag och valet föll på Tone.

Det var viktigt att resenärerna skulle tycka om rösten. Kravet var att den skulle vara tydlig, gå igenom buller – och sakna dialekt. Det tidigare utropet på typisk göteborgska skulle bort.

– Att välja en dialekt för hela regionen skulle inte vara möjligt, det finns många dialekter i Västra Götaland. Vi ville att våra resenärer skulle känna igen sig oberoende av var i regionen man åker och med vilket trafikslag, säger Thom Birkeland, ansvarig för it-systemen som skapar utropen på Västtrafik.

Förra året installerades Tone också på regiontågen efter att ha hörts på buss och spårvagn sedan 2018. Det händer att kunderna hör av sig om fel uttal av stationer och då kan Västtrafiks egna tekniker gå in i systemet och ändra.

Thom Birkeland är nöjd med hur det fungerar när allt rullar på som vanligt. Utmaningar uppstår vid störningar av olika slag. Då finns inga färdiga ljudfiler att tillgå för Tone, utan nya meddelanden skrivs av Västtrafiks störningshantering manuellt. Därefter skapas och skickas ljudfiler ut till berörda fordon och linjer.

– Visionen är att kunna göra detta med mer automatik, säger Thom Birkeland.

Trafikverket var annars först ut med talsyntes. Sedan drygt tio år görs stationsutropen av rösten Järda.

– En naturlig och trevlig röst, ja, men den behöver inte vara mysig eller mänsklig för att fungera bra för ändamålet, säger verksamhetschefen Svante Boo.

Järda och mansrösten Anton för pendeltågstationerna i Stockholm är Trafikverkets unika röster. Den engelska rösten Rachel, som också hörs på tågen, är däremot en standardröst. Järda bygger på fyra timmars inläsning och två miljoner ord.

– Instruktionerna till inläsaren gick ut på att låta så neutral som möjligt: läsa långa serier av meningar lugnt och naturligt, undvika nyhetsuppläsarröst och skådespeleri, inte betona vissa ord utan hellre läsa med monoton röst, säger Svante Boo.

Trafikverket stödjer sitt arbete på forskning från Chalmers.

– Den visar bland annat hur viktigt det är för förståelsen att pausera rätt mellan orden.

För att kunna finjustera uttal och artikulation används en särskild översättningstabell med fonetiska koder som anpassar ord som uttalas annorlunda än de stavas och alltså inte kan tolkas tillräckligt bra av talsyntesen.

I likhet med Västtrafik och SL vill Trafikverket inte ha dialekter i utropen. Dialekter på ”fel” plats väcker uppståndelse. Men Susanne Magnusson på Acapela berättar att det kan finnas andra aspekter på detta med dialekter.

– I USA har vi precis lanserat en afro-amerikansk röst. Den fyller ett behov att kunna identifiera sig med offentliga röster. Vi ser framför oss att mer hänsyn kommer att tas till minoriteter.

Karin Lindgren Strömbäck är frilansjournalist.