Samarbetet knäckte chiffret

Text: Anna Larsdotter

Oktober 2011. Språkteknologen Beáta Megyesi har just anlänt till flygplatsen på Teneriffa för en välbehövlig semester när hon får ett sms från sin forskarkollega Kevin Knight i USA. Det finns en artikel om dem i dagens New York Times! Kort därefter börjar telefonen ringa. Journalister från hela världen har fått nys om att Beáta Megyesi och hennes team har dekrypterat det hemliga 105-sidiga 1700-talschiffret, Copiale Cipher. Rena Da Vinci-koden!

– Det blev inte så mycket strandliv de två veckorna, säger Beáta Megyesi och skrattar. Den mesta tiden satt jag i telefon och blev intervjuad av amerikanska och europeiska medier. Familjen var inte så glad …

Ett år senare får Beáta Megyesi fortfarande åtminstone ett samtal i veckan från journalister som vill höra henne berätta om chiffret. Om hur hon, datavetaren Kevin Knight och språkhistorikern och filologen Christiane Schaefer genom algoritmer, språkhistoriska kunskaper och gammal hederlig hjärnverksamhet lyckades avslöja innehållet i skriften.

Historien börjar 1998. Då skulle Christiane Schaefer flytta från Tyskland till Sverige och en tjänst som forskar­assistent vid Uppsala universitet. Med sig på resan hade hon fotostatkopior av en bok som valsat runt bland tyska språkvetare i några år. Den var bunden i gyllene brokad och skriven i chiffer. Latinska och grekiska bokstäver blandades med bilder – hemliga symboler som påminde om munnar, saxar eller stjärnor. Det enda begripliga var en förmodad ägarmarkering, ”Philipp 1866”, på försättsbladet, och ordet ”Copiale3” i slutet. Det gick rykten om att det underliggande språket var albanska.

Var boken kom ifrån var oklart – ingen tycktes veta mer än att den plötsligt ”dök upp” i östtyska arkiv efter murens fall 1989. Och att den ägdes av en privatperson som ville vara anonym.

– Det här kan du jobba med under långa kalla vinternätter i Sverige! löd uppmaningen till Christiane Schaefer.

Chiffret bestod av åtmin­stone nittio olika tecken där många var förvillande lika. Ett exempel: uppstapeln på ett latinskt d kunde både vara rak eller böjd åt höger eller vänster. Andra var sammansmältningar av flera bokstäver, som ett h och ett t. De ”långa kalla vinternätterna” räckte inte till. Den mystiska skriften blev liggande i en låda i Christiane Schaefers skrivbord.

Ett chiffer är ett hemligt skriftsystem där varje bokstav ersätts av en annan bokstav eller symbol. (Till skillnad från en kod, där ord eller hela fraser byts ut mot andra ord eller tecken.) Syftet är att förhindra att innebörden i ett meddelande blir känt för obehöriga – något som visat sig användbart i allt från krig till kärlek. Chiffer har varit i bruk åtminstone sedan antiken, till exempel hos den romerske kejsaren Julius Caesar. Han använde sig av vad som senare kom att kallas ”Caesarrullning”, ett relativt enkelt chiffer där varje bokstav i det ursprungliga meddelandet ersattes med tredje bokstaven framåt i alfabetet.

Allt sedan dess har krypto­login – läran om hemlig skrift – varit stadd i utveckling. För tätt i hälarna på chiffer-­ och kodmakare följde förstås kryptoanalytikerna: de som avslöjade kryptonas konstruktion och innehåll. Under 1700-talet bildade dessa smarta hjärnor något av en industri. Upplysningstiden var de hemliga sällskapens guldålder, då nya tankar och idéer grodde i de slutna miljöerna. Behovet av kodad skrift ansågs stort – liksom intresset för att kunna knäcka den.

christiane schaefer berättade för sin nya kollega Beáta Megyesi om chiffret i skrivbords­lådan. Eftersom Beáta Megyesi är språkteknolog – eller­ datorlingvist som det också heter – hade hon en annan infallsvinkel på problemet än Christiane Schaefer. En språkteknolog använder datorprogram för att konstruera teorier om olika språks uppbyggnad och deras relation till varandra. En filolog, som Christiane Schaefer, arbetar traditionellt och analyserar text som en del av ett historiskt och språkvetenskapligt sammanhang.

Beáta Megyesi hade lyssnat på ett intressant föredrag på en konferens. Det handlade om hur forskare har kunnat analysera det utdöda språket ugaritiska genom att i en datorprocess jämföra det med den närliggande hebreiskan. Hon tänkte att liknande metoder skulle kunna användas för att lösa språkproblem också på den egna institutionen. Kanske skulle de fungera på chiffret.

Beáta Megyesi funderade vidare. När så Kevin Knight, expert på automatisk översättning vid Southern California-universitetet i USA, kom till Sverige för att opponera på en avhandling, bad hon honom hålla ett föredrag om dechiffrering, som är ett av Kevin Knights forskningsintressen. Efter föreläsningen sammanförde Beáta Megyesi honom med Christiane Schaefer. Kevin Knight berättade att han letade efter längre texter att behandla maskinellt.

En orsak till att datorer inte oftare används till exempel i forskningen om döda språk är att de kräver stora mängder information för att ge en meningsfull analys. Sådana existerar sällan när det gäller riktigt gamla texter.

– Jag har ett 105 sidor topphemligt chiffer som du kan få prova på, sade Christiane Schaefer.

Kopior av manuskriptet skickades till Kevin Knight i Kalifornien, som började med att transkribera chiffertexten – en förutsättning för att den skulle kunna datorbehandlas. Transkription innebär inom språkvetenskap, bland annat, att en text som ursprungligen är skriven med en viss skrift skrivs om med en annan.

I Kevin Knights transkriptionsschema tilldelades vart och ett av de drygt nittio unika chiffertecknen och tiotalet symboler i Copialechiffret en egen bokstav eller bokstavskombination. Tecknet ô blev till exempel oh, och tecknet som såg ut som en triangel blev tri. Symbolen som liknade en mun blev lip. Totalt transkriberades sexton sidor av boken.

Därefter fick ett datorprogram utföra en frekvensanalys av texten, det vill säga datorprogrammet fick undersöka hur ofta ett visst tecken, eller en viss teckenkombination, förekom.

Frekvensanalys är ett av dekrypteringens viktigaste verktyg. Metoden beskrevs redan på 800-talet av en arabisk lärd – en filosof som visade hur man genom att jämföra en chiffertext med en normaltext kunde skapa en nyckel till kryptot. Tricket var att hitta de vanligast förekommande tecknen i båda, därefter det näst vanligaste och så vidare. Om den mest frekventa bokstaven i svenskan är e och det vanligaste tecknet i chiffret är C så kan man tänka sig att C står just för e. På 800-talet var detta ett tidsödande arbete, men i datorernas tidevarv går det på en millisekund.

Förutsättningen för att frekvensanalysen ska ge fullt utbyte är förstås att man vet vilket det underliggande språket är. Det visste inte forskarna när det gällde Copiale­chiffret. Så även om Kevin Knight till exempel fick fram att tecknet ˆ var mest frekvent så kunde han inte matcha det mot ett givet ”klartextspråk”.

Kevin Knight hade emellertid konstruerat ett datorprogram som kombinerar dechiffrering med försök till identifiering av det underliggande språket. Det testade han i nu i ”attacker” på chiffret. Hans teori var att det var de latinska bokstäverna som bildade kryptots mening, medan de andra tecknens uppgift var att förvilla. Men resultatet av datakörningen blev bara nonsens. Totalt testade Kevin Knight hela åttio språk innan han gav upp.

Nya försök gjordes, nu med samtliga tecken. Återigen blev svaret obegripliga haranger. Albanska var det definitivt inte, men kanske, kanske, syntes en liten preferens för tyska …

Forskarna anade att de hade att göra med ett så kallat homo­foniskt substitutionschiffer. Detta betyder att varje bokstav i klartexten ersätts av ett eller flera olika chiffertecken – hur många beror på hur vanlig bokstaven är i det underliggande språket. Termen homofonisk kommer av grekiskans homos, ’samma’, och fone, ’ljud’ – vilket i sammanhanget alltså betyder att flera olika chiffertecken ska läsas på samma sätt.

Denna typ av medelsvåra chiffer började tas i bruk i Europa på 1600-talet, när frekvensanalysen hade slagit igenom och gjort de enkla monoalfabetiska chiffren – där en bokstav i chiffret står för en annan bokstav i klartexten – alltför lätta att dyrka upp.

Kevin Knight gick nu vidare­ och gjorde en automatisk klustring – det vill säga gruppering – av materialet, en metod som är mindre vanlig i dechiffreringssammanhang. Syftet med klustringen var att ta reda på hur chiffrets olika tecken grupperade sig i olika sammanhang. Snart stod det klart att alla latinska bokstäver ordnade sig på samma sätt – i alla fall de som inte hade några diakritiska tecken, små tillagda tecken i form av prickar, hakar eller streck.

Klustringsdiagrammen visade också att de latinska bokstäver som var understrukna och de bokstäver som var vokaler med cirkumflex, det vill säga försedda med ett litet tak, ˆ, grupperade sig enligt vissa regler. Var det kanske så att varje sådan grupp stod för ett specifikt tecken?

Eftersom datorprogrammet visat på en sannolikhet för tyska, låt vara liten, och eftersom namnet ”Philipp” verkade ha tysk stavning och manuskriptet kom från Tyskland, gick nu teamet in för att det verkligen var tyska som låg i botten. Då – äntligen – började det rulla på!

Beáta Megyesi beskriver arbetet som att lösa ett komplicerat sudoku. Utifrån frekvensanalysen och klustringen ställde Kevin Knight upp hypoteser för chiffret, och utifrån kunskaper i tyska och i språkhistoria kunde vissa av dem verifieras av Christiane Schaefer.

– Till exempel vet vi att ch är en vanlig kombination i tyska, och vi såg att kombinationen omvänt c och ett h med en ”svans” ofta förekom i chiffret. Genom att jämföra med klustringsdiagrammen kunde man anta att flera tecken med cirkumflex representerade samma tyska bokstav. Kevin kom också fram till att de latinska bokstäverna, som vi först hade trott var de betydelsebärande, i stället utgjorde skiljetecken.

Hon beskriver känslan av glädje när Kevin Knight skickade de första någorlunda begripliga raderna. De första helt uttydda orden lydde: Ceremonie der Aufnahme, ’initieringsceremoni’. Det var förstås fantasieggande. Pusselbit lades till pusselbit och snart framträdde bilden av ett hemligt sällskap som spionerade på en annan, större, hemlig orden. Båda sällskapen tycktes besatta av ögon – i den mindre organisationens invigningsceremoni ingick till exempel att stormästaren plockade ett hår från den nya medlemmens ögonbryn. I texten beskrivs också en sorts fiktiva ögonoperationer – kanske symboler för upplysning eller inre uppvaknande.

Beáta Megyesi fick idén att tecknet de kallat lip i stället var ett öga, och gjorde kopplingar till frimurarna. Christiane Schaefer föreslog att boken kunde ha med en mindre orden att göra: Okulisterna. Det skulle visa sig att båda hade rätt.

Av texten framgick att det mindre sällskapet var mycket liberalt och bland annat kritiserade det större för att inte acceptera kvinnor som medlemmar. Beáta Megyesi tyckte nu att de skulle dechiffrera hela manuskriptet.

– Vi förstod att texten kunde vara av stor vikt för idéhistori­ker och genusforskare.

Eftersom den revolutionerande upptäckten skulle presenteras vid en internationell konferens i juni 2011 började det bli bråttom. Via Christiane Schaefers kontakter i Tyskland fick forskarna kontakt med den hemliga ägaren till manuskriptet, som genast budade över originalet till Uppsala. Bokexperten Per Cullhed på universitetsbiblioteket Carolina Rediviva daterade det högkvalitativa papperet i manuskriptet, med sina vattenstämplar, till 1760–1780-talen.

Till sist kopplades idéhistorikern Andreas Önnerfors in, expert på hemliga ordnar. Han bekräftade att stora delar av skriften handlade om frimurarna och att det hemliga sällskapet bakom chiffret hade som mål att avslöja och kritisera detta närstående men större sällskap. Då Christiane Schaefer sedan fick veta att det fanns ett parallelldokument till Copiale – författat av det mystiska Okulistsällskapet – i ett arkiv i tyska Wolfenbüttel, blev det slutgiltigt bekräftat att det var just Okulisterna som även låg bakom skriften i Uppsala.

Genom att se logogrammen, bildtecknen, som en del av det stora sammanhanget, kunde forskarna till slut även tyda dessa abstrakta symboler. De insåg att ögontecknet stod för själva ordensnamnet, Okulisterna.

Copiale Cipher innehåller många nördiga detaljer – som regler för hur mattor och ljusstakar ska placeras i rummet och hur mästaren ska hålla benen under en ceremoni – men ger också en unik inblick i 1700-talets politiska liv. De många hemliga sällskap som fanns vid den här tiden tros ha haft inflytande på både den franska och den amerikanska revolutionen.

Efter det att Copiale Cipher blivit allmänt känt har gruppen fått många chiffer skickade till sig. Ofta vill folk ha hjälp med personliga saker, som krypterade anteckningar i biblar de har fått i arv.

– Men det vi är intresserade av är historiska chiffer, säger Beáta Megyesi.

En kandidat som väntat i hundra år är det mytomspunna Voynichmanuskriptet (se artikeln på sidan 38).

I Uppsala hoppas Beáta Megyesi och hennes kolleger kunna bygga upp en webbplats kring olika typer av historiska chiffer. Kryptering har varit vanligt i Europa alltsedan 1200-talet, både inom politik, diplomati och i privata angelägenheter. Många hemliga texter tros ligga gömda i bibliotek, arkiv och hos privatpersoner.

– Vårt syfte är att samla in fler chiffer och göra dem tillgängliga för allmänheten, säger Beáta Megyesi.

Den fruktbara kombinationen av teknologi, traditionell språkvetenskap och historia har gett forskargruppen mer­smak.

Olika sätt att göra skriften hemlig

Krypto är en övergripande term för all hemlig skrift. Kan bara tydas med rätt nyckel.

Kod är ett krypto där hela bokstavs- eller siffergrupper ersätts med andra bokstavs- eller siffergrupper, eller symboler.

Chiffer är ett krypto där varje tecken i den ursprungliga texten har bytts ut mot ett annat enskilt tecken.

Källa: Kodboken av Simon Singh.

Så knäckte man copialechiffret

1. Transkribering

Först ersattes alla tecken med en transkription, för att chiffret skulle kunna hanteras i ett datorprogram.

2. Frekvensanalys

Sedan identifierade man chiffrets vanligaste tecken, och bytte ut dem mot de vanligaste bokstäverna i de språk som man tror originaltexten kan ha skrivits på. Sedan identifierade man chiffrets vanligaste tecken ( ) och teckenkombinationer (ck, dl, em, fn, go, h) men man kunde inte avgöra vilket som var det underliggande språket.

3. ”Attacker”

Chiffret ”attackerades” i ett datorprogram som försökte dechiffrera och identifiera underliggande språk. Man inriktade sig helt på de latinska tecknen och utgick från att övriga tecken bara var villospår. Försöket misslyckades. Sedan kördes programmet med alla tecken, utan att lyckas, men resultatet tydde ändå vagt på att ursprungsspråket kunde vara tyska.

4. Homofoniskt chiffer?

Man misstänkte då att chiffret var ett homofoniskt substitutionschiffer, det vill säga att flera olika chiffertecken kan betyda samma bokstav.

5. Klustring

Forskarna använde automatisk klustring för att se hur tecknen grupperade sig i olika sammanhang. Alla de latinska tecknen grupperade sig då på ett likartat sätt, vilket antydde att de hade en likartad funktion.

6. ”Philipp 1866”

På chiffrets ena pärm kan man läsa ”Philipp 1866”. Den tyska stavningen gjorde att man slutligen utgick från tyska som underliggande språk. Man upptäckte då att teckenkombinationen bakvänt c och ett h med svans var vanlig och gissade att det betydde ch, som förekommer ofta i tyskan.

7. De latinska tecknen

Så småningom kunde man räkna ut att de latinska tecknen bara var skiljetecken, tvärtemot vad man först antog.

8. Första orden

Snart kunde man läsa tillräckligt många tecken för att översätta en första rad. Den löd: Ceremonie der Aufnahme (’initieringsceremoni’). Okulisternas chiffer var slutligen knäckt.

2011

  • Februari: Arbetet med chiffret påbörjas.
  • Mars: Man vet att språket är tyska.
  • April: Chiffernyckel klar. Vetenskaplig artikel klar.
  • Maj: Får originalboken från ägaren. Den analyseras och dateras till 1760–1780.
  • Juni: Färdig translitterering av hela boken. Presentation av dechiffreringen.
  • Augusti: Översättning till engelska. Webbsida med all information klar.
  • September: Innehållet analyseras av idéhistoriker.