Indsigt

Computere bearbejder tekster for danske virksomheder

Det er ikke længere ren Sci-Fi at få computere til at læse, forstå og annotere tekster. Teknologien tekstanalyse har opnået betydelige fremskridt og er nu på et stadie, der giver virksomheder en fordelagtig ROI, siger ekspert, Jacob Bock Axelsen.

En 25-sider lang rapport lander på en taksators skrivebord. Den skal bruges til at beslutte, hvorvidt forsikringsselskabet, han arbejder for, kan tilbyde en forsikring, og hvilke forbehold der eventuelt skal tages. Det tager ham typisk over en time at læse den lange rapport, evaluere informationerne og træffe en beslutning.

Den arbejdsgang kan høre fortiden til. For flere og flere danske forsikringsselskaber implementerer nemlig automatisk tekstanalyse for at effektivisere regelbaserede processer. Og de er ikke de eneste. Ifølge Jacob Bock Axelsen, der er ekspert i machine learning, har danske virksomheder, som behandler mange tekster, fundet ud af, at de kan forbedre deres produktivitet betragteligt ved hjælp af den rette teknologi.

”Al ny teknologi har svært ved at påvise deres ROI, men teknologien er nu så moden, at der potentielt er et flot investeringsafkast ved at implementere denne type tekstanalyse-værktøjer, og det har virksomhederne fået øjnene op for,” siger Jacob Bock Axelsen.

Forstørret intelligens
Tekstanalyse går grundlæggende ud på at lære en algoritme at læse en tekst og derefter anbefale en ”afgørelse” på baggrund af informationerne. Hvis vi tager udgangspunkt i ovenstående eksempel, betyder det, at taksatoren kan lade algoritmen læse rapporten, som derefter kan anbefale, at forsikringsselskabet enten afviser eller godkender forsikringen, samt hvilke forbehold der skal tages. Alt sammen i løbet af et par millisekunder.

”Forestil dig, hvad sådan et redskab kan i hænderne på en trænet taksator. Tror du, han skal bruge en time på at træffe afgørelsen nu?” spørger Jacob Bock Axelsen, der mener, at tekstanalyse skal ses som ”forstørret intelligens”, fordi teknologien fungerer som en udbygning af taksatorens professionelle kompetencer.

Og faktisk kan algoritmen mere end det, fortæller han. Den kan vise de faktorer, der har været betydende for afgørelsen. Taksatoren får altså på et splitsekund et pdf-dokument med den anbefalede afgørelse, og de elementer der ligger til grund for den. Med den i hånden kan taksatoren derefter træffe den endelige beslutning.

”På den måde får man optimeret og forbedre deres produktivitet markant. Og det er ikke kun i forbindelse med forsikringer. Man kan bruge tekstanalyse i en lang række brancher i såvel det private som i det offentlige,” siger han.

Modnet teknologi
Teknologien bag tekstanalyse har været undervejs i 20-30 år, men nylige fremskridt har modnet teknologien mærkbart. Da en computer ikke har en chance for at forstå ord på samme måde som mennesker, bliver tricket at få den til at forstå meningen med ordene, i den kontekst de står.

Forsimplet kræver det, at ordene omdannes til et format, computere har lettere ved at bearbejde: Tal, vektorer og billeder.

Groft sagt omdannes det enkelte ord til et række decimaltal i en vektor, hvilket er et objekt, der er defineret ved at have en længde og en retning i et flerdimensionelt rum. Jo mere ord relaterer sig til hinanden såsom ’hest, rytter, saddel’, des tættere ligger de i dette rum.

”Det har skabt stor begejstring, fordi det giver algoritmen mulighed for at finde synonymer og forstå ords relation til hinanden. De matematiske beskrivelser fungerer, og det er ret fantastisk,” siger Jacob Bock Axelsen. Som eksempel nævner han, at hvis teksterne indeholder geografisk information, bliver det muligt at ’regne’ på bydele: [”Østerbro”] - [”København”] + [”Gentofte”] = [”Hellerup”].

”Den slags relationer så vi virkeligt i datasættet,” siger han.

Der, hvor det i de seneste år er gået stærkt, er i næste skridt: Når man omdanner vektorer til billeder, som computere kan forstå ved hjælp af billedgenkendelsesteknologi.

Open source fremmer udviklingen
En af de væsentligste grunde til fremskridtene, er, at AI-udviklingen foregår i open source, mener Jacob Bock Axelsen:

”På GitHub og Archive bliver ny arkitektur beskrevet og dokumenteret, og så kan andre arbejde videre, blive inspireret eller bidrage med ny kode. Det gør, at virksomheder kan udveksle ideer med hinanden, og at udviklingen derfor går meget, meget stærkt,” siger han og tilføjer:

”Uden open source-tilgangen og generel vidensdeling var AI strandet i 1950erne på idé-planet.”

Det er dog ikke nok blot at finde den rette arkitektur på open-source-platformene og straks gå i gang med at automatisere sin tekstbehandling.

”Det kræver stadig en hel del at tilpasse sin AI og kode til at håndtere specifikke tekster, som de der forekommer i forsikringsbranchen – særligt, når de står på dansk,” siger han.

Først skal algoritmen nemlig ’lære’ det. Det kræver, at algoritmen bliver vist et stort antal tekster, der er annoteret på den måde, den skal træffe afgørelse på. Det kunne eksempelvis være et mærkat med to mulige værdier ”godkendt” eller ”afvist”, hvis der er tale om et tilbud af en forsikring på baggrund af en rapport. Når algoritmen har set tilstrækkeligt mange eksempler, og når dens fejl er blevet rettet, lærer den at emulere menneskers tidligere afgørelser. Som tommelfingerregel bør algoritmen se ti gange så mange tekster som antallet af ord i den enkelte tekst, og helst minimum 5.000 tekster.

Når først teknologien er på plads i en given virksomhed og støtter medarbejderne, kan den dog fremme produktiviteten betragteligt.

”Det er klart, at der er penge at hente, hvis en række medarbejdere pludseligt kan nå dobbelt så meget arbejde som normalt. Det betyder meget for virksomhedernes konkurrenceevne og beviser deres indstilling til digital transformation, hvilket positionerer dem stærkt ift. at tiltrække talentfulde medarbejdere,” slutter Jacob Bock Madsen.

Artificial Intelligence (AI), eller kunstig intelligens, er, når computere kan efterligne komplicerede kognitive funktioner. Machine Learning er en overordnet betegnelse for algoritmer, der kan trænes i at finde mønstre i data. Automatisk tekstanalyse kombinerer lingvistik, statistik og machine learning til at ”læse”, annotere og klassificere en given tekst.

Best algorithm practice
Ifølge Jacob Bock Axelsen skal virksomheder, der ønsker at bruge tekstanalyse, særligt undgå fire faldgruber, hvis de vil have succes.

  • Vær ambitiøs – ikke urealistisk. Tro ikke, at teknologien tilbyder supermenneskelig performance, hvis den emulerer menneskers beslutninger. Skal AI’en være bedre end mennesker, skal den forudsige den ’sande’ rigtige beslutning, og det kan være svært at afgøre, hvis problemet indeholder en grad af subjektivitet.
  • Test. Afprøv. Kontrollér. Gentag. Som med alt andet teknologi, kan der ske fejl i indkøringsprocessen. Derfor skal alt testes og kontrolleres løbende – også efter implementeringen.
  • Inddrag medarbejderne. Det er en meget fremmedgørende oplevelse for medarbejderne at høre, at ny teknologi skal automatisere deres arbejdsopgaver. Derfor er det vigtigt at slå fast, at det handler om at give dem et stærkt redskab snarere end at udfase dem. Medarbejderne er eksperterne på deres arbejdsfelt, og de skal tages med på råd.
  • Kend begrænsningerne. Algoritmer kan fange rigtigt meget, men hvis ét enkelt ord ikke står i kontekst, kan det være svært at fange. Derudover kan tekstanalyse-algoritmer ikke regne, så den vil ikke kunne fange, hvis der uoverensstemmelser i eksempelvis datoer eller andre tal.  
Fandt du dette nyttigt?