Sprogteknologi og datalingvistik

Forskningsgruppen Sprogteknologi og datalingvistik arbejder inden for områderne datalingvistik, natural language processing (NLP) og kognitiv modellering. Statistiske sprogmodeller der er baseret på tekst alene, fungerer i dag forholdsvist godt i mange sprogteknologiske AI-applikationer. Men hvis vi arbejder henimod at udvikle mere menneskeorienteret AI, er det relevant at berige sprogmodellerne med mere omfattende viden.

Et gennemgående tema i vores sprogteknologiske forskning handler derfor om hvordan man kan berige statistiske sprogmodeller med lingvistisk og kognitiv viden. Vi undersøger med andre ord hvordan modellerne kan beriges med omverdensviden i form af metadata, med semantisk og pragmatisk viden kendt fra sprogteorien, med kognitive signaler fra fx eye-tracking og EEG samt med visuelle modaliteter i form af billeder og gestik.

En anden udfordring er det teknologi-gab der eksisterer mellem engelsk og de mindre sprog. Vi har derfor et særligt fokus på at udvikle kvalitetsdata og sprogressourcer for dansk, især semantiske sprogressourcer, for at støtte udviklingen af dansk sprogteknologi.

Endelig arbejder vi med at tilpasse NLP-teknikker til forskellige områder inden for Digital Humaniora hvor stadigt mere sprogligt materiale bliver digitaliseret og dermed gjort tilgængeligt for statistisk processering og analyse.

Fokusområder

Ud fra disse fælles forskningsinteresser arbejder vi primært inden for tre fokusområder:

Metoder til udvikling af sprogressourcer til NLP

Vi udarbejder systematiske metoder til udvikling af NLP-ressourcer og sprogmodeller der tager højde for kulturel og samfundsmæssig mangfoldighed. Vi eksperimenterer med kontekstuelle indlejringer (’embeddings’) for at undersøge sammenhængen mellem håndopmærkede og statistisk genererede ressourcer. Vi arbejder med at opmærke datasæt og med metoder til at opbygge leksikalsk-semantiske ressourcer.

Kognitiv datamodellering og multimodalitet

Feltet forsøger at forstå hvordan mennesker bearbejder information ved at udvikle computermodeller der fanger aspekter af denne proces. Vi fokuserer på computermodeller til sprogprocessering, og på hvordan disse modeller kan beriges med kognitive signaler, visuelle modaliteter, fx gestik, i sammenspil med lingvistisk viden.

NLP og Digital Humaniora

Området omfatter NLP-modeller til analyse af tekstlige data i bred forstand, herunder poesi, romaner, breve, nyheds- og videnskabelige artikler. Vi har fokus på at holde vores NLP-pipelines og korpusværktøjer opdaterede, især for dansk, samt at sikre os at der udvikles egnede metoder og guldstandarder til at evaluere dem.

For mere viden om de tre fokusområder, sprogteknologiske værktøjer, forskningsinfrastrukturen CLARIN, undervisning i sprogteknologi og Center for Sprogteknologis øvrige aktiviteter henvises til centrets hjemmeside.

Centre og eksterne kollektive projekter

Centre

Center for Sprogteknologi (CST)

Projekter

Forskere

Navn	Titel	Telefon	E-mail
Aguirrezabal Zabaleta, Manex	Lektor	+4535324829	E-mail
Al-Laith, Ali Mohammed Ali	Postdoc	+4535326658	E-mail
Diderichsen, Philip	Specialkonsulent	+4535324189	E-mail
Gray, Simon	Forskningsfuldmægtig	+4535337688	E-mail
Hansen, Dorte Haltrup	Akademisk medarbejder FU	+4535329070	E-mail
Henriksen, Lina	Forskningskonsulent	+4535329082	E-mail
Jongejan, Bart	Softwareudvikler	+4535329075	E-mail
Maegaard, Bente	Emeritus	+4535329074	E-mail
Navarretta, Costanza	Seniorforsker	+4535329079	E-mail
Olsen, Sussi	Akademisk medarbejder FU	+4535329064	E-mail
Paggio, Patrizia	Lektor	+4535329072	E-mail
Pedersen, Bolette Sandford	Professor, viceinstitutleder	+4535329078	E-mail

Tilknyttede forskere

Boye, Kasper
Conroy, Alexander
Diderichsen, Philip
Duncker, Dorthe
Schachtenhaufen, Ruben

Institut for Nordiske Studier og Sprogvidenskab