Sprogteknologi og datalingvistik

Forskningsgruppen Sprogteknologi og datalingvistik arbejder inden for områderne datalingvistik, natural language processing (NLP) og kognitiv modellering. Statistiske sprogmodeller der er baseret på tekst alene, fungerer i dag forholdsvist godt i mange sprogteknologiske AI-applikationer. Men hvis vi arbejder henimod at udvikle mere menneskeorienteret AI, er det relevant at berige sprogmodellerne med mere omfattende viden.

Et gennemgående tema i vores sprogteknologiske forskning handler derfor om hvordan man kan berige statistiske sprogmodeller med lingvistisk og kognitiv viden. Vi undersøger med andre ord hvordan modellerne kan beriges med omverdensviden i form af metadata, med semantisk og pragmatisk viden kendt fra sprogteorien, med kognitive signaler fra fx eye-tracking og EEG samt med visuelle modaliteter i form af billeder og gestik.

En anden udfordring er det teknologi-gab der eksisterer mellem engelsk og de mindre sprog. Vi har derfor et særligt fokus på at udvikle kvalitetsdata og sprogressourcer for dansk, især semantiske sprogressourcer, for at støtte udviklingen af dansk sprogteknologi.

Endelig arbejder vi med at tilpasse NLP-teknikker til forskellige områder inden for Digital Humaniora hvor stadigt mere sprogligt materiale bliver digitaliseret og dermed gjort tilgængeligt for statistisk processering og analyse.

 

Ud fra disse fælles forskningsinteresser arbejder vi primært inden for tre fokusområder:

Metoder til udvikling af sprogressourcer til NLP

Vi udarbejder systematiske metoder til udvikling af NLP-ressourcer og sprogmodeller der tager højde for kulturel og samfundsmæssig mangfoldighed. Vi eksperimenterer med kontekstuelle indlejringer (’embeddings’) for at undersøge sammenhængen mellem håndopmærkede og statistisk genererede ressourcer. Vi arbejder med at opmærke datasæt og med metoder til at opbygge leksikalsk-semantiske ressourcer.

Kognitiv datamodellering og multimodalitet

Feltet forsøger at forstå hvordan mennesker bearbejder information ved at udvikle computermodeller der fanger aspekter af denne proces. Vi fokuserer på computermodeller til sprogprocessering, og på hvordan disse modeller kan beriges med kognitive signaler, visuelle modaliteter, fx gestik, i sammenspil med lingvistisk viden.

NLP og Digital Humaniora

Området omfatter NLP-modeller til analyse af tekstlige data i bred forstand, herunder poesi, romaner, breve, nyheds- og videnskabelige artikler. Vi har fokus på at holde vores NLP-pipelines og korpusværktøjer opdaterede, især for dansk, samt at sikre os at der udvikles egnede metoder og guldstandarder til at evaluere dem.

For mere viden om de tre fokusområder, sprogteknologiske værktøjer, forskningsinfrastrukturen CLARIN, undervisning i sprogteknologi og Center for Sprogteknologis øvrige aktiviteter henvises til centrets hjemmeside.

 

 

 

Forskere

Navn Titel Telefon E-mail
Aguirrezabal Zabaleta, Manex Lektor +4535324829 E-mail
Al-Laith, Ali Mohammed Ali Postdoc +4535326658 E-mail
Diderichsen, Philip Specialkonsulent +4535324189 E-mail
Gray, Simon Forskningsfuldmægtig +4535337688 E-mail
Hansen, Dorte Haltrup Akademisk medarbejder FU +4535329070 E-mail
Henriksen, Lina Forskningskonsulent +4535329082 E-mail
Jongejan, Bart Softwareudvikler +4535329075 E-mail
Maegaard, Bente Emeritus +4535329074 E-mail
Navarretta, Costanza Seniorforsker +4535329079 E-mail
Olsen, Sussi Akademisk medarbejder FU +4535329064 E-mail
Paggio, Patrizia Lektor +4535329072 E-mail
Pedersen, Bolette Sandford Professor, Viceinstitutleder +4535329078 E-mail
Schneidermann, Nina Skovgaard Videnskabelig assistent +4535331600 E-mail

Tilknyttede forskere 

  • Boye, Kasper 
  • Conroy, Alexander 
  • Diderichsen, Philip 
  • Duncker, Dorthe 
  • Schachtenhaufen, Ruben 

Forskningsgruppeleder