Sprogteknologi: datalogiske, sproglige og kognitive perspektiver
Forskergruppen Sprogteknologi beskæftiger sig med forskningsområderne datalingvistik, natursprogsbehandling (NLP) og kognitiv modellering med det langsigtede mål at berige datalogiske sprogmodeller med lingvistisk, kulturel og kognitive viden.
Gruppen forsker i hvordan man kan berige statistiske sprogmodeller med lingvistisk viden, med kognitive signaler fra fx eye-tracking samt med visuelle modaliteter i form af billeder og gestik. Målet er at forankre sprogmodeller i data og viden der peger ud over teksten. Der er mange applikationsmuligheder, bl.a. i psykisk sundhedspleje.
En anden udfordring er at de mindre sprog halter bagefter i sprogteknologisk udvikling. Vi har et særligt fokus på at udvikle kvalitetsdata og især semantiske sprogressourcer for dansk til at støtte udviklingen af dansk sprogteknologi.
Vi arbejder også med at tilpasse NLP-teknikker til data af relevans for digital humaniora, hvor stadig flere tekster - inklusiv fra ikke moderne sprog – bliver digitaliseret og dermed gjort tilgængelige for automatisk analyse.
Kognitiv NLP og multimodale modeller
I vores tilgang til kognitiv computermodellering fokuserer vi på sproglige modeller som gør brug af kognitive signaler og sproglig viden. Vi undersøger brugen af disse modeller i applikationer til diagnose og monitorering af psykiske lidelser. Endvidere undersøger vi den måde, hvorpå sprog – både skriftligt og talt – interagerer med den visuelle modalitet i form af gestik, og hvordan viden om denne interaktion kan berige sprogteknologi.
Metoder til udvikling af sprogressourcer og benchmark-data til NLP
Vi udarbejder metoder til udvikling af ressourcer, datasæt og modeller til NLP som afspejler kulturel og samfundsmæssig diversitet med særlig fokus på det danske sprog. Vi forsker i metoder til kulturspecifik evaluering af sprogmodeller og udvikler benchmark-data for dansk som udviser den nødvendige sproglige og leksikalske variation. Endelig arbejder vi med leksikalsk semantisk annotation af tekstdata og udvikling af semantisk-leksikalske ressourcer på flere sprog.
Representation learning’ i natursprogsprocessering
Vi bidrager til forklarbar kunstig intelligens ved at undersøge de interne repræsentationer og læringsmekanismer i computationale modeller af naturlige sprog. Vores fokus er at udforske igennem en flersproglig tilgang, hvordan sprogmodeller håndterer sproglig diversitet på forskellige arkitektoniske og sproglige niveauer. Vores forskning søger at forbedre gennemsigtigheden og ydeevnen i flersprogede sprogmodeller og sikre mere robust og præcis flersproget sprogbehandling.
NLP og digital humaniora
Vi udvikler metoder til natursprogsbehandling (NLP) der kan bruges til analyse og generering af tekstdata i bred forstand. Dette omfatter en vifte af genrer såsom digte, romaner, breve, nyhedsartikler, videnskabelige artikler eller sangtekster. Vi udvikler og vedligeholder ’NLP-pipelines’ og korpusværktøjer med fokus på dansk samt metoder og guldstandarder til at evaluere dem. Denne forskning åbner mange samarbejdsmuligheder med andre forskere på NorS samt generelt på HUM.
Centre
Forskningsgruppen er forankret ved Center for sprogteknologi (CST)
Projekter
- Measuring Modernity
- The Danish Benchmark project
- Danish Foundation Models
- MultiplEYE-DK
- XHAILe
- When Danes prayed in German
- Central Word Register for Danish (COR)
- Copco: The Copenhagen Corpus of Eye-Tracking Recordings from Natural Reading of Danish Texts
- GEstures and Head Movements in language (GEHM)
- Multimodal Child Language Acquisition
- ParlaMint: Towards Comparable Parliamentary Corpora
- METALLM: Exploring and Improving the Treatment of Metaphor in Language Language Models
- ClimCond: Conditions of change: Conditionals in climate change communications.
Gruppen organiserer interne og åbne seminarer om emner af relevans for de fire fokusområder.
Forskere
| Navn | Titel | Telefon | |
|---|---|---|---|
| Aguirrezabal Zabaleta, Manex | Lektor | +4535324829 | |
| Al-Laith, Ali Mohammed Ali | Adjunkt | +4535326658 | |
| Basirat, Ali | Lektor | +4535325590 | |
| Braasch, Anna | Lektor emeritus | +4535329071 | |
| Gray, Simon | Specialkonsulent | +4535337688 | |
| Henriksen, Lina | Forskningskonsulent | +4535329082 | |
| Jongejan, Bart | It-medarbejder, FU | +4535329075 | |
| Maegaard, Bente | Emeritus | +4535329074 | |
| Navarretta, Costanza | Seniorforsker | +4535329079 | |
| Norman, Nathalie Carmen Hau | Ph.d.-stipendiat | +4535331047 | |
| Olsen, Sussi | Akademisk medarbejder FU | +4535329064 | |
| Paggio, Patrizia | Lektor | +4535329072 | |
| Parola, Alberto | Tenure Track Adjunkt | +4535325942 | |
| Pedersen, Bolette Sandford | Professor, viceinstitutleder | +4535329078 | |
| Schneidermann, Nina Skovgaard | Indskrevet ph.d.-studerende | +4535331600 |
Tilknyttede forskere
- Kasper Boye
- Alexander Conroy
- Philip Diderichsen
- Dorthe Duncker
- Ruben Schachtenhaufen
- Daniel Hershcovich (DIKU).