Dorte Haltrup Hansen
Akademisk medarbejder FU
Institut for Nordiske Studier og Sprogvidenskab
Emil Holms Kanal 2, 2300 København S, 22 Bygning 22, Bygning: 22-3-44
Medlem af:
Siden 1999 ansat som datalingvist ved Center for Sprogteknologi med bl.a. flg. opgaver:
- Korpusopbygning, dvs. OCR-rensning, lingvistisk annotation og formatering af romaner fra 1800-tallet i projektet MeMo.
- Entitetsopmærkning, TEI-formatering og datastrukturering af breve i projektet Infrastrukturalisme.
- Opmærkning og visualisering af semantiske relationer i gamle danske folkeviser for Hanne Ruus
- Opmærkning af data fra Folketingstidende.
- Studieadministrator for den internationale master i IT and Cognition.
- Datastrukturering for Folketingstidende.
- Datakuratering i it-infrastrukturen DigHumLab. National IsoCat-koordinator.
- Indsamling og alignering af dokumenter til online maskinoversættelse i projektet LetsMT!
- Transformation af STO ordbasen til LMF, et xml-format, i projektet META-NORD.
- Implementering af anonymiseringsprogram til domsafgørelser for Schultz Information i samarbejde med Progresso.
- Indsamling, annotation og alignering af korpora i projektet DK-CLARIN.
- Implementering at stavekorrektion i den europæiske termdatabase IATE for EC’s oversættelsesafdeling.
- Administrativ koordinator i EU-projektet MEDAR omhandlende arabisk sprogteknologi.
- Alignering af parallelle korpora til brug for maskinoversættelse.
- Udvikling af program til identifikation af keywords.
- Transskription af danske stednavne.
- Udvikling af kommateringsprogram (prototype).
- Markedsundersøgelse om leverandører af tale-til-tekst-systemer for Folketinget.
- Automatisk identifikation af relationer og begreber i løbende tekst vha. machine learning algoritmer (MOSES-projektet).
- Automatisk semantisk analyse af spørgsmål i et flersprogligt søgesystem (MOSES-projektet).
- Udforskning af keyword-, emne- og metadatatilskrivning vha. sprogteknologiske metoder, resourser og værktøjer (VID-projektet).
- Udvikling af prototype til genkendelse og klassifikation af egennavne til brug for anonymisering af dokumenter.
- Udvikling af lemmatiser i samarbejde med Bart Jongejan.
- Tilpasning af det danske resummeringsværktøj DanSum.
- Udvikling af metoder og værktøjer til automatisk indsamling af nye ord til Den Sprogteknologiske Ordbase (STO).
- Redegørelse om automatisk klassifikation for Statens Information.
- Teknisk ansvarlig i Senseval-projektet.
- Konsulent på forundersøgelse for en multimedie tegnsprogsordbog.
Uddannelse
Cand.mag. i datalingvistik
ID: 1441107
Flest downloads
-
144
downloads
Towards the Automatic Classification of Speech Subjects in the Danish Parliament Corpus
Publikation: Bidrag til tidsskrift › Konferenceartikel › Forskning › fagfællebedømt
Udgivet -
79
downloads
Identifying Parties in Manifestos and Parliament Speeches
Publikation: Bidrag til bog/antologi/rapport › Konferencebidrag i proceedings › Forskning › fagfællebedømt
Udgivet -
55
downloads
Mending Fractured Texts: A Heuristic Procedure for Correcting OCR data
Publikation: Bidrag til bog/antologi/rapport › Konferencebidrag i proceedings › Forskning › fagfællebedømt
Udgivet