Digitale værktøjer
Instituttet og dets samarbejdspartnere har udviklet en større mængde digital forskningsinfrastruktur og en lang række digitale værktøjer, ressourcer og samlinger, som er offentligt tilgængelige.
Database som kobler udtale med bogstaver og viser hvilke stavemåder de enkelte sproglyde kan have.
Undersøg forholdet mellem bogstaver og lyd i dansk.
Bornholmsk Ordbog forener en mængde bornholmske ordbøger og ordlister i en fælles, søgbar database og giver bl.a. også adgang til et bornholmskssproget tekstkorpus. Få adgang til ordbogen.
Oversigtsside med online-værktøjer fra Center for Sprogteknologi.
Gå til værkstøjssiden.
En samling af annoteret tale (fonetisk) af et stort dansk talesprogskorpus.
Åbn DanPASS.
Projektet udgør det danske bidrag til den europæiske forskningsinfrastruktur for humaniora, CLARIN ERIC. Projektet er støttet af DIGHUMLAB. CLARIN-DK råder over en platform hvor forskere kan få adgang til de sprogbaserede materialer og værktøjer som efterhånden deponeres af forskere fra forskellige universiteter og institutioner:
- Tekstkorpora – 46.000 tekstressourcer samlet i 5 overordnede korpora, 100.000 annotationer
- Taleressourcer, multimodale ressourcer
- Ordbøger, wordnets mv.
- Værktøjer
Samarbejdspartnere: Partnerne i DIGHUMLAB (nationalt), partnerne i CLARIN ERIC (internationalt), www.clarin.eu.
Databasen rummer omkring 210.000 stednavne i Danmark, deres historiske kildeformer og (i mange tilfælde) tolkninger af navnene.
Se databasen.
DanNet er et ordnet, dvs. en samling sproglige data med betydningsdefinitioner udtrykt i et formelt sprog hvortil der knyttes de sproglige udtryk som kan udtrykke pågældende betydning. De enkelte betydninger forbindes med hinanden ved at definere de semantiske relationer der hersker mellem dem.
Se DanNet.
Tekstbasen giver adgang til en samling af tekster fra perioden 1400-1700. Teksterne spænder over flere genrer, fx salmetekster og uddrag fra tingbøger.
Åbn tekstbasen.
Tekstsamlingen Danske fagtekster for folket 1500-1750 indeholder tekster som almanakker, brevbøger, bønnebøger, etik og moral, geografi og topografi, historie, husholdning, kateketik, lægevidenskab, matematik, metafysik, naturvidenskab og astrologi og pædagogik.
Se teksterne.
Database som omfatter 900 danske runeindskrifter fra jernalder til middelalder.
Søg i runebasen.
Søgbar base med oplysninger om danskernes navne (fornavne, mellemnavne, efternavne) med tilknyttede oplysninger om fødested og -tid, baseret på CPR-registret 1. januar 2005.
Slå op i navnebasen.
Engelsksproget etymologisk database som afdækker landbrugsterminologi i den indoeuropæiske sprogæt gennem tid og rum. Slå op i databasen.
Søgbart katalog over håndskrifter i Den Arnamagnæanske Håndskriftsamling og i Islands nationalbibliotek.
Se kataloget.
Interaktivt danmarkskort med lydklip med talesprog fra hele Danmark som også viser udskrifter fra materialet. Det er muligt at søge efter forskellige dialekttræk og se hvor i landet de optræder.
Se dialektkortet.
DigDag integrerer tid og rum i et dynamisk atlas som bl.a. kan vise Danmarks administrative inddeling fra år 1660 til i dag, kortlægger amter, kommuner, sogne m.m. og beskriver forholdet mellem dem. Derudover kan man se hvor et stednavn findes, hvad det betyder og meget mere. Samarbejdsprojekt mellem Statens Arkiver, Københavns Universitet, Syddansk Universitet, Kort og Matrikelstyrelsen, Nationalmuseet, Det Kongelige Bibliotek og Kulturarvsstyrelsen.
Prøv det digitale atlas.
Samling af folkeviser som optrådte særligt hyppigt i 1500-tallets visebøger med de forskellige versioner af viserne.
Se viserne.
Interactive map showing ancient DNA samples, archaeological cultures and linguistic material related to the speakers of early Indo-European languages.Visit the website
En stor samling middelalderhåndskrifter, bl.a. islandske sagaer, bønnebøger, lægebøger og lovsamlinger er tilgængelige i bladrebøger via haandkrift.ku.dk.
Læs i middelalderhåndskrifterne.
Det overordnede formål med Infrastrukturalisme-projektet er at digitalisere brevsamlingerne som en forskningsinfrastruktur mellem de største danske strukturalister fra det 20. århundrede indbyrdes og mellem dem og deres internationale forbindelser.
Læs mere om projekt Infrastrukturalisme.
Del af et EU-projekt støttet gennem Marie Skłodowska-Curie actions - Research Fellowship Programme, der havde til opgave at samle resterne af den latinske skriftkultur i Island og at organisere denne information i en database. Den indeholder en veldokumenteret liste over alle latinske forfattere og værker, som på den ene eller den anden måde var kendt og anvendt i middelalderens Island. Søg i databasen.
CST's keyword extractor udtrækker 20 keywords der karakteriserer en tekst. Det gøres ved at tekstens ord sammenlignes med ord fra 1500 artikler (ca. 900.000 ord) fra Berlingske Tidende 1999.
Prøv værktøjet
En søgbar samling af transskriptioner af et stort antal optagelser med de københavnske sociolekter, uden lydgengivelse.
Søg i samlingen.
Database som rummer transskriptioner af 170 kortere eller længere af optagelser med traditionel dialekt, uden lydgengivelse.
Søg i basen.
Søgbart register over sted- og personnavne fra de dokumenter i perioden som vedrører et ejendomsforhold til landgods.
Søg i basen.
LARM.fm er en infrastruktur til forskning i radio og lydmedier. Med LARM er der etableret et digitalt arkiv med værktøjer og en bibliografi, der gør det muligt for forskerne at søge i og beskrive den radiofoniske kulturarvs mange optagelser. LARM.fm har den største samling af talt lyd i Danmark og er en af de største lydsamlinger internationalt.
Samarbejdspartnere: Roskilde Universitet, Syddansk Universitet, Aarhus Universitet, Ålborg Universitet, Danmarks Radio, Statsbiblioteket, DeiC, Kolding Designskole og Mediemuseet.
Få adgang til radioarkivet.
CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. Lemmatiseren beregner grundformen/opslagsformen af ord på baggrund af en række regler og en ordbog der begge afspejler forholdet mellem ordformer og grundformer.
Prøv værktøjet
Digital ordbog med forklaringer og med angivelse af antal forekomster over de muslimske fornavne i Danmark.
Se ordbogen.
CST's navnegenkender klassificerer navne i personnavne, stednavne og andre navne (kaldet MISC). Navnegenkenderen er regelbaseret og kan udvides med andre navnekategorier (fx produktnavne, firmanavne, eventnavne mm.) ved at tilføje lister og lave regler der karakteriserer de nye kategorier. Desuden kan programmet klassificere forskellige typer af tal som fx personnumre, telefonnumre m.m.
Prøv værktøjet
En NP-genkender samler leddene i et NP, et substantivsyntagme, til en enhed. NP'erne i en tekst fungerer typisk som subjekt og objekt, så ved at identificere disse størrelser, samt verberne, har man en grov analyse af sætningen. Men NP-genkendelse kan også bruges i fx informationssøgning. Specielt kan forholdet mellem sammensatte ord og deres NP'synonymer være relevante.
Prøv værktøjet
En database over Árni Magnússons ændringer af papirhåndskrifter. Den er et arkiv for Beeke Stegmanns ph.d.-projekt "Árni Magnússon’s rearrangement of paper manuscripts". Se databasen.
I ordbogen kan du søge på udråbsord (interjektioner), og du kan søge på selve ordene (form) og på den funktion et udråbsord kan have.
Kig i lyt i ordbogen .
Ordbogen dækker det norrøne (norsk-islandske) prosasprog i perioden fra ca. 1150 til 1540.
Få adgang til ordbogen.
POS-taggeren markerer hvert ord i en tekst med oplysninger om ordklasse og morfologiske træk. POS-tags kan bruges i viderebehandling af teksten, fx til at udtrække bestemte ordklasser (alle finitte verber, alle substantiver mm.), til at afgøre hvilken ordklasse et givent ord tilhører i en given position (fx jeg løber = verbum, en løber = substantiv), eller til at gruppere ordklasser i syntagmer (se CST's NP-genkender).
Prøv værktøjet
SemDaX-korpusset er nu tilgængeligt til forskningsformål på https://github.com/kuhumcst/semdax.
Korpusset indeholder 90.000 ord, dækker 6 teksttyper (blog, chat, forum, avis, ugeblad, folketingstaler) og er håndopmærket med leksikalske betydninger baseret på Den Danske Ordbog og det danske wordnet, DanNet.
Formål med korpusset er at tilvejebringe danske træningsdata til udvikling af sprogteknologi der kan skelne mellem ords forskellige betydninger i dansk. I materialet anvender vi betydningsinventarer af varierende grovhed. Således indeholder korpusset opmærkninger med både et finkornet inventar med hoved- og underbetydninger, se eksempel, samt grovere inventarer hvor der kun skelnes imellem de mest umiddelbare betydninger, se eksempel. Pålideligheden ved de forskellige inventarer måles bl.a. ud fra annotørenighed, hvorfor 60% materialet er opmærket af flere annotører (se annotørenigheden for de forskellige teksttyper).
De metodiske overvejelser bag korpusset præsenteres i Bolette S. Pedersen, Anna Braasch, Anders Johanssen, Hector Martinez Alonso, Sanni Nimb, Sussi Olsen, Anders Søgaard, Nicolai Hartvig Sørensen: The SemDaX corpus – sense annotations with scalable sense inventories. (under udgivelse til LREC 2016)
Ca. 5 mio. digitaliserede arkivalier bestående af scannede håndskrifter fra Den Arnamagnæanske Samling, stednavneoptegnelser og personnavnesamlinger samt optegnelser af danske dialekter.
Gå til samlingerne
Den store danske SprogTeknologiske Ordbase indeholder ordbogsdata lagret i en database og er beregnet til maskinel anvendelse. Der er tale om den mest omfattende og detaljerede leksikalske datasamling på det danske marked, tilgængelig for både kommercielle og forskningsrelaterede formål.
Slå op i orddatabasen.
Ældre database over registrene til bogserierne Danmarks Stednavne, Danske Sø- og Ånavne samt Sydslesvigs Stednavne. Via databasen kan man finde frem til i hvilke bind et navn er behandlet. (Se i øvrigt den nyere database Danmarks Stednavne).
Søg i basen.
Bibliografi over islandske fornaldersagaer (oldtidssagaer) samt beskrivelser af håndskrifter, der indeholder sådanne tekster.
Se bibliografien.
Test som er udviklet på Center for Læseforskning. Enkelte testmaterialer er tilgængelige på siden og kan frit benyttes af enkeltpersoner til udredning.
Se mere om de enkelte test.
CST's 'schweizerkniv' med Natural Language Processing værktøjer til mange filformater og mange sprog - og for dansk og latin også forskellige tidsperioder.
Gå til Text Tonsorium
CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer forbereder tekst til viderebehandling med andre programmer. Ofte kræver programmer til tekstanalyse nemlig at inputteksten er gemt på en helt bestemt måde, hvilket næsten altid indebærer at tekstfilen skal være fri for styretegn til layout og typografi, skal have et bestemt tegnsæt, samt at teksten er opdelt i tokens og eventuelt også i segmenter (sætninger, overskrifter og listepunkter). Ved opdelingen af teksten i tokens (tokenisering) adskiller man ord, tal, interpunktionstegn mm. med et mellemrum og samler evt. flerordforbindelser (fx i forhold til) til et token.
Prøv værktøjet