Institut for Nordiske Studier og Sprogvidenskab (NorS)

Digitale værktøjer

Instituttet og dets samarbejdspartnere har udviklet en større mængde digital forskningsinfrastruktur og en lang række digitale værktøjer, ressourcer og samlinger, som er offentligt tilgængelige.

Bogstaver og lyd i dansk (bogstavlyd.ku.dk)

Database som kobler udtale med bogstaver og viser hvilke stavemåder de enkelte sproglyde kan have.

Undersøg forholdet mellem bogstaver og lyd i dansk.

Bornholmsk ordbog

Bornholmsk Ordbog forener en mængde bornholmske ordbøger og ordlister i en fælles, søgbar database og giver bl.a. også adgang til et bornholmskssproget tekstkorpus.

Få adgang til ordbogen.

CST online-værktøjer

Oversigtsside med online-værktøjer fra Center for Sprogteknologi.

Gå til værkstøjssiden.

CLARIN-DK - Common Language Ressources and Technology Infrastructure

Projektet udgør det danske bidrag til den europæiske forskningsinfrastruktur for humaniora, CLARIN ERIC. Projektet er støttet af DIGHUMLAB. CLARIN-DK råder over en platform hvor forskere kan få adgang til de sprogbaserede materialer og værktøjer som efterhånden deponeres af forskere fra forskellige universiteter og institutioner:

Tekstkorpora – 46.000 tekstressourcer samlet i 5 overordnede korpora, 100.000 annotationer
Taleressourcer, multimodale ressourcer
Ordbøger, wordnets mv.
Værktøjer

Samarbejdspartnere: Partnerne i DIGHUMLAB (nationalt), partnerne i CLARIN ERIC (internationalt), www.clarin.eu.

Få adgang til værktøjer og ressourcer.

Danish Phonetically Annotated Spontaneous Speech - DanPASS

Korpus er beregnet til akustiske og perceptuelle undersøgelser af spontant talt dansk. Det består af såvel monologer som dialoger, indtalt af 27 standard dansk talende, og omfatter i alt knap ti timers lydoptagelser. Lydfilerne er annoteret i Praats tekstfiler: ortografisk, morfologisk, fonologisk, idealiseret fonetisk, konkret fonetisk og prosodisk med dels trykgruppens grundtonemønster dels den overordnede intonationskontur.

Læs mere om DanPASS.

Danmarks Stednavne

Databasen rummer omkring 210.000 stednavne i Danmark, deres historiske kildeformer og (i mange tilfælde) tolkninger af navnene.

Se databasen.

DanNet

DanNet er et ordnet, dvs. en samling sproglige data med betydningsdefinitioner udtrykt i et formelt sprog hvortil der knyttes de sproglige udtryk som kan udtrykke pågældende betydning. De enkelte betydninger forbindes med hinanden ved at definere de semantiske relationer der hersker mellem dem.

Se DanNet.

Dansk Sprog- og Stilhistorisk Tekstbase

Tekstbasen giver adgang til en samling af tekster fra perioden 1400-1700. Teksterne spænder over flere genrer, fx salmetekster og uddrag fra tingbøger.

Åbn tekstbasen.

Danske fagtekster for folket 1500-1750

Tekstsamlingen Danske fagtekster for folket 1500-1750 indeholder tekster som almanakker, brevbøger, bønnebøger, etik og moral, geografi og topografi, historie, husholdning, kateketik, lægevidenskab, matematik, metafysik, naturvidenskab og astrologi og pædagogik.

Se teksterne.

Danske runeindskrifter

Database som omfatter 900 danske runeindskrifter fra jernalder til middelalder.

Søg i runebasen.

Danskernes navne

Søgbar base med oplysninger om danskernes navne (fornavne, mellemnavne, efternavne) med tilknyttede oplysninger om fødested og -tid, baseret på CPR-registret 1. januar 2005.

Slå op i navnebasen.

Database of Indo-European Agricultural Terminology (DIEAT)

Engelsksproget etymologisk database som afdækker landbrugsterminologi i den indoeuropæiske sprogæt gennem tid og rum.

Slå op i databasen.

Det digitale katalog over håndskrifter: handrit.org

Søgbart katalog over håndskrifter i Den Arnamagnæanske Håndskriftsamling og i Islands nationalbibliotek.

Se kataloget.

Dialektkort

Interaktivt danmarkskort med lydklip med talesprog fra hele Danmark som også viser udskrifter fra materialet. Det er muligt at søge efter forskellige dialekttræk og se hvor i landet de optræder.

Se dialektkortet.

DigDag: Digitalt atlas over Danmarks historisk-administrative geografi

DigDag integrerer tid og rum i et dynamisk atlas som bl.a. kan vise Danmarks administrative inddeling fra år 1660 til i dag, kortlægger amter, kommuner, sogne m.m. og beskriver forholdet mellem dem. Derudover kan man se hvor et stednavn findes, hvad det betyder og meget mere. Samarbejdsprojekt mellem Statens Arkiver, Københavns Universitet, Syddansk Universitet, Kort og Matrikelstyrelsen, Nationalmuseet, Det Kongelige Bibliotek og Kulturarvsstyrelsen.

Prøv det digitale atlas.

Folkeviser fra renæssancen

Samling af folkeviser som optrådte særligt hyppigt i 1500-tallets visebøger med de forskellige versioner af viserne.

Se viserne.

The Homeland: In the footprints of the early Indo-Europeans

Interactive map showing ancient DNA samples, archaeological cultures and linguistic material related to the speakers of early Indo-European languages.

Visit the website.

Håndskrifter på nettet

En stor samling middelalderhåndskrifter, bl.a. islandske sagaer, bønnebøger, lægebøger og lovsamlinger er tilgængelige i bladrebøger via haandkrift.ku.dk.

Læs i middelalderhåndskrifterne.

Infrastrukturalisme

Det overordnede formål med Infrastrukturalisme-projektet er at digitalisere brevsamlingerne som en forskningsinfrastruktur mellem de største danske strukturalister fra det 20. århundrede indbyrdes og mellem dem og deres internationale forbindelser.

Læs mere om projekt Infrastrukturalisme.

Islanda Latina

Del af et EU-projekt støttet gennem Marie Skłodowska-Curie actions - Research Fellowship Programme, der havde til opgave at samle resterne af den latinske skriftkultur i Island og at organisere denne information i en database. Den indeholder en veldokumenteret liste over alle latinske forfattere og værker, som på den ene eller den anden måde var kendt og anvendt i middelalderens Island.

Søg i databasen.

Keyword extractor

CST's keyword extractor udtrækker 20 keywords der karakteriserer en tekst. Det gøres ved at tekstens ord sammenlignes med ord fra 1500 artikler (ca. 900.000 ord) fra Berlingske Tidende 1999.

Prøv værktøjet.

Korpus Bysoc

En søgbar samling af transskriptioner af et stort antal optagelser med de københavnske sociolekter, uden lydgengivelse.

Søg i samlingen.

Korpus CorDiale

Database som rummer transskriptioner af 170 kortere eller længere af optagelser med traditionel dialekt, uden lydgengivelse.

Søg i databasen.

Landbohistorisk Selskabs Adkomstregistrering 1513-1550

Søgbart register over sted- og personnavne fra de dokumenter i perioden som vedrører et ejendomsforhold til landgods.

Søg i registeret.

LARM.fm - Lydarkivet for RadioMedier

LARM.fm er en infrastruktur til forskning i radio og lydmedier. Med LARM er der etableret et digitalt arkiv med værktøjer og en bibliografi, der gør det muligt for forskerne at søge i og beskrive den radiofoniske kulturarvs mange optagelser. LARM.fm har den største samling af talt lyd i Danmark og er en af de største lydsamlinger internationalt.

Samarbejdspartnere: Roskilde Universitet, Syddansk Universitet, Aarhus Universitet, Ålborg Universitet, Danmarks Radio, Statsbiblioteket, DeiC, Kolding Designskole og Mediemuseet.

Få adgang til radioarkivet.

Lemmatiser

CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. Lemmatiseren beregner grundformen/opslagsformen af ord på baggrund af en række regler og en ordbog der begge afspejler forholdet mellem ordformer og grundformer.

Prøv værktøjet.

Muslimske fornavne i Danmark

Digital ordbog med forklaringer og med angivelse af antal forekomster over de muslimske fornavne i Danmark.

Se ordbogen.

Navnegenkender

CST's navnegenkender klassificerer navne i personnavne, stednavne og andre navne (kaldet MISC). Navnegenkenderen er regelbaseret og kan udvides med andre navnekategorier (fx produktnavne, firmanavne, eventnavne mm.) ved at tilføje lister og lave regler der karakteriserer de nye kategorier. Desuden kan programmet klassificere forskellige typer af tal som fx personnumre, telefonnumre m.m.

Prøv værktøjet.

NP-genkender

En NP-genkender samler leddene i et NP, et substantivsyntagme, til en enhed. NP'erne i en tekst fungerer typisk som subjekt og objekt, så ved at identificere disse størrelser, samt verberne, har man en grov analyse af sætningen. Men NP-genkendelse kan også bruges i fx informationssøgning. Specielt kan forholdet mellem sammensatte ord og deres NP'synonymer være relevante.

Prøv værktøjet.

Omstrukturerede Arnamagnæanske håndskrifter

En database over Árni Magnússons ændringer af papirhåndskrifter. Den er et arkiv for Beeke Stegmanns ph.d.-projekt "Árni Magnússon’s rearrangement of paper manuscripts".

Se databasen.

Ordbog over dansk talesprog

I ordbogen kan du søge på udråbsord (interjektioner), og du kan søge på selve ordene (form) og på den funktion et udråbsord kan have.

Kig i lyt i ordbogen.

Ordbog over det norrøne prosasprog

Ordbogen dækker det norrøne (norsk-islandske) prosasprog i perioden fra ca. 1150 til 1540.

Få adgang til ordbogen.

Part-Of-Speech tagger for dansk

POS-taggeren markerer hvert ord i en tekst med oplysninger om ordklasse og morfologiske træk. POS-tags kan bruges i viderebehandling af teksten, fx til at udtrække bestemte ordklasser (alle finitte verber, alle substantiver mm.), til at afgøre hvilken ordklasse et givent ord tilhører i en given position (fx jeg løber = verbum, en løber = substantiv), eller til at gruppere ordklasser i syntagmer (se CST's NP-genkender).

Prøv værktøjet.

SemDaX - et dansk, semantisk opmærket korpus

SemDaX-korpusset er nu tilgængeligt til forskningsformål på https://github.com/kuhumcst/semdax.

Korpusset indeholder 90.000 ord, dækker 6 teksttyper (blog, chat, forum, avis, ugeblad, folketingstaler) og er håndopmærket med leksikalske betydninger baseret på Den Danske Ordbog og det danske wordnet, DanNet.

Formål med korpusset er at tilvejebringe danske træningsdata til udvikling af sprogteknologi der kan skelne mellem ords forskellige betydninger i dansk. I materialet anvender vi betydningsinventarer af varierende grovhed. Således indeholder korpusset opmærkninger med både et finkornet inventar med hoved- og underbetydninger, se eksempel, samt grovere inventarer hvor der kun skelnes imellem de mest umiddelbare betydninger, se eksempel. Pålideligheden ved de forskellige inventarer måles bl.a. ud fra annotørenighed, hvorfor 60% materialet er opmærket af flere annotører (se annotørenigheden for de forskellige teksttyper).

De metodiske overvejelser bag korpusset præsenteres i Bolette S. Pedersen, Anna Braasch, Anders Johanssen, Hector Martinez Alonso, Sanni Nimb, Sussi Olsen, Anders Søgaard, Nicolai Hartvig Sørensen: The SemDaX corpus – sense annotations with scalable sense inventories. (under udgivelse til LREC 2016)

Sprogsamlinger.ku.dk

Ca. 5 mio. digitaliserede arkivalier bestående af scannede håndskrifter fra Den Arnamagnæanske Samling, stednavneoptegnelser og personnavnesamlinger samt optegnelser af danske dialekter.

Gå til samlingerne.

Sprogteknologisk orddatabase over det danske sprog - STO

Den store danske SprogTeknologiske Ordbase indeholder ordbogsdata lagret i en database og er beregnet til maskinel anvendelse. Der er tale om den mest omfattende og detaljerede leksikalske datasamling på det danske marked, tilgængelig for både kommercielle og forskningsrelaterede formål.

Slå op i orddatabasen.

Stednavneregistre

Ældre database over registrene til bogserierne Danmarks Stednavne, Danske Sø- og Ånavne samt Sydslesvigs Stednavne. Via databasen kan man finde frem til i hvilke bind et navn er behandlet. (Se i øvrigt den nyere database Danmarks Stednavne).

Søg i basen.

Stories for all time: The Icelandic fornaldarsögur

Bibliografi over islandske fornaldersagaer (oldtidssagaer) samt beskrivelser af håndskrifter, der indeholder sådanne tekster.

Se bibliografien.

Test fra Center for Læseforskning

Test som er udviklet på Center for Læseforskning. Enkelte testmaterialer er tilgængelige på siden og kan frit benyttes af enkeltpersoner til udredning.

Se mere om de enkelte test.

Text Tonsorium

CST's 'schweizerkniv' med Natural Language Processing værktøjer til mange filformater og mange sprog - og for dansk og latin også forskellige tidsperioder.

Gå til Text Tonsorium.

Tokeniser

CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer forbereder tekst til viderebehandling med andre programmer. Ofte kræver programmer til tekstanalyse nemlig at inputteksten er gemt på en helt bestemt måde, hvilket næsten altid indebærer at tekstfilen skal være fri for styretegn til layout og typografi, skal have et bestemt tegnsæt, samt at teksten er opdelt i tokens og eventuelt også i segmenter (sætninger, overskrifter og listepunkter). Ved opdelingen af teksten i tokens (tokenisering) adskiller man ord, tal, interpunktionstegn mm. med et mellemrum og samler evt. flerordforbindelser (fx i forhold til) til et token.

Prøv værktøjet.