Digitale værktøjer – Københavns Universitet

Forside > Digitale værktøjer

Digitale værktøjer

Instituttet og dets samarbejdspartnere har udviklet en større mængde digital forskningsinfrastruktur og en lang række digitale værktøjer, ressourcer og samlinger, som er offentligt tilgængelige.

Autoriserede stednavne i Danmark

Officiel fortegnelse over stednavne i Danmark med den autoriserede retskrivning og med tilknyttede kort.

Se fortegnelsen.

Bogstaver og lyd i dansk (bogstavlyd.ku.dk)

Database som kobler udtale med bogstaver og viser hvilke stavemåder de enkelte sproglyde kan have.

Undersøg forholdet mellem bogstaver og lyd i dansk.

Danish Phonetically Annotated Spontaneous Speech - DanPASS

En samling af annoteret tale (fonetisk) af et stort dansk talesprogskorpus.

Åbn DanPASS.

CLARIN-DK - Common Language Ressources and Technology Infrastructure

Projektet udgør det danske bidrag til den europæiske forskningsinfrastruktur for humaniora, CLARIN ERIC. Projektet er støttet af DIGHUMLAB. CLARIN-DK råder over en platform hvor forskere kan få adgang til de sprogbaserede materialer og værktøjer som efterhånden deponeres af forskere fra forskellige universiteter og institutioner:

  • Tekstkorpora – 46.000 tekstressourcer samlet i 5 overordnede korpora, 100.000 annotationer
  • Taleressourcer, multimodale ressourcer
  • Ordbøger, wordnets mv.
  • Værktøjer

Samarbejdspartnere: Partnerne i DIGHUMLAB (nationalt), partnerne i CLARIN ERIC (internationalt),  www.clarin.eu.

Få adgang til værktøjer og ressourcer.

Danmarks Stednavne

Databasen rummer omkring 210.000 stednavne i Danmark, deres historiske kildeformer og (i mange tilfælde) tolkninger af navnene.

Se databasen.

DanNet

DanNet er et ordnet, dvs. en samling sproglige data med betydningsdefinitioner udtrykt i et formelt sprog hvortil der knyttes de sproglige udtryk som kan udtrykke pågældende betydning. De enkelte betydninger forbindes med hinanden ved at definere de semantiske relationer der hersker mellem dem.

Se DanNet.

Dansk Sprog- og Stilhistorisk Tekstbase

Tekstbasen giver adgang til en samling af tekster fra perioden 1400-1700. Teksterne spænder over flere genrer, fx salmetekster og uddrag fra tingbøger.

Åbn tekstbasen.

Danske fagtekster for folket 1500-1750

Tekstsamlingen Danske fagtekster for folket 1500-1750 indeholder tekster som almanakker, brevbøger, bønnebøger, etik og moral, geografi og topografi, historie, husholdning, kateketik, lægevidenskab, matematik, metafysik, naturvidenskab og astrologi og pædagogik.
Se teksterne.

Danske runeindskrifter

Database som omfatter 900 danske runeindskrifter fra jernalder til middelalder. 

Søg i runebasen.

Danske stednavne

Ældre database over registrene til bogserierne Danmarks Stednavne, Danske Sø- og Ånavne samt Sydslesvigs Stednavne. Via databasen kan man finde frem til i hvilke bind et navn er behandlet. (Se i øvrigt den nyere database Danmarks Stednavne).

Søg i basen.

Danskernes navne

Søgbar base med oplysninger om danskernes navne (fornavne, mellemnavne, efternavne) med tilknyttede oplysninger om fødested og -tid, baseret på CPR-registret 1. januar 2005.

Slå op i navnebasen.

Database of Indo-European Agricultural Terminology (DIEAT)

Engelsksproget etymologisk database som afdækker landbrugsterminologi i den indoeuropæiske sprogæt gennem tid og rum. Slå op i databasen.

Det digitale katalog over håndskrifter: handrit.org

Søgbart katalog over håndskrifter i Den Arnamagnæanske Håndskriftsamling og i Islands nationalbibliotek.

Se kataloget.

Dialektkort

Interaktivt danmarkskort med lydklip med talesprog fra hele Danmark som også viser udskrifter fra materialet. Det er muligt at søge efter forskellige dialekttræk og se hvor i landet de optræder.

Se dialektkortet.

DigDag: Digitalt atlas over Danmarks historisk-administrative geografi

DigDag integrerer tid og rum i et dynamisk atlas som bl.a. kan vise Danmarks administrative inddeling fra år 1660 til i dag, kortlægger amter, kommuner, sogne m.m. og beskriver forholdet mellem dem. Derudover kan man se hvor et stednavn findes, hvad det betyder og meget mere. Samarbejdsprojekt mellem Statens Arkiver, Københavns Universitet, Syddansk Universitet, Kort og Matrikelstyrelsen, Nationalmuseet, Det Kongelige Bibliotek og Kulturarvsstyrelsen.

Prøv det digitale atlas.

Folkeviser fra renæssancen

Samling af folkeviser som optrådte særligt hyppigt i 1500-tallets visebøger med de forskellige versioner af viserne.

Se viserne.

Håndskrifter på nettet

En stor samling middelalderhåndskrifter, bl.a. islandske sagaer, bønnebøger, lægebøger og lovsamlinger er tilgængelige i bladrebøger via haandkrift.ku.dk.

Læs i middelalderhåndskrifterne.

Islanda Latina 

Del af et EU-projekt støttet gennem Marie Skłodowska-Curie actions - Research Fellowship Programme, der havde til opgave at samle resterne af den latinske skriftkultur i Island og at organisere denne information i en database. Den indeholder en veldokumenteret liste over alle latinske forfattere og værker, som på den ene eller den anden måde var kendt og anvendt i middelalderens Island. Søg i databasen.

Keyword extractor

CST's keyword extractor udtrækker 20 keywords der karakteriserer en tekst. Det gøres ved at tekstens ord sammenlignes med ord fra 1500 artikler (ca. 900.000 ord) fra Berlingske Tidende 1999. 

Prøv værktøjet

Korpus Bysoc 

En søgbar samling af transskriptioner af et stort antal optagelser med de københavnske sociolekter, uden lydgengivelse.

Søg i samlingen.

Korpus CorDiale

Database som rummer transskriptioner af 170 kortere eller længere af optagelser med traditionel dialekt, uden lydgengivelse.

Søg i basen.

Landbohistorisk Selskabs Adkomstregistrering 1513-1550

Søgbart register over sted- og personnavne fra de dokumenter i perioden som vedrører et ejendomsforhold til landgods.

Søg i basen.

LARM.fm - Lydarkivet for RadioMedier

LARM.fm er en infrastruktur til forskning i radio og lydmedier. Med LARM er der etableret et digitalt arkiv med værktøjer og en bibliografi, der gør det muligt for forskerne at søge i og beskrive den radiofoniske kulturarvs mange optagelser. LARM.fm har den største samling af talt lyd i Danmark og er en af de største lydsamlinger internationalt.

Samarbejdspartnere: Roskilde Universitet, Syddansk Universitet, Aarhus Universitet, Ålborg Universitet, Danmarks Radio, Statsbiblioteket,  DeiC, Kolding Designskole og Mediemuseet.

Få adgang til radioarkivet.

Lemmatiser

CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. Lemmatiseren beregner grundformen/opslagsformen af ord på baggrund af en række regler og en ordbog der begge afspejler forholdet mellem ordformer og grundformer.

Prøv værktøjet

Muslimske fornavne i Danmark

Digital ordbog med forklaringer og med angivelse af antal forekomster over de muslimske fornavne i Danmark.

Se ordbogen.

Navnegenkender

CST's navnegenkender klassificerer navne i personnavne, stednavne og andre navne (kaldet MISC). Navnegenkenderen er regelbaseret og kan udvides med andre navnekategorier (fx produktnavne, firmanavne, eventnavne mm.) ved at tilføje lister og lave regler der karakteriserer de nye kategorier. Desuden kan programmet klassificere forskellige typer af tal som fx personnumre, telefonnumre m.m.

Prøv værktøjet

NP-genkender

En NP-genkender samler leddene i et NP, et substantivsyntagme, til en enhed. NP'erne i en tekst fungerer typisk som subjekt og objekt, så ved at identificere disse størrelser, samt verberne, har man en grov analyse af sætningen. Men NP-genkendelse kan også bruges i fx informationssøgning. Specielt kan forholdet mellem sammensatte ord og deres NP'synonymer være relevante.

Prøv værktøjet

Omstrukturerede Arnamagnæanske håndskrifter 

En database over Árni Magnússons ændringer af papirshåndskrifter. Den er et arkiv for Beeke Stegmanns PhD-projekt "Árni Magnússon’s rearrangement of paper manuscripts". Se databasen.

Ordbog over dansk talesprog

I ordbogen kan du søge på udråbsord (interjektioner), og du kan søge på selve ordene (form) og på den funktion et udråbsord kan have.

Kig i lyt i ordbogen .

Ordbog over det norrøne prosasprog

Ordbogen dækker det norrøne (norsk-islandske) prosasprog i perioden fra ca. 1150 til 1540.

Få adgang til ordbogen.

Part-Of-Speech tagger for dansk

POS-taggeren markerer hvert ord i en tekst med oplysninger om ordklasse og morfologiske træk. POS-tags kan bruges i viderebehandling af teksten, fx til at udtrække bestemte ordklasser (alle finitte verber, alle substantiver mm.), til at afgøre hvilken ordklasse et givent ord tilhører i en given position (fx jeg løber = verbum, en løber = substantiv), eller til at gruppere ordklasser i syntagmer (se CST's NP-genkender).

Prøv værktøjet

Sprogteknologisk orddatabase over det danske sprog - STO

Den store danske SprogTeknologiske Ordbase indeholder ordbogsdata lagret i en database og er beregnet til maskinel anvendelse. Der er tale om den mest omfattende og detaljerede leksikalske datasamling på det danske marked, tilgængelig for både kommercielle og forskningsrelaterede formål.

Slå op i orddatabasen.

Stories for all time: The Icelandic fornaldarsögur

Bibliografi over islandske fornaldersagaer (oldtidssagaer) samt beskrivelser af håndskrifter, der indeholder sådanne tekster.

Se bibliografien.

Test fra Center for Læseforskning

Test som er udviklet på Center for Læseforskning. Enkelte testmaterialer er tilgængelige på siden og kan frit benyttes af enkeltpersoner til udredning.
Se mere om de enkelte test.

Tokeniser

CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer forbereder tekst til viderebehandling med andre programmer. Ofte kræver programmer til tekstanalyse nemlig at inputteksten er gemt på en helt bestemt måde, hvilket næsten altid indebærer at tekstfilen skal være fri for styretegn til layout og typografi, skal have et bestemt tegnsæt, samt at teksten er opdelt i tokens og eventuelt også i segmenter (sætninger, overskrifter og listepunkter). Ved opdelingen af teksten i tokens (tokenisering) adskiller man ord, tal, interpunktionstegn mm. med et mellemrum og samler evt. flerordforbindelser (fx i forhold til) til et token.

Prøv værktøjet