Samtaler i korpusformat: Repræsentation af talesprog i LANCHARTs korpus-infrastruktur

Publikation: Bidrag til tidsskriftTidsskriftartikelfagfællebedømt

Dokumenter

  • Fulltext

    Forlagets udgivne version, 2,6 MB, PDF-dokument

LANCHART-korpusset udgøres dels af optagelser indsamlet i forbindelse med dialektologiske og sociolingvistiske projekter i 1960’erne, 1970'erne og 1980'erne, dels af optagelser af samtaler indsamlet af Sprogforandringscentret på Københavns Universitet mellem 2005 og 2015. Geografisk dækker korpusset en række lokaliteter bredt fordelt i Danmark samt danske udvandrersamfund i Argentina, Canada og USA. Korpusset er i TextGrid-format, hvilket muliggør en direkte kobling mellem transskriptionerne og lydoptagelserne samt fleksibel annotation af ord og længere tekstpassager. Korpusset er for nylig blevet relanceret i en ny søgeinfrastruktur baseret på Corpus Workbench (CWB) og den brugervenlige søgegrænseflade Korp, som udover hurtige og fleksible søgninger udmærker sig ved at være open source software der frit kan udvides med ny funktionalitet. Indlæsning af korpusdata i konkordansværktøjer som Korp kræver data i lineært format, hvilket medfører særlige problemstillinger i forhold til samtaledata, hvor der ofte forekommer overlap mellem talerne. I artiklen diskuterer vi disse problemstillinger og præsenterer vores løsning i form af en ny partiturvisning, der viser taledataene med lydsporet synkroniseret til transskriptionen.
OriginalsprogDansk
BogserieNordlyd
Vol/bind47
Udgave nummer2
Sider (fra-til)77–89
ISSN0332-7531
DOI
StatusUdgivet - 2023
BegivenhedNordisk Dialektologkonference: Struktur, ideologi og mangfald - UiT Campus Alta, Alta, Norge
Varighed: 15 aug. 202217 aug. 2022
Konferencens nummer: 12
https://uit.no/tavla/artikkel/730114/tolvte_nordiske_dialektologkonferansen

Konference

KonferenceNordisk Dialektologkonference
Nummer12
LokationUiT Campus Alta
LandNorge
ByAlta
Periode15/08/202217/08/2022
Internetadresse

ID: 346244263