Stamtræer og digitalisering af etymologiske ordbøger

Aktivitet: Tale eller præsentation - typerForedrag og mundtlige bidrag

Dokumenter

Links

Sean Douglas Vrieland - Oplægsholder

Inden for den sammenlignede sprogvidenskab bruges stamtræmodellen til at vise, hvor- dan beslægtede sprog kan opdeles i grupper, og hvordan de har udviklet sig fra et enkelt ursprog. Forskere inden for denne slags sprogvidenskab bruger mange forskellige ord- bøger, især etymologiske ordbøger, som forklarer ordenes etymologi i prosa på mange forskellige måder. Mens én slags ordbøger følger et nuværende ord tilbage i tiden til dets oprindelse i ursproget, begynder den anden med et etymon i ursproget og nævner derefter dets efterkommere.

Ved digitalisering af trykte ordbøger findes der stadig ingen standard for kodning af etymologier, som kan bibeholde bogens format og samtidig indkode ordformerne efter en stamtræmodel.

I dette foredrag foreslår jeg en løsning på dette problem i formen af en udvidelse af TEI P5 (TEI 2014), en norm for XML-kodning, der ifølge Crist (2005, 2) er “adequa- te...in a dictionary intended for human consumption”, men som har “no special pro- cessing of etymological data...beyond lookup and presentation”. Når jeg bruger TEI i stedet for en anden kodningsnorm, er det af fire grunde: (1) TEI blev udviklet som en standard for kodning af tekster, både trykte og håndskrevne, som også kan bruges til di- gitalt udviklede (“born digital” TEI 2014, xvi) tekster; (2) TEI indeholder metoder til at bibeholde tekstens format og samtidig indkode metadata i XML; (3) TEI-format giver mulighed for integration med andre TEI-indkodede tekster, f.eks. digitaliserede hånd- skrifter; og (4) XML giver mulighed for rekursiv nesting, som kan bruges til opbygning af stamtræer.

Jeg foreslår at indføre XML-elementet <etymon>, som kan nestes rekursivt, således at dattersprog placeres som datterelement i XML, og XML derfor kan opbygges lige som stamtræet, f.ex.:

<etymon xml:lang="gmq"> <etymon xml:lang="non">kné <etymon xml:lang="dan">knæ</etymon> <etymon xml:lang="sv">knä</etymon> </etymon> <etymon xml:lang="ang">cnēo(w) <etymon xml:lang="en">knee</etymon> </etymon> </etymon>

Dette element vil kunne indholde andre TEI-elementer som <w> til ordformen selv, <gram> til ordets grammatiske funktioner, eller <def> til dets betydning. Andre mu- ligheder for <etymon> er XML-attributes såsom @type, hvori man kan skelne arveord (@type="inherited") eller låneord (@type="borrowed"). Disse elementer kan pla- ceres i <etym>-afsnittet, og kan på denne måde løse problemet beskrevet i TEI (2014, §9.3.4): “variation in structure makes it impracticable to define tags which capture the entire intellectual structure of the etymology or record the precise interrelation of all the words mentioned.” 

20 maj 2015

Begivenhed (Konference)

TitelKonference om Leksikografi i Norden
Forkortet titelLeksikografi i Norden
Dato20/05/201522/05/2015
AfholdelsesstedKøbenhavns Universitet
ByKøbenhavn
Land/OmrådeDanmark

Antal downloads er baseret på statistik fra Google Scholar og www.ku.dk

Ingen data tilgængelig

ID: 141695463