Institut for Nordiske Studier og Sprogvidenskab (NorS)

Danish Digitally Mediated Interaction (DanDIGI)

Sociale medier har i perioden siden årtusindskiftet markant ændret måden, vi bruger skriftsprog på i hverdagen. Digitalt medieret interaktion (også kaldet computer-mediated communication, CMC) er tæt integreret i vores sociale liv og danner grobund for nye udtryk såsom nye ord, alternativ stavning og tegnsætning, emojier og hashtags, og for at eksisterende sproglige konstruktioner bruges på nye måder.

Studier af digitalt medieret interaktion er derfor afgørende både for at forstå vores sociale liv i dagligdagen og for at generere og teste hypoteser om sprogforandring. Et af de interessante spørgsmål er, hvordan sprogbrugen påvirkes af de handlemuligheder (affordances), mediet stiller til rådighed, fx med hensyn til dialogicitet, opfattet formalitet og multimodale ressourcer.

Formål

DanDIGI-projektet har til formål at etablere et bredt sammensat tekstkorpus, som gør det muligt at benytte såvel kvantitative som kvalitative metoder i studier af sprogbrugen på sociale medier. Det vil sige dels korpuslingvistiske metoder, som søgninger efter sproglige strukturer og opstilling af konkordanser samt statistisk baserede sammenligninger af delkorpusser, dels nærsproglige analyser af sproglige strukturer i deres interaktionelle og multimodale kontekst.

Samtidig skal projektet danne grundlag for, at korpusset kan udvides med data fra andre projekter ved at grundlægge en solid digital infrastruktur.

Grundideen i DanDIGI er at udnytte og tilgængeliggøre datamateriale, som er indsamlet i forbindelse med andre projekter, herunder data indsamlet i forbindelse med forskningsprojekter tilknyttet Sprogforandringscentret. Ud fra det tilgængelige materiale udvælges data, sådan at korpusset bliver sammensat bredest muligt, både hvad angår typer af sociale medier og interaktionens karakter som offentlig, semi-offentlig eller privat.

Data

DanDIGI-korpusset udgøres for første meget store datamængder fra Reddit og Twitter som er tilgængeliggjort via andre projekter (se tabellen nedenfor), samt af indholdet fra samtlige fora under ”Ryttersnak” på www.heste-nettet.dk. For det andet udnyttes data indsamlet i forbindelse med forskningsprojekter tilknyttet Sprogforandringscentret: Projekt hverdagssprogning, Dialekt i periferien, og SoMeFamily-projektet. Dataene fra projekterne under Sprogforandringscentret består af interaktioner mellem folkeskole- og gymnasieelever, og i nogle tilfælde også deres forældre, fra København, Hirtshals, Bylderup og Nexø. De indsamlet i forbindelse med etnografisk feltarbejde, hvilket betyder at der er rige metadata om såvel deltagerne som konteksten. For en del af deltagerne har vi også lydoptagelser, hvoraf en del allerede er transskriberet og inkluderet i LANCHART-korpusset.

DanDIGI-projektets data

Medietype	Platform	Størrelse (tokens)	Periode	Kilde
Diskussions-forum	Reddit	67 mio.	2014-23	Academic Torrents (pushshift.io)
Diskussions-forum	Heste-Nettet	338 mio.	2000-24	DanDIGI
Social netværks-side	Twitter	21 mio.	2019-20	Gigaword ("General discussions")
Social netværks-side	Facebook	3 mio.	2011-19	Sprogforandrings-centret
Besked-tjeneste	Messenger	140.000	2015-19	Sprogforandrings-centret

Strukturering via TEI XML (Computer-mediated Communication)

For at kunne sammenligne sprogbrugen på tværs af medier og over tid er det afgørende at korpusset struktureres sådan at man kan søge og optælle i det på tværs af de forskellige platforme data er indsamlet fra, og på tværs af de projekter der oprindeligt har indsamlet dataene. Data fra sociale medier er meget komplekse, dels ved at være udpræget multimodale (de indeholder billeder, emojis, links mv.), dels ved at bestå af en blanding af brugergenererede bidrag og tekst genereret af platformene (dvs. diverse tidsangivelser, brugernavne, like-optællinger og lignende). De forskellige indholdstyper må derfor opmærkes for at de kan genkendes på tværs af medier og projekter.

DanDIGI-projektets start i 2024 faldt sammen med at det internationale TEI Consortium udgav retningslinjer for opmærkning af Computer-mediated Communication samt en udvidelse af den XML-baserede infrastruktur i form af et nyt CMC-modul med komponenter rettet mod opmærkning af korpusser med digitalt medieret interaktion. Denne udvidelse er resultat af et årelangt forsknings- og udviklingsarbejde i den såkaldte special interest group (SIG) for Computer-Mediated Communication.

DanDIGI er det første projekt der benytter sig af disse retningslinjer og XML-komponenter i etableringen af et korpus.

I interaktion på sociale medier er den grundlæggende enhed det enkelte brugeropslag. Dette opmærkes med XML-elementet post med attributter med metadata om typen af opslag (fx "fb-post"), hvor opslaget forekommer i trådens hierarkistruktur (vha. hierarkisk nummerering a la "1", "1.1", "1.2" osv.), hvilken bruger der har slået det op, og hvornår. Opmærkning skal desuden rumme metadata på højere niveauer, især proveniensoplysninger på korpus- og subkorpusniveau. TEI XML-standarden er designet til at rumme sådanne oplysninger i et hierarki af korpusser og dokumenter, og DanDIGI-korpusset er således indlejret i det følgende strukturelle hierarki, med relevante metadata på hvert niveau:

TEI-korpus: DanDIGI-korpusset
- TEI-subkorpora (sociale medietyper): sociale netværkssider, diskussionsfora, beskedtjenester
  - TEI-subkorpora (platforme): Facebook, Twitter, Heste-Nettet, Reddit, Messenger
    - TEI-subkorpora (kilde/projektlokation): Periferiprojektet-Bornholm, SoMe Family osv.
      - TEI-dokumenter (forum/gruppe/ profil): Bruger X’ Facebookprofil, Gruppe Y’s Messengergruppe osv.
        
        tekst-elementer (Hvert tekst-element indeholder en tråd af opslag)
        
        post-elementer (de enkelte opslag)

For en beskrivelse af struktureringen af DanDIGI-korpusset henvises til Diderichsen & Jensen (2025): DanDIGI – udvikling af et korpus med dansk digitalt medieret interaktion. MUDS 20: 125-143.

Pseudonymisering

Som en del af databehandlingen pseudonymiseres bruger- og personnavne ligesom billeder sløres da de i mange tilfælde udgør personoplysninger i GDPR-mæssig forstand. Af hensyn til muligheden for at bruge korpusset til forskellige former for interaktionsanalyse bevares facetter af de oprindelige navne og billeder dog i videst muligt omfang. Dette sker med henblik på at kunne tilbyde en kontekstvisning hvor billeder og navne så vidt muligt kalkerer de oprindelige, inkl. signaler om køn, alder, etnicitet m.m. Som et fiktivt eksempel ville personnavnet Tórunn Heinesen således fx kunne pseudonymiseres som Oddvør Herdal. Dette opnår vi ved at lade AI-modeller indsætte pseudonymer der ligner de oprindelige navne distributionelt, og AI-genererede billeder der ligner de oprindelige billeder visuelt (i øvrigt alt sammen udført lokalt med open source-modeller for at undgå at sende data via nettet til store udbydere af AI-services).

Tilgængeliggørelse

Da DanDIGI-korpusset er tænkt som infrastruktur for fremtidig forskning, dvs. en ressource som skal kunne bruges af mange personer, i forskellige øjemed og i lang tid fremover, følges FAIR-principperne for håndtering af forskningsdata (forskningsdatamanagement).

Data vil, i det omfang GDPR-reglerne tillader det, blive stillet til rådighed for forskere via Sprogforandringscentrets korpusinfrastruktur i løbet af 2026.

Etablering af DanDIGI-korpusset - workflow

Se DanDIGI-workflow-poster.

Finansiering

Carlsbergfondet (forskningsinfrastruktur, CF23-1008) / (digital forskningsinfrastruktur, CF25-11349)

Projektperiode: 1. maj 2024 – 30. april 2026 / 1. februar 2026 - 31. juli 2027

Projektleder: Lektor Torben Juel Jensen

Forskere

Navn	Titel	Telefon	E-mail
Andreas Candefors Stæhr	Lektor	+4535335747	E-mail
Philip Diderichsen	Specialkonsulent	+4535324189	E-mail
Tanya Karoli Christensen	Professor	+4535328493	E-mail
Torben Juel Jensen	Lektor	+4535328495	E-mail