Potpourri: Statistik #31

A FiveThirtyEight-inspired theme for ggplot2
Comparing ggplot2 and R Base Graphics
List of useful RStudio addins made by useRs
Creating a LOESS animation with gganimate
interplot: Plot the Effects of Variables in Interaction Terms
How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice
Stata Figure Schemes (+ update)
An unhealthy obsession with p-values is ruining science
Statistikere udsender sjælden form for advarsel
A reading list for the Replicability Crisis
Rock ‘n Poll
Jagten på den perfekte stikprøve
– Demystifying Box-and-whisker plots: Part 1, Part 2
Polipredict.dk: markedets forventninger til politiske begivenheder
Rbitrary Standards

Mistede Socialdemokraterne en fjerdedel af deres vælgere?

I slutningen af januar fik én bestemt meningsmåling opmærksomhed på alle sendeflader. Målingen viste, at Socialdemokraterne gik tilbage med syv procentpoint. Mere specifikt fra 26,3 procent til 19,3 procent. Meningsmåling blev foretaget af Megafon for TV2 og Politiken.

Syv procentpoint er meget. Mere end en fjerdedel af, hvad Socialdemokraterne stod til at få tilbage i november hos Megafon. Nyheden om at Socialdemokraterne gik tilbage med syv procentpoint fik af samme grund omtale hos blandt andre MetroXpress, Information, Ekstra Bladet, Berlingske, TV2 (igen), Fyens Stiftstidende, BT og sågar i udlandet. Hos Politiken valgte man at bruge anledningen til også at følge op med et par artikler omkring tallene bag vælgertabet og de sidste 20 års største vælgerskred.

Asger H. Nielsen, direktør for Megafon, udtalte til TV2, at han var 100% sikker på, at meningsmålingen var korrekt. De havde sågar lavet en såkaldt kontrolmåling, for at være sikker på, at målingen var valid. Med andre ord var selv Megafon overraskede over resultatet. Tallene fra målingen er som illustreret:

Det interessante ved målingen, og grunden til at journalister elsker målinger som den fra Megafon, er, at historierne står i kø for at blive fortalt. Politisk kommentator Søs Marie Serup får eksempelvis hele syv historier ud af målingen, herunder at “Dansk Folkeparti er Danmarks største parti. Succesen er ikke forbigående!”

Når der er så mange historier i én måling, altså så mange store forandringer, er der grund til at være ekstra skeptisk. Vi ved, at når én måling viser noget ekstremt, er sandsynligheden for, at det er korrekt, minimal. I forhold til den journalistiske dækning er det paradoksale, som jeg pointerede for nogle år siden i Berlingske, at de forkerte målinger netop er kendetegnet ved, at de får ekstra meget omtale.

Fredag, dagen efter Megafons måling var blevet præsenteret i 22 Nyhederne på TV 2, kom der en meningsmåling fra Greens for Børsen, der viste, at Socialdemokraterne ikke gik tilbage. Denne måling fik ikke lige så meget omtale som Megafons, men formåede dog heldigvis at blive dækket af blandt andre Jyllands-Posten, Information, Metroxpress og Berlingske.

Dette førte til nogen forvirring, og på den baggrund var jeg med i TV2 News fredag aften. Her havde jeg to pointer. For det første, at Megafons kontrolmåling ikke var nogen garanti for validiteten. Kontrolmålingen viste blot, at Megafon havde været i stand til at ramme det samme estimat to gange i træk, altså opbakningen til Socialdemokraterne, men ikke at man havde ramt bullseye. For det andet at man – som altid – bør være varsom med at tolke for meget ud af enkeltmålinger. Det er med andre ord vigtigt i situationer hvor én måling viser noget ekstremt, at være åben for det mulige scenarie, at kommende målinger ikke ville bekræfte de ekstreme tendenser, og i de fleste tilfælde decideret afkræfte dem.

Samme dag blev det meldt ud fra Megafon, at man var fagligt inkompetent, hvis man ikke kunne se forskellene på Greens og Megafons målinger. Mandag den 1. februar gav Martin Vinæs Larsen fra Københavns Universitet fem grunde til, at man skulle tvivle på Megafons måling, og Megafons direktør, Asger H. Nielsen, gav fire grunde til at tro på Megafons måling.

Den ugentlige Voxmeter-måling, også fra om mandagen, viste, at der ikke var noget, der tydede på, at Socialdemokraterne gik tilbage. Voxmeter-målingen, der bliver foretaget for Ritzau, fik omtale hos BT, Fyens Stiftstidende og Politiken. Det interessante er, at til trods for at nogle medier dækkede både Greens og Voxmeters målinger, kom de ikke i nærheden af at få lige så meget omtale som Megafons måling, og slet ikke på print og i TV. Dette skyldes blandt andet, at det er nemmere at skrive opfølgende historier, der bygger på forandring. Det er nemmere at få en kommentar fra et utilfreds S-bagland, når Socialdemokraterne går tilbage, end det er at få en kommentar, når der ikke er sket noget som helst.

Megafon plejer at gennemføre en meningsmåling i slutningen af hver måned, men i februar, mere specifikt torsdag den 11. februar, kom der en ny måling, hvor Socialdemokraterne af uransaglige årsager går frem. Dette på trods af diskussioner omkring intern uro i partiet, blandt andet affødt af den ekstreme måling fra Megafon.

Siden da har vi set endnu en måling fra Megafon, der viser, at Socialdemokraterne ligger på omkring de 24 procent, som de har gjort i flere måneder. Det samme mønster, bare uden en ekstrem måling, finder man i hos de andre analyseinstitutter. I lørdags (den 5. marts) havde jeg derfor en analyse i Politiken, der inkluderede nedenstående figur:

I analysen, der ikke er online, skriver jeg således om de efterfølgende målinger og formidlingen af dem:

Når det gælder Megafon, er det især instituttets efterfølgende målinger, der er interessante. Her får Socialdemokraterne, af uransagelige årsager, et opsving i begge målinger. Det bedste gæt er, at det blot er en langsom tilbagevenden til den reelle opbakning, som partiet har, og som alle andre meningsmålinger viser.

Det triste er så, at landets journalister ikke har dedikeret lige så megen tid til at formidle lige netop disse aspekter. Der er med andre ord en klar asymmetri, der gør det svært at dræbe myter om store partivandringer. Når én meningsmåling viser noget ekstremt, får den masser af opmærksomhed, men når forudgående og efterfølgende meningsmålinger afkræfter den pågældende måling, er journalisterne med få undtagelser tavse.

Her står vi så: Det har ingen konsekvenser, når journalisterne går i selvsving i forbindelse med en ekstrem måling. Medierne, såvel som analyseinstitutterne, har endda klare incitamenter til at skabe så meget omtale som muligt, uafhængigt af, om en meningsmålingen så ellers er korrekt.

Megafon fik masser af omtale, og alle – med undtagelse af et par politologer, der går op i meningsmålinger – har glemt alt om målingen. Tilbage er der blot at vente på den næste ekstreme måling, der kan rydde sendefladen. Vi har set det før, vi har set det igen med Megafons måling, og vi kommer til at se det igen. Desværre.

Potpourri: Statistik #30

Measures of Political Behavior
The Amazing Significo: why researchers need to understand poker
How to create confounders with regression: a lesson from causal inference
Meta-analyses are no substitute for registered replications: a skeptical perspective on religious priming
fifty million frenchmen can eat it
Understanding Bayes: How to become a Bayesian in eight easy steps
A Variant on “Statistically Controlling for Confounding Constructs is Harder than you Think”
Effect stability: (1) Two-group, three-group, and interaction designs
Effect stability: (2) Simple mediation designs

Konflikten mellem Lars Løkke og Søren Pape

Talte forleden med en journalist fra Kristeligt Dagblad. Det kom der en artikel ud af, der kan findes her såvel som i torsdagens avis. Emnet var konflikten mellem regeringen og de Konservative, personificeret ved Lars Løkke Rasmussen og Søren Pape Poulsen. Pointen i artiklen er, at konflikten kan forstås med relativt simpel spilteori.

Er meningsmålinger om terrorfrygt væsentlige?

I en klumme i Information skriver klummeskribent Lasse Jensen, at meningsmålinger ofte er igangsat på baggrund af et fravær af journalistiske ideer. Han indleder således sin klumme med ordene: “Hvad skulle mange såkaldt toneangivende medier gøre uden meningsmålinger? Svaret er meget enkelt: De ville være tvunget til at lave rigtig journalistik!” Underforstået, at meningsmålinger ikke handler om rigtig journalistik.

Til at illustrere dette tager klummeskribenten udgangspunkt i en meningsmåling Megafon lavede for TV2 og Politiken i forbindelse med etårsdagen for terrorangrebet i København (i Krudttønden og synagogen i Krystalgade). Her formuleres kritikken af Megafons måling som følger:

Den ene måling fastslog i Politiken, at »knap seks ud af 10 danskere forventer et nyt terrorangreb«. Altså 60 procent. Det er mange, og målingen afstedkom da også et langt indslag i DR’s 21 Søndag, hvor der heldigvis var en forsker, der mente, at »risikoen for at blive ramt af et terrorangreb er lige så stor som risikoen for at blive ramt af en meteorit«. Da et andet analysebureau, YouGov, lavede den samme undersøgelse for MetroXpress lige efter tragedien i Krudttønden og synagogen, var frygttallet 53 procent. Det faldt dog til 38 procent på to måneder ifølge en ny måling i maj 2015. Der er gået 10 måneder uden terror i Danmark, men frygten er altså voldsomt forøget ifølge Megafon. Det har ingen sat spørgsmålstegn ved.

Der er flere ting galt her. Jeg elsker at kritisere meningsmålinger lige så meget som alle andre, men den kritik klummeskribenten retter er meningsløs og udstiller blot en manglende evne til at forholde sig kritisk til forskellige meningsmålinger og journalisternes brug af meningsmålinger.

For det første var det ganske enkelt ikke Megafons måling, der afstedkom et indslag i DRs 21 Søndag. Det var derimod en meningsmåling, som DR selv fik lavet af Epinion. De to meningsmålinger vedrører to forskellige spørgsmål. Epinions handler om, hvorvidt frygten for terror er steget i løbet af det seneste år, og Megafons handler om frygten for, at et nyt terrorangreb vil finde sted inden for det næste år.

For det andet påstår ingen, at frygten er voldsomt forøget. Tværtimod nævner journalisten fra Politiken blot, at terrorfrygten ikke er faldet væsentligt. Det giver i denne sammenhæng ingen mening at begynde at sammenligne en meningsmåling fra YouGov med en fra Megafon, uden også at kigge nærmere på, hvem der er spurgt, hvilke spørgsmål der er stillet, hvilke svarmuligheder der er givet og så videre. Det er med andre ord ingen selvfølge, at Megafon og YouGov har lavet den samme undersøgelse.

Megafon har på forskellige tidspunkter over de seneste 15 år stillet spørgsmålet “Anser du det for sandsynligt, at Danmark bliver udsat for et terrorangreb inden for det næste år?”. YouGov har spurgt “Tror du, at der kommer terrorangreb i Danmark i år?”. Spørgsmålene er forskellige, og det er svarmulighederne også. Hos Politiken er de 58 procent (altså næsten 6 ud af 10), den andel der har svaret ‘meget sandsynligt’ eller ’sandsynligt’, hvor det hos YouGov er andelen, der har svaret ja til et simpelt ja/nej-spørgsmål. Det ville være en journalistisk katastrofe at antage, at de to tal er direkte sammenlignelige, så intet under, at ingen har gjort det.

Hvis man virkelig gerne ville undersøge tendenserne over tid, giver det bedre mening at sammenligne Megafon over tid og YouGov over tid. Dette er da også muligt for sidstnævnte, da YouGov, også i forbindelse med etårsdagen for terrorangrebet, lavede endnu en måling. Fortællingen her er konsistent med fortællingen hos Politiken og DR, netop at mange danskere frygter terror.

Vi er så tilbage til udgangspunktet for klummen, eller som Lasse Jensen afslutter sin klumme: “Det er altid fascinerende at høre, hvad ’danskerne’ mener. Spørgsmålet er, om det er væsentligt?” Det er selvfølgelig ikke noget spørgsmål, der er et klart svar på, men jeg vil mene, at det er et legitimt synspunkt, at det selvfølgelig giver mening for medierne, at belyse danskernes terrorfrygt. Det er netop – som forskerne pointerer og medierne formidler – på mange måder en dybt irrationel frygt, som da om noget er relevant at belyse. Tilføj endvidere det forhold, at en eventuel frygt for terror har væsentlige implikationer for den politik der føres – fra asylpolitik til sessionslogning.

Meningsmålinger er et vigtigt redskab for journalister (og for at sætte det lidt på spidsen: for demokratiet), men de taler aldrig for sig selv, hvorfor de også fordrer, at journalisterne kan placere dem i deres retmæssige kontekst. Det er – som de fleste ved – vigtigt at forholde sig kritisk til meningsmålingerne og journalisternes formidling af dem, men det er for letkøbt blot at affeje meningsmålingernes værdi med, at de ikke er ‘rigtig’ journalistik, hvad pokker det så end er.

Er statskundskabsstuderende de mest kæphøje?

Hos Berlingske kan man læse, at studerende der læser Statskundskab, er de mest kæphøje: “Selvtillid er godt, men selvfedme er bedre. Det ser ud til at være mottoet for i hvert fald et udsnit af statskundskabsstuderende i et stort videnskabeligt forsøg, der har undersøgt graden af selvovervurdering hos studerende”. Det omtalte studie kan ligeledes findes omtalt hos blandt andre Videnskab.dk, der skriver: “Dem, der overvurderer deres egen præstation allermest, er de statskundskabsstuderende”.

Studiet, der bærer titlen Overconfidence and Career Choice og er publiceret i PLOS ONE, bygger på data fra 711 førsteårsstuderende i Schweiz. I forsøget blev de studerende stillet en række faglige spørgsmål relateret til årstallet for bestemte begivenheder. Efterfølgende blev de studerende spurgt om, hvordan de selv syntes, de havde klaret sig. Jo større diskrepans mellem faktisk og opfattet kunnen, desto mere havde den studerende overvurderet sine evner (eller undervurderet, hvis den studerende troede, at vedkommende havde klaret sig dårligere, end tilfældet var). Hovedresultaterne fra studiet er at finde i Figur 1 i artiklen, hvor gennemsnitsovervurderingen er vist for de respektive uddannelser:

Da jeg så ovenstående figur tænkte jeg, at til trods for at Berlingske kalder det for et “stort videnskabeligt forsøg”, er et trecifret antal forsøgspersoner ikke ret meget, når man har ni forskellige grupper, inden for hvilke der må forventes at være en høj grad af heterogenitet i, hvor meget de studerende overvurderer egne evner. Derfor reproducerede jeg figuren fra artiklen, men tilføjede en ekstra feature: 95% konfidensintervaller.

Som det kan ses, er der intet der tyder på, at statskundskabsstuderende grundlæggende set overvurderer egne evner mere end andre studerende (eller med andre ord er mere kæphøje). Overordnet set er der intet der tyder på, at der er nogle signifikante forskelle for langt de fleste af uddannelsesgrupperne.

Som Berlingske også nævner, skal man dog også være varsom med at drage konklusioner i forhold til de studerende i andre lande. Også selvom der ikke rigtigt er noget at konkludere. Det er ikke sikkert, at “resultaterne” kan generaliseres til andre studerende (heller ikke andre studerende i Schweiz). Det kan desuden være svært at sammenligne statskundskabere i forskellige lande, især fordi relationen mellem uddannelse og arbejdsmarked varierer betydeligt på tværs af lande.

Det ændrer dog selvfølgelig ikke på, at det altid er sjovt at placere statskundskabere i kasser, og mon ikke de fleste statskundskabere tager det som en kompliment, at blive kaldt for kæphøj.

Anmeldelse: Fup, fejl og fordrejninger

Det meste af det der skrives i medierne er sandfærdigt og ædrueligt, men der formidles også en væsentlig mængde bullshit. Dette stiller store krav til læserne, der skal skelne mellem skidt og kanel. En af konsekvenserne heraf er, at vi over de senere år har set, at der er et kommet en øget efterspørgsel efter et ganske basalt journalistisk produkt: Faktatjek.

For nogle år siden nedfældede jeg et par overvejelser omkring selve faktatjek-formatet, og med enkelte undtagelser indfanger de rammende det perspektiv, jeg stadig har på formatet. Overordnet har faktatjek en forebyggende og korrigerende opgave. Førstnævnte ved at de der udtaler sig i medierne, tænker sig om en ekstra gang, før de skyder udokumenterede påstande ud i æteren. Sidstnævnte ved at stille de mennesker til ansvar, der – bevidst eller ubevidst – taler usandt.

I Danmark associeres faktatjek i overvejende grad med DRs Detektor, der begyndte som en radioudsendelse på DR1 i 2011 og senere samme år fik sin TV-debut på DR2. Programmet er personificeret ved journalisten Thomas Buch Andersen, der interviewer fagfolk såvel som de personer, der i de bedste tilfælde har haft et lemfældigt forhold til sandheden – og i de værste tilfælde et løgnagtigt forhold. Dette er der også kommet en bog ud af, der bærer titlen Fup, fejl og fordrejninger: Bliv din egen detektor, og er skrevet af nævnte Thomas Buch Andersen samt Mads Bøgh Johansen. Sidstnævnte er tidligere redaktør på Detektor på P1.

Bogen er, som undertitlen indikerer, skrevet med det formål, at gøre læseren mere kritisk i forhold til de fakta, man præsenteres for i medierne. Der beskrives i bogens indledning tre grunde til, at der nu – mere end nogensinde før – er brug for faktatjek, og derfor også en (praktisk) bog om emnet. For det første er debatterne i medierne (herunder også de sociale medier) blevet skarpere, hvor forskellige parter refererer til forskellige fakta. For det andet er der kommet flere nyheder på flere platforme i et øget tempo – og altså flere fakta, man som medieforbruger skal forholde sig til. For det tredje er der i dag lige så mange folk, der arbejder med presse og kommunikation, som der er journalister, og som der skrives i bogen: “Der er altså lige så mange, der er ansat til at få os til at acceptere et særligt billede af virkeligheden, som der er til ideelt at nuancere og tjekke den.” (side 18)

Udgangspunktet for bogen er godt: Det handler ikke om at pege fingre. Der er en klar erkendelse af, at “de eneste, der ikke laver fejl, er dem, der ikke laver noget” (side 15). Det er menneskeligt at fejle, og faktatjek tjener et dybere formål end at udstille folk, der har lavet en fejl. Det handler om faktuelle påstande, ikke personer. Dette illustreres rammende med et eksempel, hvor Detektor selv tog fejl i en sag, og pointerer, at man vitterligt skal forholde sig kritisk til alt.

Bogen er bygget op omkring en række kapitler, der hver især introducerer nogle nøglebegreber. Strukturen i bogens respektive kapitler er identisk, hvor der gives en lang række af eksempler på påstande, der af forskellige grunde var forkerte, og en beskrivelse af, hvad der overordnet går galt i disse eksempler. Kapitlerne indeholder så forskellige spørgsmål i punktform, man som læser kan applicere på nyheder og analyser, når man skal være “sin egen detektor”. Disse fremstår dog i de fleste tilfælde mere som en gentagelse af det man lige har læst, og i nogle tilfælde gentagelser fra andre kapitler, som når der eksempelvis spørges “Hvad er det egentlig, der er talt op?” (side 34) og “Hvordan er tallet opgjort?” (side 48).

Disse spørgsmål, der skal sætte ord på de kritiske refleksioner, man som læser bør gøre sig, fungerer dog bedre i teorien end i praksis. I de bedste tilfælde formår de at opsummere og gentage en vigtig pointe, men ellers er der blot tale om overflødigt indhold. I de værste tilfælde er spørgsmålene så generelle og vage, at de i bund og grund spørger “Er der noget galt her?”. Dette ser man eksempelvis i relation til cherry-picking, hvor et af spørgsmålene er “Er det det fulde billede, der her er tegnet?” (side 76). Well, det er jo gerne det, nogle guidelines bør kunne hjælpe læseren med at besvare.

Det er dog ikke kun de anbefalede spørgsmål, der ikke tjener andet formål end at fylde siderne ud. Mellem hvert kapitel er der et par sider med ligegyldige overvejelser fra politikere og andre aktører, der tager del i den offentlige debat. Her kommer de med deres tanker, overvejelser, frustrationer, ros og så videre i relation til Detektor og journalistisk faktatjek. Dette bidrager absolut ikke med noget og kan ignoreres uden noget indholdstab.

Dette betyder dog ikke, at bogen ikke lykkedes med sin ambition om at hjælpe læseren med at blive “sin egen detektor”. Dette sker dog på trods af – snarere end på grund af – de anbefalede spørgsmål. Dette bringer os til styrken ved bogen: Det enorme materiale af historier, der er at trække på. Programmet har kørt i flere år, og der er talrige eksempler i bogen, der ingenlunde er tilfældigt udvalgt, men blandt de gode eksempler, der for de fleste læsere vil være ikke alene lærerig men også sjov læsning. Implikationen og ulempen er omvendt, at hvis man har været en stor tilhænger af både Detektor på radio og i TV, er der ikke meget nyt under solen her, der gør bogen værd at bruge tid på, hvis man ser bort fra genkendelsens glæde og en mere systematisk kategorisering af mange af eksemplerne.

Til trods for at langt størstedelen af eksemplerne er velvalgte, er især de eksempler, der formår at beskrive processen fra vidensproduktion til mediernes dagsorden, blandt de bedste. Dette er ofte historier om, hvordan en fjer bliver til fem høns. Hvordan et tal tages ud af en kontekst, får fjernet alle forbehold, bliver mistolket og ellers brugt efter forgodtbefindende, af de aktører, der har en klar interesse heri. Disse eksempler illustrerer rammende, hvor mange forskellige steder i en proces, at viden kan blive misforstået, mistolket og misbrugt.

Omvendt formår “Fup, fejl og fordrejninger” ikke rigtigt at hæve sig over eksemplernes individuelle styrker. Det er med andre ord de enkelte historier og eksempler, der giver læseren et indblik i, hvorfor man skal være kritisk (ligesom Detektor-udsendelserne), snarere end de generelle overvejelser omkring den journalistiske praksis. Et eksempel på dette er at finde på side 45, hvor følgende lovmæssighed overvejes: “Der synes nærmest at være den sammenhæng, at jo større det journalistiske behov for at forenkle er – nogle gange ned til et enkelt tal – jo mere kompleks og nuanceret er sagen.” (side 45). Dette er korrekt, og vel nærmest en selvfølge, hvorfor det også bliver en letkøbt kritik af den måde, journalister arbejder på, der ikke formår at anerkende – og derved tage udgangspunkt i – de journalistiske valg, der til hver en tid og altid skal træffes. Journalister skal altid forsimple virkeligheden (og nogle gange formidle den med blot enkle tal). Dette kan man gøre på måder, der er bedre end andre, og her ville det være at foretrække, hvis bogen – såfremt den vitterlig ønsker at berøre disse generelle aspekter – var mere eksplicit i sin diskussion, end blot at koge den ned til, at journalister forsimpler en kompliceret virkelighed (og at det sker i højere grad, når virkeligheden er særdeles kompliceret).

Nuvel, der er ikke tale om et videnskabeligt værk, men en bog der er skrevet med henblik på, at blive læst af andre/nogen. Dette ændrer dog ikke på, at det ville styrke bogen, havde den haft langt flere referencer. Der er noget ironisk ved at en bog, der skal vække læserens lyst til at dykke ned i rapporter, undersøge tal og så videre, ikke har så meget som én henvisning, til de udsendelser eller undersøgelser (herunder videnskabelige tidsskriftsartikler), der refereres til. Igen: der er ikke tale om et videnskabeligt stykke arbejde med dertilhørende krav om referencer, men når man eksempelvis fortæller om et videnskabeligt studie af Oscar-vinderes levetid, der ikke tog højde for en immortal time bias, ville det være perfekt, hvis de forskere, der oprindeligt formulerede denne kritik af studiet, blev krediteret.

Overordnet ændrer de kritiske indvendinger dog ikke på, at bogen varmt kan anbefales til de læsere, der går op i journalistik, medier og faktatjek. Dette være sig lige fra universitetsstuderende til journalister, hvor den især blandt sidstnævnte gruppe bør være pligtlæsning, så sandsynligheden for, at der er materiale nok til en toer af nærværende bog, formindskes.

Hvilken effekt har facebook på brugernes lykke?

En stor andel af den danske befolkning bruger facebook. Hvilke implikationer har det, at man bruger facebook? Bliver man mere lykkelig af at have en bruger på facebook? Eller ulykkelig? Dette er relevante spørgsmål, men det er også spørgsmål, der er vanskelige at besvare. Dette fordi det på ingen måde er tilfældigt, hvem der bruger facebook, hvorfor vi ikke bare kan sammenligne personer, der bruger facebook, med personer der ikke bruger facebook.

For at belyse disse spørgsmål har Institut for Lykkeforskning derfor gennemført et eksperiment, hvor de ønsker at belyse følgende: “Hvordan påvirker sociale medier vores livskvalitet? Vi laver ofte sociale sammenligninger. Hvordan klarer jeg mig sammenlignet med andre? Derfor kan en konstant strøm af nyheder om brylluper, eksotiske rejser og fede jobs i New York påvirke hvordan vi evaluerer vores liv. Det undersøgte vi i et eksperiment med over 1000 danskere.” Rapporten konkluderer, at facebook gør brugerne ulykkelige, fordi vi bruger facebook til at lave sociale sammenligninger. Det vil med andre ord sige, at når jeg bliver eksponeret for andre brugeres positive oplevelser, er jeg mere tilbøjelig til at evaluere mit eget liv negativt.

Eksperimentet er bygget op således, at folk der alle bruger facebook er tilfældigt inddelt i to forskellige grupper. En (kontrol)gruppe skulle fortsætte med at bruge facebook, og en (stimuli)gruppe skulle stoppe med at bruge facebook. Forsøgsdeltagerne blev forud for den tilfældige inddeling spurgt omkring en lang række forhold, herunder hvor tilfredse de var med livet. Forsøget er bygget op som illustreret i rapporten:

Eksperimentet finder signifikante effekter på en lang række af forskellige afhængige variable (det er værd at huske på, at jo flere afhængige variable et studie inkluderer, desto større er sandsynligheden for, at man vil finde som minimum én variabel, hvor der er en signifikant forskel). Som det eksempelvis vises i rapporten, bliver stimuligruppen, altså den gruppe der stoppede med at bruge facebook, mere tilfredse med deres liv:

Lad os se bort fra det faktum, at y-aksen ikke begynder ved nulpunktet, hvorfor det ligner, at effekterne er større, end de er, da effekterne til trods for dette er substantielt interessante. Det er heller ikke uden grund, at dette resultat har fået omtale i flere danske medier som Politiken, Berlingske, Ekstra Bladet, DR2 og TV2 såvel som i udlandet (se eksempelvis her, her, her, her, her og her).

Der er dog grunde til, at jeg ikke tror på de effekter, der er rapporteret i studiet og formidlet i medierne. Teoretisk tror jeg ikke på, at “sociale sammmenligninger”, altså andres positive oplevelser, fører til, at man evaluerer sit eget liv mere negativt. For det første er der studier, der tyder på, at det modsatte er tilfældet1. For det andet er der intet i studiet, der indikerer, at det er en sådan mekanisme, der fører til signifikante forskelle mellem grupperne.

Hvad tror jeg så på, kan være grunden til, at eksperimentet finder de pågældende effekter? For det første det faktum, at forsøgsdeltagerne selv valgte at være med i et eksperiment, der skulle undersøge, om det at droppe facebook ville gøre dem lykkelige. Det vil sige, at forsøgsdeltagerne vidste, at de var med i et eksperiment, og de vidste, om de var placeret i kontrol- eller stimuligruppen. Nedenstående viser således den tekst, man som forsøgsdeltager først blev vist, da de skulle besvare spørgeskemaet:

Det handler dog ikke alene om, at forsøgsdeltagerne var informeret om, at de deltog i “Facebook-eksperimentet”, men at de valgte netop at være med i et eksperiment, hvor stimuli var ikke at bruge facebook i en uge. Hvorfor er dette af betydning for effekterne? Fordi det ikke længere er tilfældigt, hvem der deltager i forsøget og hvem der fuldfører det. Hvis du tilmelder dig et forsøg, der handler om, at du ikke vil bruge facebook, er du nok den type, der kan forestille dig, at den slags initiativer vil være sjove at deltage i. Dem der ikke tilmelder sig, vil omvendt være dem, der ikke kan forestille sig, at der kommer noget godt ud af, at droppe facebook i en uge.

Dette bliver ikke bedre af, at der før eksperimentet blev iværksat, blev informeret offentligt om, hvad eksperimentet ønskede at komme frem til. Således havde Politiken en artikel før eksperimentet blev iværksat med titlen “Lykkeforskere søger testpersoner: Gør Facebook os lykkelige?”, hvor hypotesen bliver fremstillet af en af personerne bag studiet: “Det har en effekt, når alle vores venner bliver gift, får fede jobs i New York og viser det hele frem på Facebook, mens jeg sidder hjemme og spiser rester. Det betyder noget for os at blive disponeret for de her ting på de sociale medier.” Med andre ord er deltagerne ikke alene vidende om, hvad forsøget handler om, men også hvilke forventninger, forskerne har til forsøgsdeltagerne (og det forhold at der angiveligt er en effekt).

Det korte af det lange er, at folkene bag eksperimentet her gør alt hvad de kan for, bevidst eller ubevidst, at få en effekt af deres stimuli. Det interessante er videre at overveje, hvordan man som forsøgsperson vil agere, når man glædeligt tilmelder sig et eksperiment, hvor man skal droppe facebook i en uge, men så får at vide, at man er endt i kontrolgruppen, og bare skal fortsætte med at bruge facebook. I dette studie havde det to implikationer, der begge gør, at eksperimentet fejler. For det første valgte flere i kontrolgruppen også at bruge facebook mindre i den pågældende uge2. For det andet valgte flere i kontrolgruppen at sige “Fuck it, I’m outta here“. Frafaldsprocenten i kontrolgruppen var således 26 procent, hvilket vil sige, at en fjerdedel af alle dem, der fik at vide, at de bare skulle fortsætte med at bruge facebook, ikke valgte at deltage i resten af eksperimentet3.

For at opsummere står vi derfor tilbage med en gruppe, der forventer, at de vil blive mere glade af ikke at bruge facebook i en uge. Selv hvis vi antager, at der ikke var problemer med skævheder mellem kontrol- og stimuligruppe, vil de andre forbehold gøre, at ingen af de rapporterede estimater er pålidelige.

Der er forskellige måder at adressere ovenstående problematiske aspekter på. Det første vil selvfølgelig være at undgå disse aspekter i designet af studiet, herunder ved at de rekrutterede forsøgsdeltagere ikke bliver informeret om, hvorfor de er med i studiet (eller ligefrem tilmelder sig med henblik på ikke at bruge facebook). I forlængelse heraf vil det også være fornuftigt, ikke at informere forsøgspersonerne om, hvilke hypoteser man har.

Hvis vi antager, at problemerne ikke var betydelige, var der statistiske løsninger på udfordringerne4. De rapporterede effekter er ikke effekterne af ikke at bruge facebook, men effekten af at få at vide, at man ikke skal bruge facebook5. Her kunne man bruge en instrumentel variabel-tilgang, altså anse ens stimuli som et instrument6. En sådan tilgang ville give et mindre skævt estimat af det eksperimentelle stimuli.

For at konkludere er jeg ikke overbevist om, at facebook gør folk mindre lykkelige. Det er interessant med denne slags studier, men man skal være meget varsom med at drage for store konklusioner – og formidle det ukritisk. Rapporten giver ikke mange informationer, og i stedet for at sige, at det giver journalisterne en grund til ukritisk at formidle den information, de så har til rådighed, burde de indhente betydeligt flere informationer, der kan belyse nogle af de åbenlyse svagheder, der er forbundet med et studie som dette. Dette er ligeledes en pointe
Kresten Roland Johansen har bragt i forbindelse med nærværende eksperiment: “Undersøgelsen er interessant. Og der kommer sikkert endnu mere interessante opfølgende undersøgelser. Gerne med lidt større detaljeringsgrad og metodeformidling i både afrapportering og den journalistiske formidling.”

  1. Se evt. Kramer et al. (2014), hvor forskere manipulerede med brugernes News Feed. []
  2. Man kan indvende, at dette blot vil føre til, at man underestimerer den gennemsnitlige treatment effekt, men der er intet der taler for, at man overhovedet vil være i nærheden af et sandt estimat, når designet introducerer så fundamentale fejlkilder. []
  3. Til sammenligning valgte omkring en tiendedel (12%) i stimuligruppen at hoppe fra. []
  4. Husk: “You can’t fix by analysis what you bungled by design“ []
  5. Med andre ord er det en intention-to-treat analyse. []
  6. Paul Rosenbaum (2002, 131f) beskriver et instrument som følger: “An instrument is a random nudge to accept a treatment, where the nudge may or may not induce acceptance of the treatment, and the nudge can affect the outcome only if it does succeed in inducing acceptance of the treatment. […] In an encouragement design, the experimenter hopes that encouraged individuals will accept the treatment and individuals who are not encouraged will decline the treatment; however, some individuals may in fact decline the treatment despite encouragement, and others may take the treatment in the absence of encouragement.” []

Artikel i British Journal of Political Science: Media Content and Political Behavior in Observational Research

Har sammen med Zoltan Fazekas en artikel i det nye nummer af British Journal of Political Science (46, 1). Artiklen bærer titlen “Media Content and Political Behavior in Observational Research: A Critical Assessment” og kan findes her. Reproduktionsmaterialet kan findes på Harvard Dataverse.