Potpourri: Statistik #22

Power naps: When do within-subject comparisons help vs. hurt (yes, hurt) power?
Communicating Experimental Results with R
Two proposals for incentivizing data archiving
Graphical Data Analysis with R
Understanding the t-distribution and its normal approximation: an interactive visualization
Sluggish data sharing hampers reproducibility effort
Self Evaluation for Reproducible Science
Open Science and Reproducible Badges
Introduction to Open Science: Why data versioning and data care practices are key for science and social science

Blev meningsmålingerne valgets taber?

Flere steder kan man læse, at meningsmålingerne blev valgets store taber. Troels Mylenberg spørger således retorisk, om medierne mon kan kræve sine penge retur fra meningsmålingsinstitutterne. Det der især har overrasket folk er, at det angiveligt ikke blev så tæt et valg, som vi havde forventet. Blå blok fik som bekendt 52,3 procent af stemmerne, hvilket var betydeligt mere end 50 procent, og efter alle stemmerne var talt op, stod det fast, at 165.000 stemmer adskilte rød og blå blok. Ved folketingsvalget i 2011 var dette tal kun 8.000. Så meget for et tæt valg.

Kigger vi på hvordan den blå blok lå i meningsmålingerne ser vi dog, at meningsmålingerne slet ikke klarede det så dårligt. Nedenstående figur viser opbakningen til blå blok i løbet af valgkampen hos de seks mest aktive analyseinstitutter, hvor valgresultatet er markeret med en cirkel. Som det kan ses klarede de fleste analyseinstitutter sig ganske fint, når man tager højde for den statistiske usikkerhed.

Der er dog ingen analyseinstitutter, der skyder blå blok til at få flere stemmer, end de fik (men et par af institutterne gjorde for et par dage siden). Kigger vi nærmere på de enkelte partier i blå blok, kan vi da også se, at Dansk Folkeparti endte med et bedre valgresultat, end de fleste analyseinstitutter forventede. Nedenstående figur viser, at analyseinstitutterne undervurderede Dansk Folkepartis opbakning på valgdagen. Der kan være flere forklaringer på dette, men det skyldes nok især, at mange først giver udtryk for, at de stemmer på Dansk Folkeparti, når de står i stemmeboksen. Institutterne forsøger at tage højde for sådanne aspekter, men som det kan ses, er det ikke altid nemt.

For de andre partier i blå blok var der ingen nævneværdige overraskelser på valgdagen. Kigger vi eksempelvis nærmere på de Konservative, som nedenstående figur viser, ser vi, at de fleste institutter havde held med at ramme valgresultatet for det mindste parti i Folketinget. Statistisk er det også nemmere for institutterne at ramme rigtigt for et lille parti som de Konservative end for et større parti som Dansk Folkeparti.

Der er ingen tvivl omkring, at analyseinstitutterne selvfølgelig gerne ville have ramt endnu tættere på de 52,3 til blå blok, og dette især ved at have ramt bedre for Dansk Folkeparti. Når det er sagt må man dog bare konkludere, at det kunne være meget værre – og der er andre aspekter, der er mere aktuelle at diskutere i denne sammenhæng.

For det første er der tale om et problem, når medierne ikke gør mere ud af at nævne den statistiske usikkerhed ved målingerne. Når man glemmer usikkerheden i formidlingen af meningsmålingerne, er det klart, at selv 52 procent virker meget større end 50 procent, når det omregnes til mandater. Der er intet der taler for, at journalisterne vil blive bedre til dette foreløbigt, men det er stadig en vigtig pointe at nævne igen og igen. Så længe det ikke sker, må man selv være kritisk.

For det andet kan der være udfordringer forbundet med den måde hvorpå vi forholder os til vægtede snit og usikkerheden i de estimater, vi kommer med, når vi kombinerer flere meningsmålingers resultater. Vi har eksempelvis set påstande om, på baggrund af talrige målinger, at sandsynligheden for at rød blok fik flere end 85 mandater ved valget, var tæt på 100 procent (de fik som bekendt 85). Hvis samtlige analyseinstitutter estimerer et parti til systematisk at ligge lavere i meningsmålingerne end de burde, vil de vægtede snit reducere den statistiske usikkerhed, men også med den implikation, at det egentlige resultat for det pågældende parti ligger endnu længere væk fra konfidensintervallet i det vægtede snit. Det eneste vi har opnået er dermed en illusion af præcision, når de systematiske skævheder ikke er forsvundet.

For det tredje er der et indiskutabelt fravær af transparens i forhold til de metoder, der bruges til at underbygge påstande om, hvor stor vælgeropbakningen er til de enkelte partier. Dette gælder på alle stadier (fra analyseinstitutternes arbejde til de vægtede snit, man ser i medierne). Analyseinstitutterne har forretningshemmeligheder, hvorfor de ikke har nogen interesse i at fortælle om, hvad de gør for at ramme rigtigt. De vægtede snit kommer ligeledes sjældent med nærmere information om, hvordan de helt præcist er vægtet, hvilke målinger der er inkluderet og så videre. Dette gør det svært at forholde sig kritisk til resultaterne og vurdere validiteten af målingerne.

Det korte af det lange: Meningsmålingerne kunne have ramt bedre hvad angår Dansk Folkeparti, men det er forkert at sige, at meningsmålingerne har fejlet i nærværende valgkamp. Vi er langt fra engelske tilstande, og når man kigger nærmere på de fleste partiers opbakning ved valget og sammenholder det med de seneste målinger, ser det slet ikke så slemt ud. Meningsmålingerne blev med andre ord ikke valgets taber.

Kan meningsmålingerne have påvirket Venstres valg i 2011?

Hos Politiken kan man læse, at hvis “Venstre havde haft bedre meningsmålinger op til valget [i 2011], så havde Venstre også klaret sig bedre på valgdagen”. Med dette menes der ikke blot, at hvis Venstre havde haft en opbakning på 40 procent i meningsmålingerne, ville de også ligge tættere på 40 procent på valgdagen, men derimod at meningsmålingerne i sig selv kunne have haft en effekt på den offentlige opinion. Det vil sige, at gode meningsmålinger kunne have fået flere til at stemme på Venstre og dermed føre til endnu bedre målinger.

Mere specifikt fremhæver artiklen i Politiken, at analyseinstitutterne gav Venstre færre stemmer i løbet af valgkampen, end de endte med at få ved selve valget i 2011. Logikken er, at dette kan have kostet Lars Løkke Rasmussen statsministerposten. Der er dog mindst to grunde til, at jeg er skeptisk i forhold til, hvorvidt dette var tilfældet.

For det første er der ingen grund til at tro, at vælgerne fokuserer på den absolutte support til partierne, men, hvis overhovedet, fokuserer på forandringen i meningsmålingerne. Det vil sige at en stigning eller et fald i meningsmålingerne kan skabe en bandwagon effekt, hvor man forlader den synkende skude og hopper over på vinderholdet. Det er dog ikke dét, der argumenteres for, var tilfældet i 2011, men derimod at Venstre skiller sig “ud fra de andre partier ved gennem hele valgkampen at ligge meget lavere i meningsmålingerne end valgets endelige resultat”. Kigger man på opbakningen til Venstre i løbet af valgkampen 2011 finder man da også et meget stabilt mønster (med de velkendte tilfældige og systematiske skævheder fra måling til måling):

Jeg har svært ved at se forekomsten af betingelserne for, at meningsmålingerne kunne have resulteret i en bestemt type dækning af Venstres opbakning i meningsmålingerne, som så videre kunne have påvirket vælgerens partivalg.

For det andet er der ikke stærk evidens for, at meningsmålingerne har effekter på den offentlige opinion, selv når man fokuserer på den relative forandring (se eksempelvis her og her). Hvis meningsmålingsartiklerne i 2011 for Venstre viste, at de ikke flyttede sig i meningsmålingerne, vil det kontrafaktiske scenarie jf. det refererede studie hos Politiken, altså at de får flere stemmer, næppe generere nogen ændring i vælgeropbakningen til partiet. Var der derimod en meget stor fremgang i meningsmålingerne og det kontrafaktiske scenarie var en meget stor tilbagegang, kunne der måske være en forskel i opbakningen til partiet (jeg er ikke sikker på, hvordan man skal tolke en sådan kausal effekt). Dette synes dog ikke at være tilfældet eller aktuelt for Venstre i 2011.

I det store hele er jeg skeptisk i forhold til, hvor meget en artikel om opbakningen til et parti kan betyde for den videre opbakning til partiet. Dette af især fire grunde. For det første er effektstørrelserne i studiet af effekten af meningsmålingerne ikke store (og i forhold til de estimater, vi helt basalt er interesserede i, ikke-signifikante).

For det andet er der en høj grad af selvselektion. Dem der interesserer sig for politik vil være dem, der er mest tilbøjelige til at se en meningsmåling, og disse personer vil sandsynligvis være mindre påvirkelige end dem, der aldrig vil se en sådan artikel. Med andre ord er det dem der i forvejen har en stærk holdning til deres partivalg, som vil være mere nysgerrige efter at vide, hvordan det går med deres parti. Det er den samme logik der ligger til grund for, at jeg aldrig får nogen information om, hvordan det går OB i Superligaen.

For det tredje læser man ikke meningsmålingerne neutralt. Mange vælgere har stærke holdninger til partierne i forvejen som påvirker deres 1) tilbøjelighed til at læse bestemte typer af artikler og 2) måden hvorpå de læses og fortolkes. På samme måde som man ikke tager en valgtest eller ser en politisk debat uden forudindtagede holdninger til partierne, læser man ikke en meningsmåling uden et bestemt set af eksisterende holdninger til partierne. En meningsmåling vil derfor i mange tilfælde blot tiltrække mere opmærksomhed fra de personer, der i forvejen køber historien, der sælges. Socialdemokrater elsker meningsmålinger, hvor Socialdemokraterne går frem og det samme for de andre partier og dets vælgere.

For det fjerde skal man være meget påpasselig med, som artiklen hos Politiken også er, at generalisere effekterne i ét studie til virkelighedens verden. Kort fortalt er den økologiske og eksterne validitet i de eksperimentelle studier meget lille. Der findes eksempelvis ikke lignende eksempler på en sådan artikelopbygning, som der anvendes i det citerede studie, i den virkelige verdens mediedækning. Ligeledes er der i en valgkamp et informationsoverload og en tidsdimension der gør, at én artikel næppe vil have nogen effekt dage efter, når krydset sættes. Og sidst men ikke mindst er der ofte ikke tale om nogen reel forandring i en meningsmåling, som i studiet, men blot insignifikante forskelle som varierer på tværs af målinger og institutter (jf. ovenstående figur), der resulterer i vidt forskellige artikler i løbet af en valgkamp med både fremgang og tilbagegang for de fleste partier.

Derfor tvivler jeg blandt andet på, at meningsmålingerne kan have kostet Lars Løkke Rasmussen statsministerposten i 2011.

Den gode, den onde og den grusomme: Mediernes formidling af statistisk usikkerhed i meningsmålingerne

Den kyndige læser af meningsmålinger ved efterhånden alt om den statistiske usikkerhed i meningsmålingerne og ikke mindst vigtigheden af, at journalisterne formidler helt essentielle metodiske informationer. Dette er dog ikke ensbetydende med, at de respektive danske medier gør det. I dette indlæg kigger jeg nærmere på, hvordan de danske medier formår at formidle et af de vigtigste aspekter af meningsmålingerne: den statistiske usikkerhed.

Der er især to forhold, der er vigtige i denne sammenhæng. For det første at undersøge, om medierne formår at formidle den statistiske usikkerhed. For det andet at undersøge, om de formidler den korrekte statistiske usikkerhed. I forhold til sidstnævnte er det vigtigt at huske på, at usikkerheden for partierne i den samme meningsmåling varierer, alt efter partiets størrelse. De fleste artikler omhandlende meningsmålinger rapporterer dog oftest kun én usikkerhed, mere specifikt for det estimat med den største usikkerhed (altså usikkerheden for det estimat, der kommer tættest på 50%).

Det relevante ved meningsmålingerne i denne valgkamp er, at de alle omhandler styrkeforholdet mellem rød og blå blok. Jeg har ikke været i stand til at finde så meget som én artikel, der ikke kommenterer på opbakningen til henholdsvis rød og blå blok. Dette gør især det andet forhold ved den statistiske usikkerhed interessant. Det er ikke tilstrækkeligt, at disse artikler kun formidler usikkerheden for partierne, da den største usikkerhed er tilknyttet de to blokke. Nedenstående figur illustrerer dette ved at vise hvordan usikkerheden med et 95% konfidensinterval ændres som en funktion af partiets/blokkens størrelse (ved en stikprøvestørrelse på 1000, se her for matematikken bag):

På figuren har jeg angivet et parti, der har 25% af stemmerne (det kunne i disse dage være Socialdemokraterne), samt en blok, der får 50% af stemmerne. Hvis en artikel kun formidler den statistiske usikkerhed for partiet, men er interesseret i opbakningen på blokniveau, vil den rapporterede statistiske usikkerhed være misvisende svarende til afstanden mellem de to stiplede linjer.

For at kigge nærmere på, om medierne tager højde for dette i dækningen, gennemgik jeg en del af de artikler, der er tilgængelige online. Jeg kiggede især på de meningsmålinger fra medierne, der har et bestemt analyseinstitut tilknyttet deres dækning (da de med sikkerhed får den statistiske usikkerhed fra institutterne). Da Voxmeter leverer meningsmålinger til Ritzau, fandt jeg et par tilfældige artikler herfra, der var formidlet i medierne.

I min læsning af hver artikel undersøgte jeg 1) om den maksimale statistiske usikkerhed blev rapporteret, 2) hvad den maksimale statistiske usikkerhed var (altså egen udregning) og 3) vurderede om de to usikkerheder var identiske. Til min store overraskelse var det desværre ikke alle artikler, der formåede at levere noget så basalt som den statistiske usikkerhed.

Overordnet er der tre typer af dækning af den statistiske usikkerhed: Den gode, den onde og den grusomme. Den gode dækning formår at rapportere den statistiske usikkerhed og dette på en sådan måde, at alle rapporterede estimater har en maksimal usikkerhed, der stemmer overens med den rapporterede. Den onde dækning formår også at rapportere den statistiske usikkerhed, men nævner eksempelvis, at det blot er den maksimale usikkerhed for partierne, hvorefter forskellene mellem blokkene rapporteres. Den grusomme dækning nævner ikke usikkerheden med ét ord.

Det gode eksempel først: DR og Epinion. Lige så elendige DR og Epinion var på valgdagen under kommunalvalget i 2013 med deres exit prognose, lige så dygtige er de i deres formidling af den statistiske usikkerhed under denne valgkamp. I samtlige artikler på DR.dk, hvor Epinions målinger formidles, rapporteres den maksimale statistiske usikkerhed på blokniveau. Og for at dette ikke skulle være nok, er der i de fleste tilfælde også en henvisning til rapporten fra Epinion, hvor man kan læse meget mere om meningsmålingen. Det er fantastisk god formidling. Epinion har desuden flere respondenter med end normalt, hvilket gør, at selvom usikkerheden formidles for blokkene, er den stadig lav i forhold til, hvad man normalt ser for partierne.

Det onde eksempel: Jyllands-Posten og Wilke. Jyllands-Posten formår at formidle den statistiske usikkerhed og er eksplicit omkring, at det er for de største partier, men tolker også på forskellene mellem blokkene – og angiver den statistiske usikkerhed for partierne i figurerne hvor de viser forskellene mellem blokkene. Der er dog et tilfælde hvor de rent faktisk formidler usikkerheden på blokniveau, så jeg tror på, at de har kompetente journalister ansat, der har styr på den slags. Et par lignende tilfælde finder vi hos Politiken, der dog også har gode eksempler.

Det grusomme eksempel: TV2 og Megafon. Her formidles ingenting. Læserne af meningsmålingerne hos TV2 har kun mulighed for at vide, hvor stor den statistiske usikkerhed er, hvis de selv finder lommeregneren frem. Til gengæld får man Anders Langballe på autoplay, der fortæller om, hvor spændende alle målingerne er. Mette Østergaard, der nu er hos TV2 News, er desuden uvidende om kvaliteten af dækningen på TV2s hjemmeside, når hun siger, at TV2 gør meget ud af at beskrive den statistiske usikkerhed “udførligt på vores hjemmeside”.

Nedenfor har jeg samlet min læsning af artiklerne i tabelform. Første kolonne angiver mediet, der har formidlet målingen, samt en henvisning til selve artiklen. Anden kolonne angiver analyseinstituttet samt datoen for hvornår dataindsamlingen stoppede. Tredje kolonne den statistiske usikkerhed som rapporteret (hvis den er rapporteret). Fjerde kolonne den statistiske usikkerhed som kalkuleret (hvis der var tilstrækkelige informationer i artiklen til at kalkulere den). Femte kolonne om der er tale om en god ( ), ond ( ) eller grusom ( ) formidling af usikkerheden.

Medie Institut (dato) Maks. usikkerhed: Nævnt Maks. usikkerhed: Kalkuleret Vurdering
TV2 Megafon (27.5) 3,02
TV2 Megafon (30.5) 3,10
TV2 Megafon (31.5) 3,10
TV2 Megafon (1.6)
TV2 Megafon (2.6) 3,05
TV2 Megafon (3.6) 3,05
TV2 Voxmeter (29.5) 2,70 3,03
Politiken Megafon (29.5) 3,00 3,10
Politiken Megafon (30.5) 3,00 3,38
Politiken Megafon (1.6) 3,00 3,00
Politiken Megafon (2.6) 3,00 3,00
Politiko Gallup (27.5) 2,72
Politiko Gallup (27.5) 3,00 2,23
DR Epinion (27.5) 2,60 2,59
DR Epinion (28.5) 2,30 2,28
DR Epinion (30.5) 1,90 1,87
DR Epinion (1.6) 2,40 2,39
DR Epinion (2.6) 2,30 2,31
DR Epinion (3.6) 2,20 2,22
JP Wilke (29.5) 2,63 3,02
JP Wilke (30.5) 3,09 3,09
JP Wilke (31.5) 2,65 3,09
JP Wilke (1.6) 2,68 3,09
MX Voxmeter (27.5)
JP Voxmeter (27.5) 2,70 3,03

Som det kan ses er der både gode og dårlige eksempler. DR klarer sig uden tvivl bedst. Jyllands-Posten klarer sig godt, med plads til forbedringer. TV2 har Anders Langballe. Der er indikationer på, at nogle medier har en praksis der fungerer på den måde, at man først udregner den statistiske usikkerhed for partierne, hvorefter man tolker på opbakningen til blokkene, hvor den statistiske usikkerhed er større end for partierne. Opfordringen til journalisterne er simpel: Husk at formidle den statistiske usikkerhed – og rapporter den statistiske usikkerhed for blokkene, hvis opbakningen til disse er af interesse.

Udviklingen i antallet af meningsmålinger

Hvis du endnu ikke er kørt død i at læse om meningsmålinger, så har Politiken denne visualisering, der viser antallet af meningsmålinger over tid:

Jeg er medleverandør af data til visualiseringen (mere specifikt de nyere målinger). Jeg har intet kendskab til de ældre målinger, hvorfor jeg ikke kan sige noget om, hvor fyldestgørende disse data er. Der er dog ingen tvivl omkring, at antallet af meningsmålinger er steget betydeligt over tid.

Tre simple step til at gøre din kedelige meningsmåling unik

Hvad gør man som journalist når de fleste af de meningsmålinger der kommer ud med timers mellemrum i disse dage, ligner hinanden, men skal formidles og gerne blive set af så mange som muligt? Der er heldigvis flere ting man skal/kan gøre, for at få sin enkelte og kedelige meningsmåling til at se ud af mere, end den er. Her følger tre simple step.

1. Lev i en osteklokke
Det første og måske vigtigste step som journalist er selvfølgelig at undlade at formidle andre meningsmålinger, på samme måde som Coca Cola ikke reklamerer for Pepsi. I løbet af valgkampen er eksempelvis Epinion, der laver målinger for DR, kun nævnt én gang på TV2s politiske site. Megafon, der foretager målingerne for TV2, er ikke, jf. hvad jeg kan se, nævnt på DRs hjemmeside i løbet af den seneste uge. Dette er perfekt. For hver gang et medie nævner en måling fra et institut, de ikke selv har smidt penge efter, falder værdien af deres egen investering i egne målinger – og den enkelte måling bliver mindre unik.

2. Find på en historie
Det andet step handler om at finde en journalistisk vinkel, der har en god historie. Ingen gider læse om en meningsmåling, hvis der kun er rå tal og den faktuelle kendsgerning, at sammenlignet med andre målinger, er der intet sket. Hvis dækningen var sådan, kunne læserne nøjes med én artikel om meningsmålingerne om dagen, og det kan vi ikke have. Det er dog ikke noget nemt job at finde en unik vinkel, for de fleste meningsmålinger viser ikke noget specielt i forhold til, hvad andre målinger viser. Det er derfor, at langt de fleste journalister glemmer alt om den statistiske usikkerhed i målingerne og tolker på decimalers ikke-signifikante forskelle.

Et godt eksempel på en god historie er TV2s dækning af den seneste Megafon-måling. I denne måling får de blå partier sammenlagt 50,6% af stemmerne, men hvis man fjerner de 1,3 procent Kristendemokraterne får og regner på tallene hos de partier, der er over spærregrænsen, giver det 50% til blå blok. 50/50. Ikke en anden måling, men en meget sjovere historie – og en journalistisk vinkel, hvor man kan sige, at det er et enormt spændende valg. Og så kan man selvfølgelig få Megafons direktør, Asger H. Nielsen, til at kommentere på den: “Det er første gang jeg ser 50/ 50. Jeg har aldrig set noget så tæt i hele mit liv.” Med andre ord: Vi har en meningsmåling, der ikke adskiller sig fra de andre, men pludselig er en god historie.

3. Spred nyheden… før, under og efter

Når du har en god historie, er det bare om at få den delt. Forsøg gerne at overdøve vægtede gennemsnit og andre målinger (jf. pkt. 1) og brug alt fra de sociale medier til nyhedsudsendelser, for at få budskabet ud til selv de personer, der er af den naive opfattelse, at de kunne nøjes med en håndfuld målinger om dagen. Hvis man er rigtig dygtig skal man også bygge en stemning op omkring målingen, så folk ved, at der er noget specielt i vente. For at blive ved Megafon-målingen kan det gøres ved at fortælle om, at der er noget opsigtsvækkende og spændende i vente (før målingen offentliggøres):

Dette er tre simple step, der let lader sig applicere. Selvom du ligger inde med en meningsmåling, der ikke er unik og ikke viser noget nyt, kan du godt få det til at se sådan ud. God fornøjelse.

Her er tre figurer, der alle viser Liberal Alliances opbakning i meningsmålingerne

Den første figur er fra Deadline på DR2, tirsdag den 2. juni, 2015, der viser opbakningen til Liberal Alliance i meningsmålingerne:

Den anden figur er Liberal Alliances opbakning i Epinion-målingerne i samme periode som i ovenstående figur (du kan kalde det en dokumentation for, at … ja, DR bruger Epinion):

Den tredje figur er Liberal Alliances opbakning i alle meningsmålinger i samme periode som i ovenstående:

Det var så lidt.