Statistisk usikkerhed i meningsmålingerne

Meningsmålinger kommer med statistisk usikkerhed. Der er desværre mange misforståelser omkring, hvad den statistiske usikkerhed er – og ikke er. Jeg har allerede skrevet en række indlæg omkring kvalitetsvægtede gennemsnit og statistisk usikkerhed (se her, her, her, her og her), men det slog mig, at jeg ikke har skrevet et indlæg, hvor fokus primært er på den statistiske usikkerhed.

I dette indlæg vil jeg komme med nogle generelle betragtninger i forhold til statistisk usikkerhed i meningsmålingerne og korrigere nogle misforståelser, jeg ofte ser, når medierne tolker den statistiske usikkerhed i meningsmålingerne. Det bliver lidt teknisk, men jeg holder det på et niveau som de fleste journalister, der dækker meningsmålinger, vil kunne forstå.

Hvis Socialdemokratiet i en meningsmåling står til at få 26,5% af stemmerne, og 1.004 repræsentative respondenter er blevet spurgt om deres stemmevalg, kan vi konkludere, at den statistiske usikkerhed med et 95% konfidensinterval er 2,7. Dette vil vi ofte se formidlet som ±2,7%, selvom der er tale om procentpoint, vi lægger hhv. til og fra selve opbakningen.

Der er fire relevante forhold at tage i betragtning, når vi skal forstå og udtale os om den statistiske usikkerhed:

Stikprøvestørrelse. Jo flere der er spurgt i en meningsmåling, desto lavere vil den statistiske usikkerhed være. Hvis vi eksempelvis spurgte alle stemmeberettigede danskere, der ville stemme til et valg, ville den statistiske usikkerhed være lig nul. Den statistiske usikkerhed er dog ikke en lineær funktion af stikprøvestørrelsen, hvorfor 2.000 respondenter ikke vil give os halvt så stor en statistisk usikkerhed som vi får med 1.000 respondenter. Det er blandt andet derfor at de fleste meningsmålinger spørger 1.000 respondenter og ikke 5.000 respondenter. Det var også på den baggrund at jeg var kritisk i et indlæg i forhold til Jyllands-Posten og Wilke, da de ovenpå 2015-valget meldte ud, at de ville fordoble antallet af respondenter fra 1.000 til 2.000 i deres meningsmålinger.
Partistørrelse. Den statistiske usikkerhed er ikke lige stor for alle partier. Jo tættere et parti er på 50% af stemmerne, desto støre vil den statistiske usikkerhed være. Derfor er den statistiske usikkerhed større for et parti som Socialdemokratiet end for et parti som Alternativet. Det betyder også, at hvis vi formidler opbakningen til rød eller blå blok, hvor opbakningen er tættere på 50%, vil den statistiske usikkerhed være større. En fejl medierne ofte foretager her er at formidle opbakningen til rød eller blå blok men kun formidle den statistiske usikkerhed for partierne. Jeg skrev et indlæg omkring dette i forbindelse med folketingsvalget i 2015, hvor jeg også gik mere i dybden med hvordan den statistiske usikkerhed varierer for partierne og blokkene.
Repræsentativitet. Det giver kun mening at tale om statistisk usikkerhed, hvis vi har en repræsentativ stikprøve. Med dette mener vi, at meningsmålingen afspejler de vælgere, der stemmer på valgdagen. Analyseinstitutterne bruger bestemte teknikker til at gøre deres meningsmåling repræsentativ, så selvom respondenterne i en meningsmåling ikke altid er tilfældigt udvalgt, kan målingen godt være repræsentativ. Det vigtige her er, at den statistiske usikkerhed absolut intet siger om systematiske fejl i meningsmålingerne, der eksempelvis kan tilskrives huseffekter. Jeg har i løbet af de seneste ti år skrevet indlæg om, hvorfor stikprøvestørrelsen er mindre vigtig i forhold til den statistiske usikkerhed, hvis ikke vi har repræsentative data (se eksempelvis her, her og her).
Konfidensinterval. Den statistiske usikkerhed kan udregnes ved forskellige konfidensintervaller. Det bliver ikke altid formidlet i dækningen af meningsmålingerne, men den statistiske usikkerhed der rapporteres, er altid udregnet med et 95% konfidensinterval (jeg har aldrig set eksempler på andet). Der er dog intet der holder os tilbage, hvis vi i stedet ønskede at formidle statistisk usikkerhed med et 90% konfidensinterval eller et 99% konfidensinterval. Hvad vi mener med et 95% konfidensinterval er, at 95% af gangene, vil vores estimat (altså opbakningen til et parti), ligge inden for dette interval, altså estimatet ± den statistiske usikkerhed. Begrebet konfidensinterval kan let misforstås da et større konfidensinterval betyder mere usikkerhed.

Den statistiske usikkerhed siger ikke noget om usikkerheden i forhold til, hvor sikre vi er på at partiet vil få den pågældende opbakning ved et valg. Vi kan dermed ikke sige at vi er 95% sikre på, at Socialdemokratiet ville få 26,5% af stemmerne, hvis der var valg i dag (eller i morgen), blot fordi en meningsmåling giver Socialdemokratiet 26,5% af stemmerne. Generelt kan vi ikke sige at vi er 95% sikre på, at opbakningen ligger inden for et bestemt interval, når vi kigger på den statistiske usikkerhed.

Til at forstå den statistiske usikkerhed giver det bedst mening at illustrere, hvordan meningsmålingerne ville se ud, hvis vi indsamlede mange meningsmålinger den samme dag. Og ideelt på en dag, hvor vi kender den sande opbakning. Dette skyldes at den statistiske usikkerhed bedst kan forstås i forhold til mange meningsmålinger (og dermed ikke én enkelt måling).

Hvis vi indsamlede mange meningsmålinger på den samme dag, ville vi forvente, at de var normalfordelt omkring et partis “sande” opbakning (altså hvor mange stemmer de ville få, hvis der var et folketingsvalg den pågældende dag). Det vil sige at vi ville have flest meningsmålinger, der rammer den korrekte opbakning til et parti, men der vil også være nogle meningsmålinger der – helt tilfældigt – rammer forkert.

Konfidensintervallet angiver det interval, hvoraf vi forventer at et bestemt antal af meningsmålinger indeholder det “sande” estimat. Det vil sige at hvis vi indsamler 1000 meningsmålinger, vil konfidensintervallet for 950 af dem ramme det “sande” estimat. Konfidensintervallet siger således ikke at der er 95% sandsynlighed for at én enkelt meningsmåling har ramt plet. Det betyder også, at selv en meningsmåling, der lever op til guldstandarderne for, hvordan en meningsmåling skal foretages, kan være så uheldig at tage fejl.

Dette kan lyde lidt kompliceret, men lad os bruge folketingsvalget 2019 som eksempel. Der blev afgivet 3.529.759 gyldige stemmer ved valget. Socialdemokratiet blev det største parti, da de fik 915.393 af stemmerne. Skulle vi have foretaget en meningsmåling på valgdagen, kunne vi have spurgt alle stemmeberettigede danskere om, hvilket parti de ville stemme på, og – hvis vi var meget heldige, få de samme 3.529.759 svar. I praksis er dette dog umuligt, og det er her meningsmålingerne med deres statistiske usikkerhed er et fantastisk værktøj.

Det vigtige er, at vi spørger et repræsentativt udsnit af befolkningen om, hvilket parti, de vil stemme på, så vi i praksis har en stikprøve, der er identisk med en tilfældigt udvalgt stikprøve. Nøgleordet her er tilfældigt, hvilket vil sige at alle borgere har den samme sandsynlighed for at blive valgt i vores meningsmåling.

Hvis vi på valgdagen, onsdag d. 5. juni 2019, havde spurgt 1.000 tilfældigt udvalgte stemmeberettigede danskere, der vil stemme ved valget, om deres stemmevalg, kunne 254 have svaret, at de stemte Socialdemokratiet, 230 kunne have svaret Venstre, 92 Dansk Folkeparti osv. I denne meningsmåling ville Dansk Folkeparti stå til at få 9,2% af stemmerne (92/1000), selvom vi ved, at de ved valget fik 8,7% af stemmerne.

Dette ved jeg fordi jeg simulerede min egen meningsmåling på baggrund af valgresultatet i 2019. Faktisk simulerede jeg 100 meningsmålinger. Konkret tog jeg valgresultatet i 2019 og foretog 100 meningsmålinger ved i hver meningsmåling at tage 1.000 tilfældige stemmer af de 3.529.759 gyldige stemmer ved valget.

Med de 100 meningsmålinger jeg har simuleret, kan vi se hvor stor opbakningen vil være til de forskellige partier. Her vil jeg primært kigge på Socialdemokratiet og Venstre, men logikken er den samme for alle partier.

Nedenstående figur viser fordelingen af alle 100 meningsmålinger, når det kommer til opbakningen til Venstre og Socialdemokratiet. Vi ser at nogle meningsmålinger rammer plet, men at der også er nogle enkelte målinger, der ligger fjernt fra, hvad de burde. Den vigtige pointe er her igen, at dette ikke er “dårlige” meningsmålinger. Tværtimod. Selv perfekte meningsmålinger vil tage fejl, når man følger alle kunstens regler.

Konkret kan vi se i figuren, at estimaterne ligger fordelt omkring det “sande” resultat. Hvis vi havde simuleret 1000 meningsmålinger, ville vi se en meget pænere normalfordeling omkring dette resultat. Hvis vi foretog uendeligt mange meningsmålinger, ville vi se netop en pæn normalfordeling, hvor gennemsnittet er lig med partiets valgresultat. Det vil sige at der hvor flest meningsmålinger lå, ville være den sande opbakning. Og gennemsnittet af alle disse meningsmålinger ville give os den sande opbakning.

Dette fokus på 100 meningsmålinger gør det nemmere at tolke den statistiske usikkerhed. Den statistiske usikkerhed med 95% konfidensintervaller fortæller os, hvor mange af vores meningsmålinger, der ikke inkluderer det sande resultat. Det siger med andre ord ikke noget om den enkelte måling, men hvilket mønster vi skal se med vores 100 målinger.

I nedenstående figur viser vi dette for vores 100 simulerede meningsmålinger med Socialdemokratiets opbakning, hvor de meningsmålinger der er vist med rødt, er de målinger, hvor konfidensintervallet (altså opbakningen med den statistiske usikkerhed), ikke overlapper med det sande estimat.

I figuren kan vi se, at kun 4 ud af de 100 meningsmålinger, ikke indeholder det sande estimat, når vi tager den statistiske usikkerhed i betragtning. Dette betyder ikke, at hver enkelt af disse målinger har 95% sandsynlighed for at ramme rigtigt, men at konfidensintervallet for 19 ud af 20 af målingerne vil indeholde det sande estimat. Hvis vi havde kørt med uendeligt mange simulationer, og ikke kun 100, ville vi således kunne se, at 5% af målingerne ville have en statistisk usikkerhed, der ikke overlappede med det sande estimat.

Hvis vi i stedet for 95% konfidensintervaller opererede med 90% konfidensintervaller, ville vi have mindre statistisk usikkerhed. Dette fordi vi nu forventer at kun 9 ud af 10 meningsmålinger rummer det sande estimat. Hvis vi opererede med et 99% konfidensinterval, ville vi have større statistisk usikkerhed, da vi her ville forvente, at kun 1 ud af 100 meningsmålinger ikke rummede det sande estimat.

Hvis du vil se en interaktiv visualisering af nogle af disse idéer, kan jeg varmt anbefale Maarten Lambrechts Rock ‘n Poll, der fornemt viser, hvordan den tilfældige udvælgelse af respondenter i en meningsmåling virker, når man udvælger en repræsentativ stikprøve fra en population.

I praksis er der flere udfordringer, når vi skal arbejde med den statistiske usikkerhed. Den første store udfordring er, at vi (heldigvis) ikke får lavet 100 meningsmålinger hver dag. Vi får som regel kun et par meningsmålinger hver uge, og lidt flere målinger, når vi nærmer os et folketingsvalg. Dette medfører, at vi sjældent reflekterer over den statistiske usikkerhed korrekt. Min vurdering er, at journalister og læsere tolker den statistiske usikkerhed som en sandsynlighed for, at den enkelte meningsmåling rummer det sande estimat, snarere end hvad jeg har beskrevet ovenfor.

Den anden store udfordring er, at vi her antager, at vi arbejder med en tilfældigt udvalgt stikprøve, når vi forholder os til den statistiske usikkerhed. Det vil sige at vi, når vi kigger på den statistiske usikkerhed, kun forholder os til tilfældig støj – og ikke systematiske fejl. Selvom vi skal vurdere meningsmålingerne på deres evne til at ramme valgresultatet, er det mindst lige så vigtigt at vurdere dem på deres evne til at skabe en repræsentativ stikprøve.

Fejl ligger ikke tilfældigt omkring det “sande” estimat. Tværtimod har meningsmålingerne det med at tage fejl i en bestemt retning. Det vil sige at hvis eksempelvis YouGov eller Megafon begge foretager 100 meningsmålinger på den samme dag, vil de sandsynligvis ikke give den samme distribution for de respektive partier, men give forskellige bud på, hvad opbakningen til partierne er.

Der er flere praktiske begrænsninger, der kan forklare, hvorfor vi ikke arbejder med tilfældigt udvalgte stikprøver, herunder også, hvorfor de ikke gennemføres oftere, end de gør. Disse er blandt andet:

Penge. Det er ikke gratis at foretage meningsmålinger. I praksis er det ikke nemt blot at spørge 1.000 respondenter, især ikke hvis man skal sikre sig, at det er 1.000 respondenter, der varierer på de dimensioner, vi normalt ønsker variation på (køn, alder, region, stemme ved forrige valg, etc.).
Liste med gyldige stemmer. Hvordan finder vi ud af, hvem der har mulighed for at stemme? Hvis vi skal kunne lave en tilfældig udvælgelse, skal vi først sikre os, at vi har en liste over alle dem, der kan stemme.
Deltagelse. Blot fordi man planlægger at stemme og bliver ringet op af et analyseinstitut, er det ikke det samme som, at man tager telefonen og deltager i en meningsmåling. Og blot fordi man deltager i et webpanel, hvor man siger, at man vile stemme, er det ikke det samme som, at man rent faktisk vil stemme.

Begrænsningerne gør, at vi desværre sjældent arbejder med stikprøver, der gør det muligt at sige med sikkerhed, at den statistiske usikkerhed giver mening. Dertil skal det også nævnes, at den statistiske usikkerhed i de fleste meningsmålinger ofte underestimeres, da stikprøvestørrelsen på de enkelte estimater udregnes på baggrund af den totale stikprøvestørrelse, og ikke blot for de respondenter, der har angivet et partivalg (dette kan lyde lidt teknisk, men jeg skrev et helt indlæg om det for et par år siden).

Der er mange måder at formidle den statistiske usikkerhed, og min opfattelse er, at medierne er blevet bedre til at formidle den statistiske usikkerhed, både generelt men også her i valgkampen. Jeg har tidligere leget med ideen om at lave en dynamisk præsentation af den statistiske usikkerhed, hvor usikkerheden bevæger sig fra 90% til 95% og så til 99% og vice versa, men min opfattelse er nu, at det er fint at holde sig til 95%, så længe man blot fokuserer på at tolke denne usikkerhed korrekt.

Ingen af de meningsmålinger vi ser i medierne disse dage bygger på tilfældigt udvalgte respondenter, hvorfor den statistiske usikkerhed ikke nødvendigvis er så lille, som vi kunne foranlediges til at tro. Derfor skal man ikke nødvendigvis gå op i om den statistiske usikkerhed for et parti er 1,8% eller 2,1%, men gerne se på hvad forskellige meningsmålinger viser over tid.

De største udfordringer med meningsmålingerne er dermed ikke med den statistiske usikkerhed, men at skabe målinger, hvor det giver mening at tale om statistisk usikkerhed i første instans. Hvis en meningsmåling ikke er repræsentativ, giver det ikke mening at udtale sig om den statistiske usikkerhed. Derfor er det kun de bedste meningsmålinger, der er repræsentative, hvor den statistiske usikkerhed giver mening.

Den statistiske usikkerhed tjener især to formål. For det første at sikre, at vi husker på, at der er en usikkerhed. Når en meningsmåling giver en opbakning til et parti på 8,9%, fortæller den statistiske usikkerhed os, at vi ikke kan være sikre på, at opbakningen er 8,9%. Dette faktum alene gør det relevant at næven den statistiske usikkerhed, desuagtet hvad denne usikkerhed så er. For det andet at det øger sandsynligheden for, at journalister, når de formidler den statistiske usikkerhed, undersøger om eventuelle forskelle er større end den statistiske usikkerhed. Hvis ikke kan vi ikke udelukke, at vi blot forsøger at give tilfældig støj mening.

Dette gør at den statistiske usikkerhed på en og samme tid er overvurderet og undervurderet. Vi overvurderer den statistiske usikkerheds relevans, da meningsmålingerne ofte ikke kan leve op til et perfekt ideal, hvor den statistiske usikkerhed vil være præcis. Vi undervurderer omvendt vigtigheden af den statistiske usikkerhed, når vi har for vane at tolke på selv små ændringer, der ikke gør sig gældende, når vi tager den statistiske usikkerhed i betragtning – især når vi sammenligner to tal fra to forskellige meningsmålinger.

Det vigtige at holde sig for øje er således, hvilke antagelser vi gør os, når vi udtaler os om statistisk usikkerhed (i.e., at meningsmålingen er repræsentativ), samt hvilke forhold der påvirker den statistiske usikkerhed (e.g., stikprøvestørrelsen). Når meningsmålinger ikke er repræsentative (hvilke der kan være mange grunde til), giver den statistiske usikkerhed langt mindre mening.

Statistisk usikkerhed i meningsmålingerne er ingenlunde let at formidle til et bredt publikum i medierne, og ofte kan den desværre være med til at dræbe en ‘god historie’. Den bedste formidling af meningsmålingerne er dog i stand til netop at tage udgangspunkt i meningsmålingernes begrænsninger, herunder den statistiske usikkerhed, og gøre det klart for læserne, hvad vi kan konkludere, når vi tager den allestedsnærværende usikkerhed i betragtning.