Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #2

Hvis to meningsmålinger begge viser, at opbakningen til Socialdemokratiet er på 25%, tror jeg på, at opbakningen til Socialdemokratiet ligger på omkring 25%. Hvis én meningsmåling viser, at Socialdemokratiet ligger på 20% og en anden meningsmåling viser, at partiet ligger på 30%, tror jeg ikke i højere grad på, at partiet ligger på 25%.

Jo mere der er brug for et vægtet gennemsnit af meningsmålingerne, desto mindre stoler jeg på det vægtede gennemsnit. Hvis alle meningsmålinger viste det samme, ville det ganske enkelt ikke være afgørende at bruge et vægtet gennemsnit (med mindre man blot vil reducere den statistiske støj).

Ingen analyse er bedre end de data, man har til rådighed. De vægtede gennemsnit er fantastiske til at minimere eventuelle fejl ved én meningsmåling og give et samlet bud på, hvordan de politiske partier klarer sig.

Sandheden er dog at kvalitetsvægtede gennemsnit primært tager højde for støj i meningsmålingerne (altså forskelle mellem meningsmålingerne) og ikke systematiske fejl, der skubber alle meningsmålinger i en bestemt retning. Hvis alle meningsmålinger eksempelvis overestimerer opbakningen til Dansk Folkeparti, vil et vægtet gennemsnit ikke komme tættere på et korrekt estimat. Tværtimod vil standardfejlene omkring et forkert estimat være mindre, og vi vil foranlediges til at tro, at der er mindre usikkerhed.

I et tidligere indlæg (fra 2013) skrev jeg, at vægtede gennemsnit er at foretrække, og dette mener jeg selvfølgelig stadigvæk, men det er interessant at se, at der ikke blev plads til nogle forbehold. Ikke så meget som ét lille forbehold, fandt jeg relevant at få med. Indlægget konkluderer blot, at vægtede gennemsnit er løsningen på vores problemer, men jeg finder det relevant at gå i dybden med nogle af de relevante forbehold.

Der findes ikke én måde at lave et vægtet gennemsnit. Der er en lang række af spørgsmål, man skal forholde sig til. Hvor mange meningsmålinger skal indgå i et vægtet snit? Skal alle analyseinstitutter have samme indflydelse – eller skal eksempelvis de institutter, der ramte sidste valg bedre, vægtes højere? Nyere meningsmålinger skal vægtes højere end ældre meningsmålinger, men hvor meget mere? Svarene på disse spørgsmål er ikke nødvendigvis oplagte, og det er en af grundene til, at forskellige vægtede gennemsnit ej heller giver de samme estimater.

Ved forrige valg tyder det på, at meningsmålingerne opfangede nogle vælgervandringer i valgkampens sidste dage. Meningsmålingerne var dermed mere præcise i dagene op til valget end de var i ugerne op til valget (YouGov kan være undtagelsen her). Et godt vægtet gennemsnit skal på den ene side være konservativt og ikke blot følge ukritisk med, når et par meningsmålinger viser store forandringer, men på den anden side også være i stand til at opsamle disse forandringer. Min vurdering er således, at jo mere et vægtet snit vejede nye meningsmålinger over ældre målinger, desto bedre ramte det vægtede snit valgresultatet.

Der er dog intet samlet overblik over, hvordan vægtede snit forholder sig til forskellige meningsmålinger. Dette bringer os videre til en anden udfordring ved de vægtede gennemsnit: Der er begrænset eller ingen transparens omkring, hvordan disse snit er lavet. Med andre ord gives der meget sjældent eksplicit svar på ovennævnte spørgsmål. På samme måde som vi ved meget lidt om, hvordan individuelle meningsmålinger konstrueres, ved vi meget lidt om, hvad der går ind i den ‘black box’, der er et vægtet gennemsnit. Dette er også et forbehold, der er relevant ift. det snit af meningsmålingerne, jeg præsenterer på Politologi Prognose. Et fantastisk eksempel på en undtagelse, hvor alt materiale er offentligt tilgængeligt, er The Economists model for det kommende præsidentvalg i USA.

Kigger man på den videnskabelige litteratur kan man finde forskellige modeller for vægtede gennemsnit appliceret på politiske meningsmålinger i lande som Australien (Jackman 2005), England (Fisher et al. 2011; Hanretty et al. 2016), Frankrig (Arzheimer og Evans 2014), Irland (Louwerse 2016), Mexico (Cantú et al. 2016), Sverige (Walther 2015), Tyskland (Michaelis 2018) og selvfølgelig USA (Wright og Wright 2018).

En af grundene til, at der er forskellige modeller, er blandt andet, at de forsøger at tage højde for specifikke kontekstuelle forhold. Der er eksempelvis stor forskel på om du ønsker at lave et vægtet gennemsnit af meningsmålingerne i USA eller i Danmark. I en dansk kontekst med et flerpartisystem med relativt få meningsmålinger fra få institutter, skal vi selvsagt tage højde for, at det ikke blot er to partier, meningsmålingerne skal give bud på.

Min prognose bygger på flere af ovennævnte studier (primært Simon Jackmans model). Konkret estimeres partiernes opbakning i en Bayesiansk analyse, der ikke giver konfidensintervaller men troværdighedsintervaller. Disse har en meget mere intuitiv tolkning når det kommer til usikkerhed, der giver mulighed for at lave den tolkning, læsere og journalister ofte ønsker at foretage (eksempelvis at at vi er 95% sikre på, at opbakningen til Venstre ligger et sted mellem 22% og 26%). Dertil kan det også tilføjes, at posterior fordelingen er en Beta fordeling, der gør, at 95% troværdighedsintervallet ikke nødvendigvis er normalfordelt.

En grundlæggende antagelse er, at partierne ikke ændrer drastisk opbakning fra dag til dag. Til at tage højde for dette anvendes en Kalman filter-metode, der ofte bruges når man arbejder med tidsseriedata. Overordnet betyder dette, at selvom opbakninge til partierne kan ændre sig på kort sigt, vil de næppe miste og få mange vælgere i løbet af få dage.

En anden antagelse er relateret til huseffekter (jeg har skrevet om huseffekter før, se eksempelvis her). Vi antager med huseffekterne at resultaterne fra det “gennemsnitlige” analyseinstitut er korrekte, hvorfor gennemsnittet af disse huseffekter er 0. Denne antagelse er yderst vigtig, da implikationen er, at hvis alle meningsmålinger tager systematisk fejl (altså tager fejl “i samme retning”), vil det vægtede snit ikke tage højde for dette.

Er der måder hvorpå disse vægtede snit kan forbedres yderligere? Helt sikkert. En interessant udvidelse er at kombinere meningsmålingsdata med anden data (evt. økonomiske data), så der kan gives egentlige forudsigelser på, hvordan partierne vil klare sig ved et valg (for en introduktion til en sådan tilgang henvises til Stoetzer et al. 2019). Personligt er jeg dog ikke overbevist om en oplagt applikation i en dansk kontekst, da der er mange forbehold der ændrer sig fra valg til valg (herunder ofte nye partier, der stiller op for første gang).

De vægtede snit er – alt andet lige – at foretrække over enkeltmålinger. Dette er dog ikke det samme som, at vægtede snit er uden begrænsninger eller altid vil ramme bedre end specifikke enkeltmålinger. Afslutningsvis vil jeg derfor give to anbefalinger med på vejen. For det første, kig gerne på flere enkeltmålinger såvel som flere vægtede snit, når du skal have en idé om, hvordan partierne klarer sig. For det andet, brug din kritiske sans. Meningsmålingerne kan tage fejl (og rammer derfor sjældent 100% plet), men de vægtede snit kan kun adressere en bestemt type af disse fejl.

Hvordan klarede meningsmålingerne sig?

Folketingsvalget er overstået. Vi kan nu langt om længe vurdere, hvordan meningsmålingerne har klaret sig. I dette indlæg kigger jeg nærmere på det netop overståede folketingsvalg. For en historisk gennemgang af hvordan meningsmålingerne har klaret sig i en dansk sammenhæng, se dette arbejdspapir af Martin Vinæs Larsen.

Kigger vi på meningsmålingerne ved dette valg er det ikke udelukkende et spørgsmål om, hvorvidt meningsmålingerne som kategori ramte rigtigt, men i lige så høj grad et spørgsmål om, hvilke meningsmålinger, der ramte rigtigt.

Meningsmålingerne har været uenige om især opbakningen til Nye Borgerlige, da analyseinstitutterne har placeret dem fra under spærregrænsen til omkring 5-6% af stemmerne. Disse forskelle har været systematiske over tid og kan ikke tilskrives tilfældigheder.

For at se nærmere på, hvordan de respektive institutter præsterede ift. de forskellige partier, viser Figur 1 meningsmålingerne foretaget i valgkampens sidste dage og valgresultatet for de forskellige analyseinstitutter.

Figur 1: Meningsmålinger og valgresultatet

Overordnet betragtet klarede meningsmålingerne sig ganske fint (jo tættere partierne er på den stiplede linje, desto mere præcist ramte de). Denne pointe bringer jeg også til bordet i denne artikel hos Altinget. Der var dog enkelte partier, meningsmålingerne havde svært ved at ramme præcist. Dette var blandt andet Venstre og Dansk Folkeparti, hvor meningsmålingerne undervurderede førstnævnte og overvurderede sidstnævnte.

Det er ligeledes interessant at kigge på, hvor langt de forskellige meningsmålinger var fra at ramme valgresultatet. Til at undersøge dette kan vi se på den gennemsnitlige numeriske forskel mellem hver meningsmåling og valgresultatet (alternativt kan man kigge på kvadratroden af den gennemsnitlige kvadratafvigelse, der normalt giver lignende resultater).

Dette mål viser hvor meget en meningsmåling i gennemsnit, for hvert parti, ramte forbi. Foruden meningsmålingerne indsamlede jeg de vægtede snit og exit polls, der var tilgængelige på valgaftenen. Figur 2 viser afvigelsen mellem diverse målinger og det endelige valgresultat.

Figur 2: Afvigelse mellem målinger og resultat

Som det kan ses, havde Epinion og Gallup de mest korrekte meningsmålinger. De største afvigelser finder vi hos YouGov, der eksempelvis gav 4,7% til Nye Borgerlige, 11,3% til Dansk Folkeparti, 3% til Stram Kurs og 18,6% til Venstre. Alle estimater der lå et pænt stykke fra det endelige valgresultat. Dette fører til, at YouGov var valgets store taber.

Et af de store spørgsmål i løbet af de seneste år har været, om YouGov eller andre analyseinstitutter har haft ret, når YouGov systematisk har givet Nye Borgerlige en større andel af stemmerne end de andre institutter. De seneste Voxmeter-måling gav 2,7% til Nye Borgerlige og 9,2% til Dansk Folkeparti. Disse tal giver mig umiddelbar anledning til at vurdere, at YouGov systematisk har overvurderet Nye Borgerlige.

Vi ser ligeledes at meningsmålingerne klarede sig lige så godt som TV 2s og DRs exit polls (og bedre end BTs exit polls – foretaget af YouGov). De vægtede snit klarede sig også relativt godt, men her er der flere interessante aspekter at forholde sig til.

For det første er det vigtigt at huske på, at intet vægtet snit er bedre, end de meningsmålinger, vi fodrer de vægtede snit med. Når YouGov er inkluderet, vil det selvsagt påvirke det vægtede snit. Udfordringen er, at vi ikke kan sige med sikkerhed før valget, om nogle meningsmålinger rammer helt skævt (vi kan kun korrigere for dette).

For det andet siger ovenstående tal intet om usikkerheden. Nogle af disse vægtede snit kommer ikke med statistisk usikkerhed, hvorfor det kan være svært at sammenligne kvaliteten af disse estimater. Styrken ved de vægtede snit ligger især i formidlingen af meningsmålinger, hvor der er fokus på, at vi kigger på flere meningsmålinger – og den statistiske usikkerhed.

For det trejde – og som ikke er at se i ovenstående figurer – lå Norstat et pænt stykke fra valgresultatet. Det har fået Jyllands-Posten til at droppe meningsmålingerne, eller som Jacob Nybroe, ansvarshavende chefredaktør for avisen, udtaler: “Derfor kommer vi, foreløbigt og med øjeblikkelig virkning til at indstille brugen af meningsmålinger, der måler på Folketingets sammensætning”.

Jeg forstår dog ikke denne beslutning eller kritikken af Norstat. Norstat foretog ikke nogen meningsmåling i dagene op til valget (deres seneste meningsmåling blev indsamlet 31. maj). Jeg inkluderede derfor heller ikke Norstat i ovenstående figurer (og heller ikke Greens, der foretog en meningsmåling nogle dage før valget), da det ville være at sammenligne forskellige målinger, der siger noget om partiernes opbakning på forskellige tidspunkter.

Da jeg talte med en journalist fra Ritzau, tog jeg da derfor også Norstat i forsvar og pointerede blandt andet, at vælgerne kan “ændre deres planer om, hvem de vil stemme på i løbet af de sidste dage op til valget” (kan blandt andet læses hos BT, Jyllands-Posten og Kristeligt Dagblad).

Hos P1 Orientering pointerede jeg ligeledes det væsentlige problem i, at sammenligne en meningsmåling foretaget i slutningen af maj med de seneste målinger fra andre institutter. Det der overraskede mig her er, at Jacob Nybroe kunne informere mig om, at de udelukkende havde bedt Norstat om at komme med et korrekt bud på et valgresultat. Derfor undrer det mig betydeligt, at man har foretaget en meningsmåling i slutningen af maj i stedet for i dagene op til 5. juni.

Hvorfor fokuserer jeg så meget på disse dage op til valget? Dette fordi der er flere forhold, der får mig til at tro, at valgkampens sidste dage har givet analyseinstitutterne bedre betingelser for at ramme valgresultatet. Dette kan skyldes, at vi opfanger bevægelser i dagene op til valget, at vælgerne er mere sikre på, om de vil stemme og hvem de vil stemme på osv.

Kigger man således på de vægtede snit, tror jeg at de mere konservative vægtede snit har haft sværere ved at opfange disse ændringer i de sidste dage (især når man ikke inkluderer al tilgængelig data, i.e. Megafons meningsmålinger).

Kasper Møller Hansen har desuden regnet på, hvordan snittet ville se ud med de ekstra meningsmålinger i Risbjerg-snittet (altså meningsmålingerne foretaget lige op til valget). Denne opdaterede prognose giver en gennemsnitlig afvigelse, der er at sammenligne med Politologi Prognose. Dette indikerer at de meningsmålinger, der lå tættest på valget, var brugbare til at forudsige valgresultatet.

En interessant undtagelse her er YouGov, der var tættere på at ramme valgresultatet en uge før valget end dagen før valget. Givet de fluktuationer, der har været i deres meningsmålinger (herunder også i BTs dækning heraf), er jeg dog tilbøjelig til at konkludere, at det er mere held end forstand.

Det er ligeledes værd at bemærke, at meningsmålingerne havde problemer med at forudsige EP-valget kort tid forinden folketingsvalget, hvor det også var en udfordring at estimere opbakningen til blandt andet Venstre. Dermed ikke sagt, at det har været de samme problemer for analyseinstitutterne ved de to valg, men der er klart tale om noget, de skal kigge nærmere på.

Meningsmålingerne klarede sig ganske fint ved dette valg. De kunne have gjort det bedre, men de gjorde et fint stykke arbejde. Den store forbedring ift. seneste valg har været i formidlingen – ikke deres kvalitet. Med andre ord er medierne blevet betydeligt bedre til at formidle meningsmålinger (som jeg også gjorde det klart i Presselogen før valget).

Ny ressource: Politologi Prognose

Én meningsmåling skal som regel ikke ses i isolation. Tværtimod skal den sættes i kontekst og forstås sammen med andre meningsmålinger. Et af de bedste redskaber i denne sammenhæng er vægtede snit, hvor meningsmålingerne aggregeres med henblik på at give mere præcise bud på, hvordan partierne klarer sig.

Fordelen ved disse vægtede snit er, at vi tager mere information i betragtning og på denne måde reducerer sandsynligheden for, at enkeltstående ekstreme meningsmålinger har for meget at skulle have sagt.

Der er heldigvis nogle vægtede gennemsnit i Danmark. Altinget har deres Risbjerg-snit, der dog desvære er bag en betalingsmur. Tilbage har vi Berlingske Barometer og Ritzau Index, der har visse ligheder. Fælles for disse snit er, at de udelukkende tager udgangspunkt i de nyeste meningsmålinger.

Ritzau Index bygger på de seneste 15 meningsmålinger, hvor de allernyeste vejes tungest i deres indeks. Berlingske Barometer anvender meningsmålinger fra de seneste 31 dage, hvor de nyeste målinger også har større indflydelse på resultaterne end de ældre meningsmålinger.

Dette giver på overfladen god mening. Hvad kan en to år gammel meningsmåling bruges til, når vi skal sige noget om partiernes opbakning i dag? Svaret er, at der er vigtig information i ældre meningsmålinger, som vi skal tage i betragtning, når vi laver vægtede snit.

Det er på denne baggrund, at jeg har lavet Politologi Prognose. Modsat Ritzau Index og Berlingske Barometer, tager Politologi Prognose udgangspunkt i meningsmålinger over flere år til at estimere, hvordan partierne står i meningsmålingerne.

Den information som der udnyttes, som ikke tages med ved blot at kigge på nye meningsmålinger, er huseffekter. Dette er kort fortalt tendensen til, at forskellige analyseinstitutter er tilbøjelige til at favorisere bestemte partier. YouGov og Voxmeter er eksempelvis systematisk uenige i, hvor stor opbakningen er til Nye Borgerlige.

Ved at kigge på langt flere meningsmålinger kan vi således estimere, hvordan partierne klarer sig, når vi tager disse systematiske forskelle mellem analyseinstitutterne i betragtning.

En anden ulempe ved de eksisterende vægtede snit er, at ingen af dem rapporterer nogen form for statistisk usikkerhed. Vægtede snit er dog også blot estimater med en statistisk usikkerhed. Denne usikkerhed bliver selvfølgelig formidlet i forhåndenværende vægtede snit.

Det er vigtigt at få med, at der er tale om en prognose over, hvordan partierne ville klare sig i dag og er dermed ikke et forsøg på at forudsige deres opbakning ved et folketingsvalg.

Det er således ikke et forsøg på at lave en egentlig valgprognose for, hvordan valget kommer til at gå. Der tages udelukkende udgangspunkt i meningsmålinger, og hvis man vil forsøge at lege med at forudsige valget, ville det være ideelt at inkludere mere kontekstuel information (cf. Stoetzer et al. 2019).

Prognosen vil blive opdateret med jævne mellemrum, men forvent ikke talrige opdateringer – og slet ikke daglige opdateringer i løbet af en valgkamp.