Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #3

I mit forrige indlæg om kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed, kom jeg ind på, at en af grundene til, at der er forskel på de vægtede gennemsnit er, at de ikke anvender samme tilgang:

Der findes ikke én måde at lave et vægtet gennemsnit. Der er en lang række af spørgsmål, man skal forholde sig til. Hvor mange meningsmålinger skal indgå i et vægtet snit? Skal alle analyseinstitutter have samme indflydelse – eller skal eksempelvis de institutter, der ramte sidste valg bedre, vægtes højere? Nyere meningsmålinger skal vægtes højere end ældre meningsmålinger, men hvor meget mere? Svarene på disse spørgsmål er ikke nødvendigvis oplagte, og det er en af grundene til, at forskellige vægtede gennemsnit ej heller giver de samme estimater.

På den baggrund tænkte jeg, at det ville være interessant at lave en sammenligning af de respektive vægtede gennemsnit. Der er fire vægtede gennemsnit i Danmark, der bliver opdateret regelmæssigt: Politologi Prognose, Risbjerg-snittet, Berlingske Barometer og Ritzau Index.

Der er flere ligheder og forskelle mellem de respektive snit, og i tabellen nedenfor har jeg sammenlignet de fire snit på de følgende syv parametre: 1) hvilke institutter, de inkluderer (om det er alle institutter eller ej); 2) antallet af meningsmålinger; 3) om der tages højde for huseffekter; 4) hvilke minimumskrav der er til, at et parti inkluderes; 5) om nyere målinger vægtes højere; 6) om resultaterne er offentligt tilgængelige; og 7) om den statistiske usikkerhed formidles.

Tabel 1: Sammenligning af vægtede gennemsnit

Politologi Prognose Risbjerg-snittet Berlingske Barometer Ritzau Index
Alle institutter Ja Nej Nej Nej
Antal målinger Alle fra valgperioden Målinger fra den seneste måned Målinger fra de seneste 31 dage Seneste 15 målinger
Estimering af huseffekter Ja Nej Nej Nej
Minimumskrav Ingen Ingen Ingen Minimum 15 målinger hvor et parti indgår
Vægter nye målinger højest Ja Uklart Ja Ja
Offentligt tilgængelige resultater Ja Nej Ja Ja
Rapportering af statistisk usikkerhed Ja Ja Nej Nej

Før jeg beskriver detaljerne i tabellen yderligere, skal jeg nævne, at jeg tager forbehold for, at jeg kan have misforstået noget ved de vægtede snit, og såfremt der er fejl eller mangler, skal jeg selvfølgelig nok korrigere disse. Ligeledes skal jeg for en god ordens skyld orientere, at jeg står bag Politologi Prognose, hvorfor jeg (u)bevidst kan få den til at fremstå som den bedste prognose blandt de fire. Jeg vil holde mig fra at lave en sådan vurdering i dette indlæg.

De fleste vægtede gennemsnit inkluderer ikke meningsmålinger fra Megafon. Sådan har det været i årevis, hvor Megafon eksplicit har frabedt sig dette. Jeg har ikke fået en henvendelse fra Megafon, hvorfor jeg antager, at det er acceptabelt, at de er inkluderet i Politologi Prognose. Politologi Prognose er dermed det eneste vægtede snit, der inkluderer meningsmålinger fra alle institutter.

De vægtede snit bruger ikke de samme meningsmålinger. Risbjerg-snittet og Berlingske Barometer anvender begge de nyeste meningsmålinger (meningsmålinger der er ældre end en måned, er ikke inkluderet). Ritzau Index tager ikke højde for, hvornår meningsmålingerne er lavet, men blot at de er blandt de seneste 15 meningsmålinger. Politologi Prognose anvender uden sammenligning flest meningsmålinger ved at kigge på alle meningsmålinger i perioden fra det seneste folketingsvalg frem til og med den seneste meningsmåling.

Dette fører til en af de primære forskelle mellem Politologi Prognose og de andre vægtede gennemsnit. Mere konkret at Politologi Prognose estimerer huseffekter, altså systematiske forskelle i, hvordan analyseinstitutterne generelt betragtet vurderer (eller ikke vurderer) partierne forskelligt (se dette indlæg for henvisninger til mere information omkring huseffekter). Ved at bruge et større datamateriale har Politologi Prognose nemmere ved at opfange nye tendenser i meningsmålingerne, uden blot at samle op på tilfældig støj. De vægtede snit der anvender de seneste meningsmålinger, men som ikke korrigerer for, hvor disse meningsmålinger kommer fra, vil i overvejende grad primært formidle et gennemsnit af Voxmeters resultater (da de kommer med flere meningsmålinger end de andre institutter).

De fleste vægtede gennemsnit har ingen eksplicitte minimumskrav til, hvornår et nyt parti skal inkluderes. Undtagelsen her er Ritzau Index, der først inkluderer et nyt parti, når de er at finde i mindst 15 meningsmålinger. Det vil sige at Ritzau Index skal have et parti med i alle de respektive meningsmålinger, de kigger på i deres vægtede snit, før de inkluderes.

De vægtede snit vægter som regel nye målinger højest, om end det er uklart i hvilket omfang dette finder sted i Risbjerg-snittet. Dette da det blot er den seneste måneds meningsmålinger, der inkluderes, hvorfor det nok ikke vil have den store betydning i sidste instans. Det er således også begrænset, hvor meget information vi har om, hvor meget mere nye målinger vægtes højere. I Politologi Prognose estimeres en model, hvor der gives estimater for hver dag for, hvor stor opbakningen er til de respektive partier. Det vægtede gennemsnit er således blot estimaterne for den dag, modellen er estimeret.

De fleste vægtede snit er offentligt tilgængelige, så det er muligt for alle at få information om, hvordan partierne klarer sig i meningsmålingerne. Undtagelsen her er Risbjerg-snittet, der af samme grund primært er af interesse for journalister og andre fagprofesionelle, der har adgang til indholdet bag Altingets betalingsmur.

Det sidste jeg har kigget på er, hvorvidt de vægtede snit formidler den statistiske usikkerhed. Hverken Berlingske Barometer eller Ritzau Index rapporterer den statistiske usikkerhed ved de vægtede snit. Den statistiske usikkerhed er som bekendt lavere end ved enkeltmålinger, men det er vigtigt at huske på, at vi trods alt stadig har en statistisk usikkerhed. Ved Politologi Prognose formidles den statistiske usikkerhed for hvert parti, og for Risbjerg-snittet formidles den som det højeste usikkerhedsestimat, eksempelvis: “Den statistiske usikkerhed på snittet for de enkelte partier er højst +/- 1,3 procentpoint.”

Dette er ikke en udtømmende gennemgang af alt, hvad man kan kigge på, når vi kigger på de vægtede genenmsnit. Som jeg nævnte i mit forrige indlæg, er det eksempelvis muligt at give nogle analyseinstitutter større indflydelse, hvis de har for vane at ramme valgresultatet mere præcist. Mig bekendt tager ingen af de nuværende danske vægtede gennemsnit dette i betragtning.

Ovenstående genenmgang er som sagt ikke en øvelse i at vurdere, hvilket vægtet snit, der er bedst. Der er forskelle og ligheder, og min plan er ikke at øge konkurrencen mellem disse snit (tværtimod tror jeg kun det er sundt, at der er forskellige snit med forskellige tilgange), men at øge transparensen og vores opmærksomhed på, hvordan disse vægtede gennemsnit er skruet sammen. Hvis nogen skulle have interesse heri, står det dem frit for at lave et kvalitetsvægtet gennemsnit af de vægtede gennemsnit.

Min tilgang til de vægtede gennemsnit og deres anvendelighed er blevet mere kritisk og pessimistisk med årenes gang (sammenlign eventuelt mit indlæg fra 2013 med mit indlæg fra 2020). Derfor ønsker jeg heller ikke, at ovenstående skal tage fokus fra enkeltmålingernes relevans. Min tilgang er nu, at det er vigtigt ikke blot at kigge på én meningsmåling, når vi skal vurdere, hvordan partierne står i målingerne, men at vi ej heller skal reducere et partis opbakning til et estimat i ét vægtet gennemsnit.

Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #2

Hvis to meningsmålinger begge viser, at opbakningen til Socialdemokratiet er på 25%, tror jeg på, at opbakningen til Socialdemokratiet ligger på omkring 25%. Hvis én meningsmåling viser, at Socialdemokratiet ligger på 20% og en anden meningsmåling viser, at partiet ligger på 30%, tror jeg ikke i højere grad på, at partiet ligger på 25%.

Jo mere der er brug for et vægtet gennemsnit af meningsmålingerne, desto mindre stoler jeg på det vægtede gennemsnit. Hvis alle meningsmålinger viste det samme, ville det ganske enkelt ikke være afgørende at bruge et vægtet gennemsnit (med mindre man blot vil reducere den statistiske støj).

Ingen analyse er bedre end de data, man har til rådighed. De vægtede gennemsnit er fantastiske til at minimere eventuelle fejl ved én meningsmåling og give et samlet bud på, hvordan de politiske partier klarer sig.

Sandheden er dog at kvalitetsvægtede gennemsnit primært tager højde for støj i meningsmålingerne (altså forskelle mellem meningsmålingerne) og ikke systematiske fejl, der skubber alle meningsmålinger i en bestemt retning. Hvis alle meningsmålinger eksempelvis overestimerer opbakningen til Dansk Folkeparti, vil et vægtet gennemsnit ikke komme tættere på et korrekt estimat. Tværtimod vil standardfejlene omkring et forkert estimat være mindre, og vi vil foranlediges til at tro, at der er mindre usikkerhed.

I et tidligere indlæg (fra 2013) skrev jeg, at vægtede gennemsnit er at foretrække, og dette mener jeg selvfølgelig stadigvæk, men det er interessant at se, at der ikke blev plads til nogle forbehold. Ikke så meget som ét lille forbehold, fandt jeg relevant at få med. Indlægget konkluderer blot, at vægtede gennemsnit er løsningen på vores problemer, men jeg finder det relevant at gå i dybden med nogle af de relevante forbehold.

Der findes ikke én måde at lave et vægtet gennemsnit. Der er en lang række af spørgsmål, man skal forholde sig til. Hvor mange meningsmålinger skal indgå i et vægtet snit? Skal alle analyseinstitutter have samme indflydelse – eller skal eksempelvis de institutter, der ramte sidste valg bedre, vægtes højere? Nyere meningsmålinger skal vægtes højere end ældre meningsmålinger, men hvor meget mere? Svarene på disse spørgsmål er ikke nødvendigvis oplagte, og det er en af grundene til, at forskellige vægtede gennemsnit ej heller giver de samme estimater.

Ved forrige valg tyder det på, at meningsmålingerne opfangede nogle vælgervandringer i valgkampens sidste dage. Meningsmålingerne var dermed mere præcise i dagene op til valget end de var i ugerne op til valget (YouGov kan være undtagelsen her). Et godt vægtet gennemsnit skal på den ene side være konservativt og ikke blot følge ukritisk med, når et par meningsmålinger viser store forandringer, men på den anden side også være i stand til at opsamle disse forandringer. Min vurdering er således, at jo mere et vægtet snit vejede nye meningsmålinger over ældre målinger, desto bedre ramte det vægtede snit valgresultatet.

Der er dog intet samlet overblik over, hvordan vægtede snit forholder sig til forskellige meningsmålinger. Dette bringer os videre til en anden udfordring ved de vægtede gennemsnit: Der er begrænset eller ingen transparens omkring, hvordan disse snit er lavet. Med andre ord gives der meget sjældent eksplicit svar på ovennævnte spørgsmål. På samme måde som vi ved meget lidt om, hvordan individuelle meningsmålinger konstrueres, ved vi meget lidt om, hvad der går ind i den ‘black box’, der er et vægtet gennemsnit. Dette er også et forbehold, der er relevant ift. det snit af meningsmålingerne, jeg præsenterer på Politologi Prognose. Et fantastisk eksempel på en undtagelse, hvor alt materiale er offentligt tilgængeligt, er The Economists model for det kommende præsidentvalg i USA.

Kigger man på den videnskabelige litteratur kan man finde forskellige modeller for vægtede gennemsnit appliceret på politiske meningsmålinger i lande som Australien (Jackman 2005), England (Fisher et al. 2011; Hanretty et al. 2016), Frankrig (Arzheimer og Evans 2014), Irland (Louwerse 2016), Mexico (Cantú et al. 2016), Sverige (Walther 2015), Tyskland (Michaelis 2018) og selvfølgelig USA (Wright og Wright 2018).

En af grundene til, at der er forskellige modeller, er blandt andet, at de forsøger at tage højde for specifikke kontekstuelle forhold. Der er eksempelvis stor forskel på om du ønsker at lave et vægtet gennemsnit af meningsmålingerne i USA eller i Danmark. I en dansk kontekst med et flerpartisystem med relativt få meningsmålinger fra få institutter, skal vi selvsagt tage højde for, at det ikke blot er to partier, meningsmålingerne skal give bud på.

Min prognose bygger på flere af ovennævnte studier (primært Simon Jackmans model). Konkret estimeres partiernes opbakning i en Bayesiansk analyse, der ikke giver konfidensintervaller men troværdighedsintervaller. Disse har en meget mere intuitiv tolkning når det kommer til usikkerhed, der giver mulighed for at lave den tolkning, læsere og journalister ofte ønsker at foretage (eksempelvis at at vi er 95% sikre på, at opbakningen til Venstre ligger et sted mellem 22% og 26%). Dertil kan det også tilføjes, at posterior fordelingen er en Beta fordeling, der gør, at 95% troværdighedsintervallet ikke nødvendigvis er normalfordelt.

En grundlæggende antagelse er, at partierne ikke ændrer drastisk opbakning fra dag til dag. Til at tage højde for dette anvendes en Kalman filter-metode, der ofte bruges når man arbejder med tidsseriedata. Overordnet betyder dette, at selvom opbakninge til partierne kan ændre sig på kort sigt, vil de næppe miste og få mange vælgere i løbet af få dage.

En anden antagelse er relateret til huseffekter (jeg har skrevet om huseffekter før, se eksempelvis her). Vi antager med huseffekterne at resultaterne fra det “gennemsnitlige” analyseinstitut er korrekte, hvorfor gennemsnittet af disse huseffekter er 0. Denne antagelse er yderst vigtig, da implikationen er, at hvis alle meningsmålinger tager systematisk fejl (altså tager fejl “i samme retning”), vil det vægtede snit ikke tage højde for dette.

Er der måder hvorpå disse vægtede snit kan forbedres yderligere? Helt sikkert. En interessant udvidelse er at kombinere meningsmålingsdata med anden data (evt. økonomiske data), så der kan gives egentlige forudsigelser på, hvordan partierne vil klare sig ved et valg (for en introduktion til en sådan tilgang henvises til Stoetzer et al. 2019). Personligt er jeg dog ikke overbevist om en oplagt applikation i en dansk kontekst, da der er mange forbehold der ændrer sig fra valg til valg (herunder ofte nye partier, der stiller op for første gang).

De vægtede snit er – alt andet lige – at foretrække over enkeltmålinger. Dette er dog ikke det samme som, at vægtede snit er uden begrænsninger eller altid vil ramme bedre end specifikke enkeltmålinger. Afslutningsvis vil jeg derfor give to anbefalinger med på vejen. For det første, kig gerne på flere enkeltmålinger såvel som flere vægtede snit, når du skal have en idé om, hvordan partierne klarer sig. For det andet, brug din kritiske sans. Meningsmålingerne kan tage fejl (og rammer derfor sjældent 100% plet), men de vægtede snit kan kun adressere en bestemt type af disse fejl.