Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #2

Hvis to meningsmålinger begge viser, at opbakningen til Socialdemokratiet er på 25%, tror jeg på, at opbakningen til Socialdemokratiet ligger på omkring 25%. Hvis én meningsmåling viser, at Socialdemokratiet ligger på 20% og en anden meningsmåling viser, at partiet ligger på 30%, tror jeg ikke i højere grad på, at partiet ligger på 25%.

Jo mere der er brug for et vægtet gennemsnit af meningsmålingerne, desto mindre stoler jeg på det vægtede gennemsnit. Hvis alle meningsmålinger viste det samme, ville det ganske enkelt ikke være afgørende at bruge et vægtet gennemsnit (med mindre man blot vil reducere den statistiske støj).

Ingen analyse er bedre end de data, man har til rådighed. De vægtede gennemsnit er fantastiske til at minimere eventuelle fejl ved én meningsmåling og give et samlet bud på, hvordan de politiske partier klarer sig.

Sandheden er dog at kvalitetsvægtede gennemsnit primært tager højde for støj i meningsmålingerne (altså forskelle mellem meningsmålingerne) og ikke systematiske fejl, der skubber alle meningsmålinger i en bestemt retning. Hvis alle meningsmålinger eksempelvis overestimerer opbakningen til Dansk Folkeparti, vil et vægtet gennemsnit ikke komme tættere på et korrekt estimat. Tværtimod vil standardfejlene omkring et forkert estimat være mindre, og vi vil foranlediges til at tro, at der er mindre usikkerhed.

I et tidligere indlæg (fra 2013) skrev jeg, at vægtede gennemsnit er at foretrække, og dette mener jeg selvfølgelig stadigvæk, men det er interessant at se, at der ikke blev plads til nogle forbehold. Ikke så meget som ét lille forbehold, fandt jeg relevant at få med. Indlægget konkluderer blot, at vægtede gennemsnit er løsningen på vores problemer, men jeg finder det relevant at gå i dybden med nogle af de relevante forbehold.

Der findes ikke én måde at lave et vægtet gennemsnit. Der er en lang række af spørgsmål, man skal forholde sig til. Hvor mange meningsmålinger skal indgå i et vægtet snit? Skal alle analyseinstitutter have samme indflydelse – eller skal eksempelvis de institutter, der ramte sidste valg bedre, vægtes højere? Nyere meningsmålinger skal vægtes højere end ældre meningsmålinger, men hvor meget mere? Svarene på disse spørgsmål er ikke nødvendigvis oplagte, og det er en af grundene til, at forskellige vægtede gennemsnit ej heller giver de samme estimater.

Ved forrige valg tyder det på, at meningsmålingerne opfangede nogle vælgervandringer i valgkampens sidste dage. Meningsmålingerne var dermed mere præcise i dagene op til valget end de var i ugerne op til valget (YouGov kan være undtagelsen her). Et godt vægtet gennemsnit skal på den ene side være konservativt og ikke blot følge ukritisk med, når et par meningsmålinger viser store forandringer, men på den anden side også være i stand til at opsamle disse forandringer. Min vurdering er således, at jo mere et vægtet snit vejede nye meningsmålinger over ældre målinger, desto bedre ramte det vægtede snit valgresultatet.

Der er dog intet samlet overblik over, hvordan vægtede snit forholder sig til forskellige meningsmålinger. Dette bringer os videre til en anden udfordring ved de vægtede gennemsnit: Der er begrænset eller ingen transparens omkring, hvordan disse snit er lavet. Med andre ord gives der meget sjældent eksplicit svar på ovennævnte spørgsmål. På samme måde som vi ved meget lidt om, hvordan individuelle meningsmålinger konstrueres, ved vi meget lidt om, hvad der går ind i den ‘black box’, der er et vægtet gennemsnit. Dette er også et forbehold, der er relevant ift. det snit af meningsmålingerne, jeg præsenterer på Politologi Prognose. Et fantastisk eksempel på en undtagelse, hvor alt materiale er offentligt tilgængeligt, er The Economists model for det kommende præsidentvalg i USA.

Kigger man på den videnskabelige litteratur kan man finde forskellige modeller for vægtede gennemsnit appliceret på politiske meningsmålinger i lande som Australien (Jackman 2005), England (Fisher et al. 2011; Hanretty et al. 2016), Frankrig (Arzheimer og Evans 2014), Irland (Louwerse 2016), Mexico (Cantú et al. 2016), Sverige (Walther 2015), Tyskland (Michaelis 2018) og selvfølgelig USA (Wright og Wright 2018).

En af grundene til, at der er forskellige modeller, er blandt andet, at de forsøger at tage højde for specifikke kontekstuelle forhold. Der er eksempelvis stor forskel på om du ønsker at lave et vægtet gennemsnit af meningsmålingerne i USA eller i Danmark. I en dansk kontekst med et flerpartisystem med relativt få meningsmålinger fra få institutter, skal vi selvsagt tage højde for, at det ikke blot er to partier, meningsmålingerne skal give bud på.

Min prognose bygger på flere af ovennævnte studier (primært Simon Jackmans model). Konkret estimeres partiernes opbakning i en Bayesiansk analyse, der ikke giver konfidensintervaller men troværdighedsintervaller. Disse har en meget mere intuitiv tolkning når det kommer til usikkerhed, der giver mulighed for at lave den tolkning, læsere og journalister ofte ønsker at foretage (eksempelvis at at vi er 95% sikre på, at opbakningen til Venstre ligger et sted mellem 22% og 26%). Dertil kan det også tilføjes, at posterior fordelingen er en Beta fordeling, der gør, at 95% troværdighedsintervallet ikke nødvendigvis er normalfordelt.

En grundlæggende antagelse er, at partierne ikke ændrer drastisk opbakning fra dag til dag. Til at tage højde for dette anvendes en Kalman filter-metode, der ofte bruges når man arbejder med tidsseriedata. Overordnet betyder dette, at selvom opbakninge til partierne kan ændre sig på kort sigt, vil de næppe miste og få mange vælgere i løbet af få dage.

En anden antagelse er relateret til huseffekter (jeg har skrevet om huseffekter før, se eksempelvis her). Vi antager med huseffekterne at resultaterne fra det “gennemsnitlige” analyseinstitut er korrekte, hvorfor gennemsnittet af disse huseffekter er 0. Denne antagelse er yderst vigtig, da implikationen er, at hvis alle meningsmålinger tager systematisk fejl (altså tager fejl “i samme retning”), vil det vægtede snit ikke tage højde for dette.

Er der måder hvorpå disse vægtede snit kan forbedres yderligere? Helt sikkert. En interessant udvidelse er at kombinere meningsmålingsdata med anden data (evt. økonomiske data), så der kan gives egentlige forudsigelser på, hvordan partierne vil klare sig ved et valg (for en introduktion til en sådan tilgang henvises til Stoetzer et al. 2019). Personligt er jeg dog ikke overbevist om en oplagt applikation i en dansk kontekst, da der er mange forbehold der ændrer sig fra valg til valg (herunder ofte nye partier, der stiller op for første gang).

De vægtede snit er – alt andet lige – at foretrække over enkeltmålinger. Dette er dog ikke det samme som, at vægtede snit er uden begrænsninger eller altid vil ramme bedre end specifikke enkeltmålinger. Afslutningsvis vil jeg derfor give to anbefalinger med på vejen. For det første, kig gerne på flere enkeltmålinger såvel som flere vægtede snit, når du skal have en idé om, hvordan partierne klarer sig. For det andet, brug din kritiske sans. Meningsmålingerne kan tage fejl (og rammer derfor sjældent 100% plet), men de vægtede snit kan kun adressere en bestemt type af disse fejl.