Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #7

FiveThirtyEight har netop introduceret deres nye kvalitetsvægtede gennemsnit af meningsmålinger i USA. Introduktionen til deres nye gennemsnit kan findes her og du kan læse mere om metoden bag her. Baggrunden er, at Nate Silver ikke længere er ansat hos FiveThirtyEight. Nate Silver havde alle rettigheder til de modeller, der blev anvendt (jvf. et indlæg på hans Substack), hvorfor det kun var et spørgsmål om tid, før der ville komme nye modeller.

Det er nu G. Elliott Morris, der blandt andet stod bag The Economists model ifm. præsidentvalget i 2020 og har skrevet en fin bog om meningsmålinger (som jeg anmeldte i et tidligere indlæg), der står i spidsen for FiveThirtyEights nye kvalitetsvægtede gennemsnit af meningsmålingerne. Det er ingen hemmelighed, at Nate Silver ikke offentligt har været en stor beundrer af G. Elliott Morris arbejde – og vice versa. Det interessante ved denne ændring er således, som jeg skrev i mit forrige indlæg, at Nate Silver og G. Elliott Morris har forskellige tilgange til kvalitetsvægtede gennemsnit, hvor førstnævnte har været fortaler for en resultatorienteret tilgang og sidstnævnte en metodeorienteret tilgang. Derfor er det oplagt at kigge nærmere på, hvordan FiveThirtyEights nye kvalitetsvægtede gennemsnit ser ud.

Der er i min optik seks nævneværdige aspekter i forbindelse med FiveThirtyEights nye kvalitetsvægtede gennemsnit:

Ingen nye resultater. Den nye model hos FiveThirtyEight præsenterer en lang række mindre justeringer, men i det store hele er nyheden, at det ikke substantielt påvirker resultaterne. I introduktionsartiklen præsenteres en sammenligning af gamle og nye resultater, hvor man kan se, at der ikke er tale om radikale ændringer i, hvad tallene viser. Det er på alle tænkelige måder en god ting og viser blot, at det primært handler om kvaliteten af meningsmålingerne, der kommer ind i et vægtet snit, mere end det handler om kvaliteten af vægtningen. Resultaterne af forskellige kvalitetsvægtede gennemsnit vil således ofte være noget nær identiske (hvilket også synes at være tilfældet, når jeg har sammenlignet udviklingen i forskellige kvalitetsvægtede gennemsnit ifm. folketingsvalg).
Forskellige modeller til forskellige meningsmålinger. Der er ikke tale om én ny model til at levere kvalitetsvægtede gennemsnit. Hvor der tidligere har været tale om en one-size-fits-all tilgang, bliver der nu anvendt én bestemt model til popularitetsmålinger og én bestemt model til præsidentvalg, der bygger på nogle forskellige antagelser. Ræsonnementet er blandt andet, at nogle holdninger historisk ændrer sig mindre fra måling til måling, hvilket kan tages i betragtning i modelparametrene.
Statistisk usikkerhed på alle kvalitetsvægtede gennemsnit. Der bliver nu vist statistisk usikkerhed på tværs af alle kvalitetsvægtede gennemsnit. Det er selvsagt en klar forbedring. Forklaringen herpå beskrives i introduktionen til den nye model: “This is to emphasize that even an average of all the publicly available polls that meet our standards for inclusion isn’t a foolproof way of measuring public opinion — there is still some uncertainty.” Jeg har tidligere skrevet om, at der også i en dansk kontekst er forskelle i, om et kvalitetsvægtet gennemsnit rapporterer statistisk usikkerhed eller ej, og min holdning er den simple, at det at nævne den statistiske usikkerhed altid er en styrke.
Dynamiske gennemsnit og huseffekter. Den nye model er overordnet betragtet mere dynamisk end den gamle model, især i forhold til hvordan antallet af meningsmålinger fra forskellige analyseinstitutter kan ændre sig over tid. Der kan eksempelvis være perioder, hvor man ser flere meningsmålinger, herunder flere meningsmålinger fra få institutter. Det betyder således også, at huseffekterne kan ændre sig over tid.
Inkluderende selektionskriterier. I et indlæg skrevet af G. Elliott Morris tidligere i år, forklarer han blandt andet, at han ikke stoler på meningsmålinger fra institutter som Rasmussen Reports og Trafalgar Group. Hvis man kigger på de seneste meningsmålinger, der er inkluderet i den nye model, finder man dog blandt andre Rasmussen Reports. FiveThirtyEight holder med andre ord fast i meget inkluderede selektionskriterier, eller som det beskrives i metodeartiklen: “FiveThirtyEight’s philosophy is to collect as many polls as possible for every topic or race we’re actively tracking — so long as they are publicly available and meet our basic criteria for inclusion.”
Modellen er ikke offentlig tilgængelig. Da G. Elliott Morris stod i spidsen for The Economists model ifm. præsidentvalget i 2020, var alt materiale offentligt tilgængeligt på GitHub. Det eneste der i skrivende stund er tilgængeligt på GitHub er resultaterne fra den gamle model. Mit gæt er at koden til de nye modeller ikke vil blive gjort offentligt tilgængelige. G. Elliott Morris’ aktivtet på GitHub de seneste uger bekræfter, at alle commits er lavet i private repositories. Dette skal på ingen måde forstås som en kritik af den nye model (al kode bag mit eget kvalitetsvægtede gennemsnit ifm. folketingsvalget 2022 var heller ikke offentligt tilgængeligt). Der er dog alt andet lige ikke tale om en klar forbedring, hvad angår åbne data.

Det er altid interessant at se nye bud på kvalitetsvægtede gennemsnit af meningsmålingerne, herunder hvordan de forholder sig til og formidler statistisk usikkerhed. Min umiddelbare vurdering er, at FiveThirtyEights nye model er en forbedring (især at der nu formidles statistisk usikkerhed på alle kvalitetsvægtede gennemsnit), men at forandringerne i det store hele nok er mere interessante for metodenørder end den gennemsnitlige forbruger af politiske meningsmålinger.