Er Socialdemokratiet gået tilbage i meningsmålingerne? #2

For snart et år siden kunne Altinget rapportere, at opbakningen til Socialdemokratiet var begyndt at stilne af. I et indlæg pointerede jeg, at der ikke var meget der tydede på, at opbakningen til Socialdemokratiet havde ændret sig. Mere specifikt konkluderede jeg:

Det er sandsynligt at opbakningen ikke vil forblive så høj, som den er nu, men der er i min optik intet der taler for, at der er sket noget nyt i meningsmålingerne, når vi kigger på Socialdemokratiet. Min vurdering er, at der skal mere til, før at Socialdemokratiet falder i målingerne, end hvad vi har set nu, men dette udelukker selvfølgelig ikke, at partiets opbakning kan blive mindre (eller større) i fremtiden.

Hvis vi kigger på Socialdemokratiets opbakning i løbet af det seneste år, er der ikke meget der taler for, at partiet har rykket sig nævneværdigt i målingerne:

Nuvel, det går lidt op og lidt ned, men sjældent noget der kan siges at være statistisk signifikant. Forskellene mellem analyseinstitutterne er oftest større end forskellene inden for samme, og det er primært kun enkeltmålinger, der taler for en fremgang eller tilbagegang, hvor efterfølgende meningsmålinger blot bekræfter, at opbakningen til partiet er relativt stabil.

I løbet af de seneste par dage har vi fået to nye målinger. Den seneste meningsmåling fra Voxmeter, som også er den første meningsmåling fra Voxmeter siden sommerferien, viser, at Socialdemokratiet ligger på omkring samme niveau som før sommerferien. Det vil sige omkring de 30%. Målingen fra før sommerferien viste en opbakning på 28,4%, hvor den seneste måling fra Voxmeter viser 30,3%. Det er en forskel på 1,9 procentpoint.

Hvorfor er dette interessant? Fordi Ritzau tolker den seneste meningsmåling fra Voxmeter som en fremgang til partiet. Se eksempelvis dækningen hos Kristeligt Dagblad eller B.T., der indledes med ordene: “Socialdemokratiet ser ud til igen at have fået medvind hos vælgerne efter en række meningsmålinger hen over sommeren med faldende opbakning til regeringspartiet.”

Til Ritzaus forsvar skal det nævnes, at de erkender, at der er en statistisk usikkerhed, der er større end de ovennævnte 1,9 procentpoint for Socialdemokratiet: “Med til målingen hører, at der er en statistisk usikkerhed. Den maksimale statistiske usikkerhed ligger på 2,8 procentpoint, som gælder for Socialdemokratiet.” Det er en ren tilståelsessag.

Dette holder dog ikke Ritzau fra at lave endnu en historie om forandringer på baggrund af meningsmålingen. En måling – hvor hovedhistorien burde handle om stabilitet (hvilket giver god mening, da der trods alt har været politisk sommerferie), afføder en artikel om, at målingen viser, at “S går styrket ind til politisk sæson”. Det er i hvert fald hvad Altingets politiske kommentator angiveligt får ud af målingen. Også selvom målingen ikke viser nogen forandring.

Kigger vi på den seneste meningsmåling fra Gallup (fra 5. august), viser den heller ikke de store forandringer i løbet af sommeren, eller som Berlingske konkluderer: Sommeren har ikke rykket det store i meningsmålingerne. Her kommer de dog frem til en helt anden konklusion, nemlig at Gallup-målingen “varsler svær periode for Mette Frederiksen”.

Vi har altså at gøre med to meningsmålinger, der begge viser, at vælgerne ikke har rykket sig i løbet af sommeren, men hos et medie er det udtryk for, at Socialdemokratiet går styrket ind i den politiske sæson, hvor det hos et andet medie er udtryk for, at det bliver en svær periode for Socialdemokratiet. Så skulle der være noget til enhver politisk smag. Det er altid imponerende, hvordan journalister kan bedrive denne slags kaffegrumslæsningsjournalistik.

Gik Socialdemokratiet tilbage før sommerferien? Er de vendt stærkt tilbage over sommeren? Varsler målingerne en svær periode for partiet? Det er muligt at nogle enkeltmålinger kan bruges til at tegne forskellige billeder (især hvis man ignorerer den statistiske usikkerhed), men fra min læsning af tallene tyder det mest af alt på, at vælgerne ikke nødvendigvis har rykket sig over sommeren – og Socialdemokratiet står akkurat hvor de stod, før de gik på sommerferie.

Which party do you think is most likely to agree?

In a new poll, JL Partners surveyed more than 2,000 respondents to understand how the public perceives the Labour Party and the Conservative Party on a series of different “woke” topics. The Daily Mail uses the poll to conclude that “Sir Keir Starmer’s Labour Party is out of touch with public opinion”. Is that what the poll finds? No.

The question wording was “For each of the following issues, please indicate which of the main two parties is more likely to agree with it.” and the ideas include statements such as “Statues of historical figures being taken down” and “Shorter sentences for criminals”. The figure below shows the results together with information on the percentage of the public supporting these ideas.

The Campaign For Common Sense, which has nothing to do with common sense, concluded that “the Conservatives can confidently take a stand on these issues knowing that they are more in tune with the British public.” However, it is not possible to use the data in the survey to draw such a conclusion.

The problem is that we cannot use the question to understand 1) whether any of the parties actually support the ideas (both parties might reject them) or 2) whether both parties actually support the ideas (both parties might support them).

To understand why, consider if the idea had been “An income tax rate of 75%”. Most people would say that Labour would be most likely to agree with this idea, but that is not the same as Labour would support such an idea. And most voters would most likely say, if asked, that Labour is not currently supporting such an idea. For that reason, it is not possible to use the answers in the survey to say anything meaningful about whether any of the parties are more in tune with the British public in relation to the specific ideas.

If the Campaign For Common Sense was interested in showing what party was most in tune with the British public, they would need to ask questions about whether the public believes that the parties support certain ideas – not about which party is most likely to agree.

Hyperintelligente superalgoritmer

Politiken kan fortælle, at “en digital superalgoritme med hidtil uset præcision” kan kortlægge hadefulde kommentarer på Facebook. Jeg har ingen idé om, hvad en superalgoritme er, men det skal man nok være enten astrofysiker eller journalistpraktikant for at vide. I en anden artikel kalder Politiken det for en “hyperintelligent algoritme”. Jeg ved heller ikke, hvad dette er. Der er intet i de pågældende artikler, der giver anledning til at konkludere, at der er tale om noget ekstraordinært.

Her er et godt råd til, når du læser artikler omkring kunstig intelligens (AI), maskinlæring, big data og lignende: Jo mere begrebsmæssig hype der er, desto mindre er der at tage seriøst. Hvis der virkelig er noget at komme efter, er der ikke brug for at pakke indholdet ind i termer som hyperintelligente superalgoritmer.

Det er ikke første gang vi ser denne slags artikler, men det er nok sidste gang du vil høre om den konkrete algoritme. Jeg udelukker ikke, at vi kommer til at støde på den konkrete algoritme (eller mere specifikt de to algoritmer) igen, men det er svært at se – med den information, der er offentlig tilgængelig – hvad der er selve nyhedsværdien set fra et maskinlæringsperspektiv.

I forhåndenværende tilfælde ser jeg primært Politikens dækning som en annonce for et analysebureau ved navn Analyse & Tal, der har en interesse i at skabe så meget hyperintelligent hype som muligt omkring deres superkompetencer (og derfor selvsagt ikke evner at forholde sig kritisk til deres produkt i et omfang man kunne ønske, hvis man skulle tage deres arbejde alvorligt i forhold til at forbedre den demokratiske samtale på sociale medier).

Konkret viser deres arbejde, at deres algoritme kan præsentere en F1-score (et samlet mål for præcision og genkaldelse), der har en værdi, der er 0,02 bedre end den hidtil bedste danske algoritme (når det kommer til at identificere sproglige angreb). Det er meget pæne resultater, men jeg vil undlade at gøre mig klog på, hvad der kan betegnes som “hidtil uset præcision”.

Der foreligger ingen (forsknings)artikel eller teknisk appendiksmateriale, der beskriver algoritmen med det mærkværdige navn At&tack-Ha&te (igen, som en annonce for Analyse & Tal), så jeg skal også holde mig fra en egentlig gennemgang af deres metode (du kan finde en introduktion i præsentationsformat her). Der er så mange detaljer, der er udeladt i det offentligt tilgængelige materiale, at det end ikke giver mening at kommentere på resultaterne. Jeg kan dog blot nævne, at det umiddelbart virker som et godt eksempel på, at deep learning ikke nødvendigvis giver dybe indsigter – med mindre Analyse & Tal selvfølgelig ligger inde med nogle guldkorn, de ikke har præsenteret for offentligheden.

Jeg forstår godt, at Politiken såvel som Analyse & Tal har en fælles interesse i at gøre ting mere revolutionerende end de er med begreber som hyperintelligente superalgoritmer, men der er absolut intet i det offentligt tilgængelige materiale, der besvarer, hvad der er hyperintelligent og/eller super ved deres algoritmer.

Hvor mange vil stemme på Lars Løkke Rasmussens parti? #2

I et tidligere indlæg kiggede jeg nærmere på en meningsmåling, der påstod, at 20 procent af vælgerne vil overveje at stemme på Lars Løkke Rasmussen og/eller hans nye parti. I indlægget gentog jeg nogle af de kritikpunkter, jeg tidligere har fremført, når medierne og analyseinstitutterne forsøger at belyse, hvor stor opbakningen er til et nyt parti, der ikke er med i de traditionelle meningsmålinger.

Ét af mine kritikpunkter i mit indlæg var, at der ikke engang var tale om et egentligt parti endnu, men et potentielt parti. Siden da har Lars Løkke bekræftet, at der er tale om et politisk parti. Partinavnet er der dog stadig ingen, der kender til.

Vi ved stadig ikke, hvor mange der sandsynligvis vil stemme på Lars Løkke Rasmussens parti, før vi har en meningsmåling, hvor vælgerne bliver spurgt om, hvilket parti de ville stemme på, hvis der var valg i dag – og Lars Løkke Rasmussens parti er én blandt flere valgmuligheder. En sådan meningsmåling har vi stadig til gode (de fleste analyseinstitutter kræver, at et parti er opstillingsberettiget, før de inkluderer det i deres meningsmålinger). Mit gæt er at YouGov, for hvem kvaliteten af meningsmålingerne er sekundært og ofte underordnet, vil være de første til at inkludere Lars Løkkes parti i målingerne (og sandsynligvis før det er opstillingsberettiget).

Siden jeg skrev mit forrige indlæg, har Voxmeter foretaget to meningsmålinger, der begge spørger respondenterne om følgende: “Hvis Lars Løkke Rasmussen stifter et parti, som bliver opstillingsberettiget til næste Folketingsvalg, hvor sandsynligt er det så, at du ville stemme på et sådant parti?”

Den første måling blev foretaget i perioden fra 19. til 22. januar. Den anden måling blev foretaget fra 9. til 16. april. Lars Løkke offentliggjorde sit parti midt i dataindsamlingsperioden for den anden meningsmåling i en klumme hos BT den 10. april (det er altid godt at kommunikere til laveste fællesnævner, når man vil komme bredt ud med et budskab).

Jeg finder det ikke interessant at kigge alt for meget på tallene. De kunne have været halvt eller dobbelt så store, uden at jeg ville finde dem relevante at formidle. Der er ikke tale om en traditionel meningsmåling, og det er i bedste fald blot en useriøs måde at lave meningsmålinger på. Den overordnede pointe er dog, at 13,6% af vælgerne fandt det sandsynligt at ville stemme på Lars Løkkes parti i januar, men det tal var nede på 9,3% i april. Hvad kan vi bruge denne ændring på 4,3 procentpoint til? Jeg mener ikke, at vi kan bruge disse tal til meget, men det er ikke desto mindre, hvad de viser.

Et af de interessante forhold ved den slags meningsmålinger er, at de altid kan bruges til at lave vidt forskellige historier. Avisen.dk kaldte eksempelvis de 9,3% i målingen fra april for medvind til Lars Løkke på baggrund af et notat fra Ritzau. Igen, jeg vil helst undlade at tolke for meget på de tal, men jeg har svært ved at se, hvordan man kan tolke tallene som medvind.

Jeg har fuld forståelse for, at medierne hjertens gerne vil belyse et nyt partis elektorale potentiale, samt at analyseinstitutterne øjner sig en unik mulighed for at få ekstra omtale, men jeg har vitterligt vanskeligt ved at se anvendeligheden af den slags målinger. Der er langt mere støj i den politiske dækning med den slags målinger, hvor vælgerne fejlagtigt vil tro, at opbakningen til Lars Løkkes nye parti ligger på omkring 9,3% af stemmerne, selvom der absolut intet empirisk belæg er for sådan en opfattelse.

Mit råd vil være at medierne holder sig fra at dække den slags meningsmålinger og fokuserer på andre aspekter ved nye partier, eksempelvis deres politiske profil (og evt. hvad vælgerne synes om disse politiske udmeldinger), og når partiet så er opstillingsberettiget, kan vi belyse, hvor stor opbakning partiet vil få ved næste valg.

Hvor mange vil stemme på Nye Borgerlige? #10

Det er efterhånden længe siden, at jeg sidst kiggede nærmere på, hvor stor opbakningen er til Nye Borgerlige. Den korte forklaring på dette er, at der ikke har været meget nyt at rapportere om, når det handler om hvor enige (eller rettere sagt uenige) medierne og analyseinstitutterne er i forhold til at måle partiets opbakning.

Der er stadig ikke enighed om, hvor stor opbakningen er til Nye Borgerlige. Især YouGov og Voxmeter er fortsat uenige, hvor førstnævnte giver partiet en større opbakning (husk på at YouGov ramte partiet forkert ved valget i 2019). Dette er dog ikke det samme som, at der ikke er sket noget i meningsmålingerne hvad angår Nye Borgerlige. Meningsmålingerne har således i løbet af det seneste år været enige om én ting: Nye Borgerliges opbakning i befolkningen er gået opad.

For et år siden havde Voxmeter partiet omkring spærregrænsen. Nu ligger partiet i Voxmeters målinger stabilt på et sted mellem 5 og 10% af stemmerne. De seneste målinger fra Gallup og Epinion placerer også partiet et sted mellem 5 og 10%. Det interessante er, at jo større opbakningen bliver til partiet, desto mindre uenighed vil der være mellem de fleste analyseinstitutter. Det er derfor også vanskeligt at sige, i takt med at opbakningen til partiet stiger, hvad der kan tilskrives henholdsvis tilfældig støj og systematisk bias i meningsmålingerne. Vi ved at den statistiske usikkerhed er mindre for små partier (lille tilfældig støj), men vi ved også, at analyseinstitutterne har svært ved at ramme nye, små partier (større systematisk bias).

YouGov vil kunne forsvare sig med, at de “måler folkestemningen” og indfanger tendenser før andre institutter, hvorfor de har fat i den lange ende. Dette argument køber jeg dog ikke. De formåede som sagt ikke at ramme valgresultatet i 2019. Når det er sagt er YouGov ikke radikalt langt fra hvad andre analyseinstitutter viser nu. Den seneste YouGov-måling giver Nye Borgerlige 11,7% af stemmerne, hvilket ikke er radikalt langt fra 10%. Jeg finder det dog stadig usandsynligt, at YouGov rammer rigtigt.

Voxmeter lavede i 2016 en fejlagtig meningsmåling, der postulerede, at “hver tiende vil stemme på Nye Borgerlige” (Voxmeter har lavet lignende målinger med Lars Løkkes nye parti, men mere om dette i morgen), men forkerte målinger bliver ikke bedre af, at de rammer rigtigt på et senere tidspunkt. Som jeg pointerede sidste år i Altinget, kan denne slags meningsmålinger netop ende med at blive selvopfyldende profetier. Derfor er det vigtigt, at medierne tager deres dækning af meningsmålingerne seriøst og ikke konkluderer om et parti går op eller ned, før der er systematisk belæg herfor.

Med dette in mente kan vi se på den seneste historie om Nye Borgerlige, der går på, at de går tilbage i meningsmålingerne. Hos Altinget rapporterer de således, at opbakningen til Nye Borgerlige bevæger sig nedad. Konkret stod partiet til at få 10,2% af stemmerne i marts, hvor de i april står til at få 8,9% af stemmerne.

Disse estimater harmonerer fint med, hvad min egeng model viser, altså at partiet lå på omkring 10% i marts og nu ligger lidt lavere. Jeg er dog skeptisk i forhold til at konkludere, at Nye Borgerlige går tilbage i meningsmålingerne. Mit bedste bud er – i skrivende stund – at partiet ligger på omkring 10 procent af stemmerne. Min seneste prognose giver partiet 9,5% af stemmerne. I nedenstående figur viser jeg opbakningen til partiet i meningsmålingerne fra 2020 til i dag.

Jeg finder det usanynligt, at partiet har mistet vælgere på det seneste. Min læsning af tallene er, at opbakningen til partiet er stabiliseret. De har således hverken vundet eller tabt stemmer, men de ændringer vi ser er marginale og skal ikke tilskrives for stor betydning. Altinget kan selvfølgelig gøre, hvad de vil (der skal jo skrives nye historier og deres læsere skal have value for money), men jeg ville ikke selv stå på mål for sådan en tolkning af meningsmålingerne.

Bid desuden mærke i, at jeg her er kritisk i forhold til at konkludere, at Nye Borgerlige går tilbage. Sidst jeg kritiserede mediernes formidling af meningsmålingerne i forhold til Nye Borgerlige, var Uriasposten ude med riven, da nogen ikke evnede at forstå, at jeg kritiserede meningsmålingerne og ikke partiet. Dette tager jeg stille og roligt, da der ikke var nogen sammenhængende kritik, jeg kunne forholde mig til (det eneste denne slags meningsdannere ser er nogle kritiske kommentarer i en kontekst, hvor Nye Borgerlige nævnes, og så går de i emotionelt selvsving). Jeg kan blot fremhæve, at jeg vistnok efterhånden har kritiseret mediernes dækning af alle partier – også venstreorienterede partier (da medierne eksempelvis påstod at Alternativet var over spærregrænsen, kritiserede jeg dette og konkluderede, at der ikke var nogen evidens for denne påstand i meningsmålingerne).

Er det utænkeligt at Nye Borgerlige går tilbage? Nej, men det er et andet spørgsmål, der kun kan besvares, når vi ser på de kommende meningsmålinger. Hvis partiet får negativ dækning (såsom at de går tilbage i meningsmålingerne), er det sågar plausibelt, at de vil miste stemmer. Jeg ser blot ingen tendenser i målingerne, der tyder på, at Nye Borgerlige mister stemmer. Partiet ligger på omkring 9,5% af stemmerne og sådan har det været gennem 2021 indtil videre.

Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #3

I mit forrige indlæg om kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed, kom jeg ind på, at en af grundene til, at der er forskel på de vægtede gennemsnit er, at de ikke anvender samme tilgang:

Der findes ikke én måde at lave et vægtet gennemsnit. Der er en lang række af spørgsmål, man skal forholde sig til. Hvor mange meningsmålinger skal indgå i et vægtet snit? Skal alle analyseinstitutter have samme indflydelse – eller skal eksempelvis de institutter, der ramte sidste valg bedre, vægtes højere? Nyere meningsmålinger skal vægtes højere end ældre meningsmålinger, men hvor meget mere? Svarene på disse spørgsmål er ikke nødvendigvis oplagte, og det er en af grundene til, at forskellige vægtede gennemsnit ej heller giver de samme estimater.

På den baggrund tænkte jeg, at det ville være interessant at lave en sammenligning af de respektive vægtede gennemsnit. Der er fire vægtede gennemsnit i Danmark, der bliver opdateret regelmæssigt: Politologi Prognose, Risbjerg-snittet, Berlingske Barometer og Ritzau Index.

Der er flere ligheder og forskelle mellem de respektive snit, og i tabellen nedenfor har jeg sammenlignet de fire snit på de følgende syv parametre: 1) hvilke institutter, de inkluderer (om det er alle institutter eller ej); 2) antallet af meningsmålinger; 3) om der tages højde for huseffekter; 4) hvilke minimumskrav der er til, at et parti inkluderes; 5) om nyere målinger vægtes højere; 6) om resultaterne er offentligt tilgængelige; og 7) om den statistiske usikkerhed formidles.

Tabel 1: Sammenligning af vægtede gennemsnit

Politologi Prognose Risbjerg-snittet Berlingske Barometer Ritzau Index
Alle institutter Ja Nej Nej Nej
Antal målinger Alle fra valgperioden Målinger fra den seneste måned Målinger fra de seneste 31 dage Seneste 15 målinger
Estimering af huseffekter Ja Nej Nej Nej
Minimumskrav Ingen Ingen Ingen Minimum 15 målinger hvor et parti indgår
Vægter nye målinger højest Ja Uklart Ja Ja
Offentligt tilgængelige resultater Ja Nej Ja Ja
Rapportering af statistisk usikkerhed Ja Ja Nej Nej

Før jeg beskriver detaljerne i tabellen yderligere, skal jeg nævne, at jeg tager forbehold for, at jeg kan have misforstået noget ved de vægtede snit, og såfremt der er fejl eller mangler, skal jeg selvfølgelig nok korrigere disse. Ligeledes skal jeg for en god ordens skyld orientere, at jeg står bag Politologi Prognose, hvorfor jeg (u)bevidst kan få den til at fremstå som den bedste prognose blandt de fire. Jeg vil holde mig fra at lave en sådan vurdering i dette indlæg.

De fleste vægtede gennemsnit inkluderer ikke meningsmålinger fra Megafon. Sådan har det været i årevis, hvor Megafon eksplicit har frabedt sig dette. Jeg har ikke fået en henvendelse fra Megafon, hvorfor jeg antager, at det er acceptabelt, at de er inkluderet i Politologi Prognose. Politologi Prognose er dermed det eneste vægtede snit, der inkluderer meningsmålinger fra alle institutter.

De vægtede snit bruger ikke de samme meningsmålinger. Risbjerg-snittet og Berlingske Barometer anvender begge de nyeste meningsmålinger (meningsmålinger der er ældre end en måned, er ikke inkluderet). Ritzau Index tager ikke højde for, hvornår meningsmålingerne er lavet, men blot at de er blandt de seneste 15 meningsmålinger. Politologi Prognose anvender uden sammenligning flest meningsmålinger ved at kigge på alle meningsmålinger i perioden fra det seneste folketingsvalg frem til og med den seneste meningsmåling.

Dette fører til en af de primære forskelle mellem Politologi Prognose og de andre vægtede gennemsnit. Mere konkret at Politologi Prognose estimerer huseffekter, altså systematiske forskelle i, hvordan analyseinstitutterne generelt betragtet vurderer (eller ikke vurderer) partierne forskelligt (se dette indlæg for henvisninger til mere information omkring huseffekter). Ved at bruge et større datamateriale har Politologi Prognose nemmere ved at opfange nye tendenser i meningsmålingerne, uden blot at samle op på tilfældig støj. De vægtede snit der anvender de seneste meningsmålinger, men som ikke korrigerer for, hvor disse meningsmålinger kommer fra, vil i overvejende grad primært formidle et gennemsnit af Voxmeters resultater (da de kommer med flere meningsmålinger end de andre institutter).

De fleste vægtede gennemsnit har ingen eksplicitte minimumskrav til, hvornår et nyt parti skal inkluderes. Undtagelsen her er Ritzau Index, der først inkluderer et nyt parti, når de er at finde i mindst 15 meningsmålinger. Det vil sige at Ritzau Index skal have et parti med i alle de respektive meningsmålinger, de kigger på i deres vægtede snit, før de inkluderes.

De vægtede snit vægter som regel nye målinger højest, om end det er uklart i hvilket omfang dette finder sted i Risbjerg-snittet. Dette da det blot er den seneste måneds meningsmålinger, der inkluderes, hvorfor det nok ikke vil have den store betydning i sidste instans. Det er således også begrænset, hvor meget information vi har om, hvor meget mere nye målinger vægtes højere. I Politologi Prognose estimeres en model, hvor der gives estimater for hver dag for, hvor stor opbakningen er til de respektive partier. Det vægtede gennemsnit er således blot estimaterne for den dag, modellen er estimeret.

De fleste vægtede snit er offentligt tilgængelige, så det er muligt for alle at få information om, hvordan partierne klarer sig i meningsmålingerne. Undtagelsen her er Risbjerg-snittet, der af samme grund primært er af interesse for journalister og andre fagprofesionelle, der har adgang til indholdet bag Altingets betalingsmur.

Det sidste jeg har kigget på er, hvorvidt de vægtede snit formidler den statistiske usikkerhed. Hverken Berlingske Barometer eller Ritzau Index rapporterer den statistiske usikkerhed ved de vægtede snit. Den statistiske usikkerhed er som bekendt lavere end ved enkeltmålinger, men det er vigtigt at huske på, at vi trods alt stadig har en statistisk usikkerhed. Ved Politologi Prognose formidles den statistiske usikkerhed for hvert parti, og for Risbjerg-snittet formidles den som det højeste usikkerhedsestimat, eksempelvis: “Den statistiske usikkerhed på snittet for de enkelte partier er højst +/- 1,3 procentpoint.”

Dette er ikke en udtømmende gennemgang af alt, hvad man kan kigge på, når vi kigger på de vægtede genenmsnit. Som jeg nævnte i mit forrige indlæg, er det eksempelvis muligt at give nogle analyseinstitutter større indflydelse, hvis de har for vane at ramme valgresultatet mere præcist. Mig bekendt tager ingen af de nuværende danske vægtede gennemsnit dette i betragtning.

Ovenstående genenmgang er som sagt ikke en øvelse i at vurdere, hvilket vægtet snit, der er bedst. Der er forskelle og ligheder, og min plan er ikke at øge konkurrencen mellem disse snit (tværtimod tror jeg kun det er sundt, at der er forskellige snit med forskellige tilgange), men at øge transparensen og vores opmærksomhed på, hvordan disse vægtede gennemsnit er skruet sammen. Hvis nogen skulle have interesse heri, står det dem frit for at lave et kvalitetsvægtet gennemsnit af de vægtede gennemsnit.

Min tilgang til de vægtede gennemsnit og deres anvendelighed er blevet mere kritisk og pessimistisk med årenes gang (sammenlign eventuelt mit indlæg fra 2013 med mit indlæg fra 2020). Derfor ønsker jeg heller ikke, at ovenstående skal tage fokus fra enkeltmålingernes relevans. Min tilgang er nu, at det er vigtigt ikke blot at kigge på én meningsmåling, når vi skal vurdere, hvordan partierne står i målingerne, men at vi ej heller skal reducere et partis opbakning til et estimat i ét vægtet gennemsnit.

A problem with survey data when studying social media

We cannot understand modern politics without studying social media. Politicians as well as ordinary citizens rely on social media to discuss and consume political content. One of the data sources researchers rely on to study behaviour on social media is survey data. However, there can be specific challenges with studying social media. Here, I will illustrate such a challenge when using survey data to study behaviour on social media. Specifically, even if you rely on a representative sample to study social media behaviour, there is no guarantee that you can use this sample to make meaningful inferences about social media users.

To understand this, we need to understand that there is a difference between the sample size you have and the sample size you end up using in your statistical models. If you have interviewed 1,000 citizens, but only 100 of these actually use social media, how much can we then actually say based on this data?

Research from the UK shows that users of Twitter and Facebook are not representative of the general population (see also this paper). However, there are even more potential problems with using survey data to study behaviour on social media. Specifically, we know that the “effective sample” is not necessarily similar to the real sample. That is, just because you have a specific sample, you cannot expect that estimates obtained from a regression will apply to the population that the actual sample is represenative for (see this great paper for more information).

I was thinking about this issue when I read a paper titled “Ties, Likes, and Tweets: Using Strong and Weak Ties to Explain Differences in Protest Participation Across Facebook and Twitter Use”. You can find the paper here. There are so different issues with the paper but I will focus on one particular issue here, namely the small sample we end up looking at in the manuscript and the implications hereof.

The paper examines whether people have strong and weak ties on Facebook and Twitter and how that matters for their participation in protest activities. Specifically, the paper argues that different types of social ties matter on Facebook and Twitter. The paper expects, in two hypotheses, that strong ties matter more for Facebook use in relation to protest behaviour whereas weak ties matter more for Twitter use in relation to protest behaviour. This is also what the paper (supposedly) finds empirical support for. Here is the main result presented in Table 1 in the paper:

That’s a lot of numbers. Very impressive. And look at that sample size… 995! But here is the problem: While the paper relies on a representative survey with 1,000 respondents, only 164 of these respondents use Facebook and Twitter. You could have had a sample size of 100,000, but if only 164 of those used Facebook and Twitter, how much should be believe that the findings generalise to the full sample?

Out of the 164 respondents using Facebook and Twitter, only 125 have weak or strong ties. And only 66 of the respondents have variation in the ties within the respective social media platform (i.e. not the same weak or strong ties on Facebook or Twitter). Only 18 respondents in the sample have different ties across the respective social media platforms (i.e. not the same weak or strong ties on Facebook and Twitter). Here is a figure showing how we end up with only having variation on the relevant variables for 2% of the sample:

This means that when we enter a regression framework where we begin to control for all of the aforementioned variables, we will be putting a lot of emphasis on very few cases.

Why do we care about this? Because the results are weak (and definitely not strong). Even minor adjustments to the analysis will make these results throw in the towel and beg for mercy. However, this is not the impression you get when you read the paper, and in particular how confident the authors are that the results are representative: “To make the results more representative of the population, all analyses were conducted using a post-stratification weight (although the results are virtually the same when using unweighted data).”

I informed the authors that their findings are not virtually the same when using unweighted data, and that the coefficient for ‘Strong-tie Twitter use’ is actually for ‘Weak-tie Facebook use’ and vice versa. Based on this, the authors issued a corrigendum to the article, stating that: “On Table 1, the study reports regression coefficients for variables in the study. Due to a clerical error, the coefficients for two variables, strong-tie Twitter use and weak-tie Facebook use, are flipped. In Figure 1, however, the same coefficients are correctly displayed. A corrected table appears below. The authors apologize for the confusion this error may have caused.”

Notice how there is nothing about the fact that the results do not hold up when looking at the unweighted data. Interestingly, while not addressing the issue in the text in the corrigendum, the new Table 1 looks nothing like the old Table 1 (i.e. the table presented above). Here is the new table:

You will see that this table is corrected in a weird manner and looks nothing like the old Table 1. What happened to Model 1? In the new table, we only see two different versions of Model 2. Notice here that, for the unweighted data, neither the strong ties or weak ties on Twitter has a statistically significant effect. Only the two coefficients for ties on Facebook are statistically significant. The same results? No. Virtually the same results? Also no.

Why do the authors say that the results are virtually the same? Because they conduct statistical tests to see whether the coefficients are different across the two models and find no statistically significant differences. This is a very conservative threshold and the coefficients would need to change a lot before they would no longer be “virtually” the same.

However, take a look at the results in the model and see whether they are in line with the key “finding” in the paper. The relevant heuristic here is the following question: Would the authors still have made the same interpretation, i.e. that weak ties matter more than strong ties on Twitter, if only presented with Model 2 using unweighted data? I find that unlikely, especially as the coefficient for weak ties on Facebook is statistically significant in this model.

While there is something predictable about the response from the authors, I do find it interesting that they acknowledge the relevance of reporting the results using unweighted data. Kudos for the transparency, I guess.

What can we learn from this? There might be some methodological recommendations for other researchers who actually care about these issues. First, improve the (effective) sample size. Remember that 1,000 observations might not be 1,000 observations once you are done clicking on fancy buttons in SPSS. This is even more relevant when you might have a lot of measurement error. One study, for example, showed that self-reported Facebook usage is at best correlated .4 with Facebook logs of user activity.

Second, we should care about better sampling (ideally primarily studying social media users). There is no need to have a representative sample if it is limited how much any of these findings actually apply to the representative sample (or the population of interest). I doubt we have learned anything about the relevance of social media from looking at this observational data from a non-representative survey in Chile with limited variation on the key variables of interest.

Third, while we know a lot about social media, there is still a lot to be understood and I would like to see researchers deal with “simpler” hypotheses before turning to complex ideas about how strong and weak ties work across different social media platforms. Sure, it is an interesting idea and I am convinced the authors will spend more time celebrating and promoting their h-index than taking my concerns into account. However, I am – again – not convincend that we have learned a lot about how social media matter upon reading this paper.

There are many challenges with survey data when studying social media, and I am not against using such data at all. Most of my research rely on survey data and I believe we can use such data to say a lot about social behaviour, including on social media. However, there are particular problems that we should be aware of, including what sample we are actually looking at and how that shapes the results we get out of our statistical models.

Polls and the 2020 Presidential Election

In 2016, opinion polls – and in particular poll-based prediction models – suffered a major hit with the inability to predict the election of Donald J. Trump as the president of the United States. If you want a quick reminder, take a look at this forecast from the 2016 Presidential Election:

The 2020 Presidential Election polling was not great, but not a disaster. This is the simple point I want to emphasise in this blog post. I saw a lot of takes in my feed in the wake of the election calling the election everything from a “total and unmitigated disaster for the US polling industry” to the death of “quantitative political science“. I know, you gotta do what you gotta do to earn the sweet retweets, but I find such interpretations hyperbolic.

I will not provide all the answers (if any at all) to what happened with the polls in the 2020 election. My aim is much more humble: provide some reflections and thoughts on what might have happened with the polls. Specifically, I will provide links to the material I have stumbled upon so far that provide some of the most nuanced views on how well the polls performed.

When you hear people calling the election an “unmitigated disaster” for the polling industry, it is good to take a step back and remember that other elections have experienced significant polling failures in the past. It takes a lot for opinion polls to be an unmitigated disaster. Or as W. Joseph Campbell describes it in the great book Lost in a Gallup: Polling Failure in U.S. Presidential Elections: “In a way, polling failure in presidential elections is not especially surprising. Indeed, it is almost extraordinary that election polls do not flop more often than they do, given the many and intangible ways that error can creep into surveys. And these variables may be difficult or impossible to measure or quantify.”

Accordingly, it is not the norm that opinion polls enable an exact and reliable prediction of who will be the next president. If anything, when only looking at the most recent elections, our myopic view might bias our understanding of how accurate opinion polls have been in a historical perspective.

It is interesting to see what W. Joseph Campbell wrote in Lost in Gallup, prior to the election, on what to expect in 2020: “Expect surprise, especially in light of the Covid-19 coronavirus pandemic that deepened the uncertainties of the election year. And whatever happens, whatever polling controversy arises, it may not be a rerun of 2016. Voters in 2020 are well advised to regard election polls and poll-based prediction models with skepticism, to treat them as if they might be wrong and not ignore the cliché that polling can be more art than science. Downplaying polls, but not altogether ignoring them, seems useful guidance, given that polls are not always in error. But when they fail, they can fail in surprising ways.”

Taking the actual outcome of the election into account, this is a good description of what we should expect. We should expect surprise in the polls but not ignore them. They turned out to be quite useful in order to understand what would have happened, but they also did show some surprises. Generals always fight the last war and pollsters always fight the last polling failure. I believe this is the key lesson for the next election: do not ignore them but be open to the possibility that there might be surprises.

What frustrated me a lot in the wake of the 2020 election was the frame that the opinion polls got it wrong. There is a simply lack of nuance in this view that is needed if we want to actually understand how well the polls performed. Take, for example, this post by Tim Harford titled “Why the polls got it wrong”. There is no evaluation of how precise the opinion polls were, only the conclusion that polls got it wrong. Admittedly, Tim Harford acknowledges that at “this early stage one can only guess at what went wrong”, but it is still disappointing to see such unnuanced opinions. Ironically, the article provides less evidence on “why the polls got it wrong” than opinion polls provided evidence on who would become the next president.

The discrepancy between what the opinion polls show and what the media reports is interesting. Our public memory of the 2016 election is that opinion polls got it wrong and nobody, especially the media, saw it coming. There was a polling failure but we tend to ignore all information available to us during the 2016 campaign that warned us about the fact that polls might be wrong. An article by Nate Silver in 2016, titled “Trump Is Just A Normal Polling Error Behind Clinton”, stated that: “Clinton’s lead is small enough that it wouldn’t take more than a normal amount of polling error to wipe the lead out and leave Trump the winner of the national popular vote.” And we got a fair amount of polling error although Trump was not the winner of the national popular vote.

More importantly, in 2016, opinion polls did not all proclaim that Hillary Clinton would be the next president of the United States. In fact, that it not the job of any single opinion poll. If the job was simply to estimate the popular vote, that could be a job for a single poll. The bias was not in the individual polls but rather the aggregation methods (see Wright and Wright 2018 for more on this point). What went wrong was that state-level polling underestimated Trump in battleground states, in particular the Rust Belt states Michigan, Pennsylvania and Wisconsin (one reason for this was that polls dit not appropriately adjust for nonresponse, cf. Gelman and Azari 2017). I will not rule out we face similar issues with the 2020 election.

Despite the problems in 2016, the 2018 midterm elections went a lot better for the polls and Nate Silver concluded that the polls are all right. There was a sense that the problems we faced in 2016 were not corrected (for more information on what changed between 2016 and 2020, see this article). However, we might have overestimated how much we could conclude based on the performance in 2018.

That being said, I do not see the polls as being completely off in 2020. Sure, there were certain issues, but I find the narrative of a universal failure of polls in 2020 inaccurate and unfair. I think a key reason this narrative took off is that people started evaluating the quality of the polls on election night and did not wait for all votes to be counted. The chronology of how the results were called in the different states might have played a role here. James Poniewozik made a great point about this: “There’s a Black Lodge backwards-talk version of the election where the same results happen but PA counts its votes first and Miami-Dade comes in last, and people say, ‘Closer than I thought, but pretty much on target.'” It is not only about what the numbers in the polls show, but also how we interpret them – and in what order.

This is not to say that opinion polls could not do better, but part of the problem is how we consume polls. Generally, based on the lesson from 2016, the coverage was one where most stories about opinion polls came with caveats and reminders that it could be close. A good example is the article ‘I’m Here To Remind You That Trump Can Still Win‘. I did also notice an increased certainty among some pundits, pointing out that Biden’s lead was bigger compared to what the polls showed in 2016, there were fewer undecided voters than in 2016, we had improved state polls, many people have already voted etc. However, in the wake of the election, I saw a lot of people bashing the polls, prediction-models and the coverage of polls, but overall I found this coverage sober and much better than in 2016.

It is also important to keep in mind that when we are looking at presidential elections and in particular the composition of the Electoral Collece, a few percentage points of the vote from the Democrats to the Republicans (and vice versa) might have significant implications for who will win. For that reason, we should be cautious when evaluating the overall result and, when trying to predict the result, maybe not be 95% certain that a certain candidate will win.

The conclusion reached by Nate Silver is that “while polling accuracy was mediocre in 2020, it also wasn’t any sort of historical outlier.” (see also this post by Nate Silver with additional data). In other words, it was not a disaster, but there was also nothing to celebrate.

What went wrong? What is most likely the case is that several polls overestimated Democrats. However, we still do not know yet, but Matt Singh outlines four categories of explanations for what might have gone wrong: 1) sample bias, 2) differential turnout, 3) misreporting and 4) late swing (see also this post by Pew Research Center on some of the potential issues and solutions).

The four explanations are all valid but I find the third one most unlikely, i.e. that people should simply have lied when asked about their vote choice, also called the “shy Trump voters”. There is no evidence that people lie about voting for Trump, and I doubt we will see any convincing evidence for this in relation to the 2020 election.

Out of the four categories, I find it most likely that the polls had difficulties reaching certain voters. The polls seem to have underestimated a shift towards non-college and Hispanic voters in specific states. In addition, it might be difficult to measure who wants to answer polls now, especially if Trump supporters are more likely to distrust polls (and the media) in general (David Shor made a similar point here and here and here). These issues can be very difficult to address with traditional weighting methods. However, again, when we look at the polling error in specific battleground states in a historical context, the results do not point towards a historical disaster.

I am less convinced of the usefulness of election-forecasting models aggregating all available information. The issue is that we reduce all the complexities and all of the different polls to a single prediction. Maybe the coverage would be much better if simply focusing on the state-level polls in the battleground states and in particular the variation in these polls. The Economists model did a good job with making all their material publicly available (something that FiveThirtyEight did not do) and the researchers were explicit about the limitations (see, for example, here and here). That being said, I believe that the probability of 95% for a Biden win provided by The Economist team was a scientific failure (something that can most likely be explained by common sense, our experience as consumers of forecasts, statistical analysis, statistical design and sociology of science). There were some differences between the FiveThirtyEight model and The Economists model (see this thread), and I believe the communication of the numbers and uncertainties was done much better by FiveThirtyEight (see also this thread on a lot of the reflections on how to report the numbers).

We really don’t know yet what went wrong with a lot of the polls, but we know that it was not a total and unmitigated disaster. American Association for Public Opinion Research released their evaluation of the polling errors in relation to the 2016 election some time after the election, and it will be interesting to see what the detailed evaluation of the 2020 election will show. However, I do not expect any smoking guns. Instead, what I expect is a combination of some of the different categories mentioned above.

Last, the most recent research suggests that non-probability sampling performed better than probability polls in the 2020 election. This provides some optimism for the future. While probability polls will be more difficult to conduct in the future, advances in survey sampling and the conduction of non-probability polls will provide more valid estimates on who will win.

While I like criticising polls as much as the next guy, I am not convinced we should conclude that the polls experienced a total and unmitigated disaster. What I hope we will see in the next election is less focus on poll-based prediction models and more focus on high-quality state-level polling in key states.

25 interesting facts #6

126. Climate change may have been an important factor in the outbreak of COVID-19 (Beyer et al. 2021)

127. On average, people underestimate how much their conversation partners enjoy their company (Boothby et al. 2018)

128. There are at least 137 design mistakes you can make in your PowerPoint presentations (Kosslyn et al. 2012)

129. Voting rights do not affect the political maturity of adolescents (Bergh 2013)

130. People consume more when the cost is split, resulting in a substantial loss of efficiency (Gneezy et al. 2004)

131. In Congo, increased tax enforcement substantially raised political participation and trust in city government (Weigel 2020)

132. Boredom leads to endorsement of more extreme political orientations (Van Tilburg and Igou 2016)

133. People tend to pursue urgency over importance when faced with choices between tasks (Zhu et al. 2018).

134. Radical right parties benefits more from malicious social media bots than other party families (Silva and Proksch 2020)

135. Lay estimates of genetic influence match heritability estimates from twin studies (Harden 2021)

136. In soccer, because of spectators, referees favour home teams when awarding yellow and red cards (Dawson and Dobson 2010; Pettersson-Lidbom and Priks 2010)

137. Authoritarian regimes that emerge out of violent social revolution have a greater longevity (Lachapelle et al. 2020)

138. Individuals with Dark Triad traits (Machiavellianism, Narcissism, Psychopathy) more frequently signal virtuous victimhood (Qian et al. 2020)

139. The Dunning-Kruger effect is (mostly) a statistical artefact (Gignac and Zajenkowski 2020)

140. The social cost of carbon is estimated to be US$417 per tCO2 (Ricke et al. 2018)

141. Declines in biodiversity have resulted in declines in human quality of life (Brauman et al. 2020)

142. Personal experiences with the weather and extreme weather events matter for climate opinions and perceptions (Choi et al. 2020, Damsbo-Svendsen 2020, Egan & Mulling 2012, Hazlett & Mildenberger 2020, McDonald et al. 2015, Motta 2020, Rudman et al. 2013, Sisco & Weber 2020 and Whitmarsh 2008)

143. Homo sapiens evolved via selection for prosociality (Hare 2017)

144. Households with solar installations are more politically active than their neighbours (Mildenberger et al. 2019)

145. People underestimate greenhouse gas emissions associated with air travel (Wynes et al. 2020)

146. Unemployment has no effect on the Big Five personality traits (Gnambs and Stiglbauer 2019)

147. Human-made mass exceeds all global living biomass on Earth (Elhacham et al. 2020)

148. Pictures by politicians in non-political settings increase audience engagement on Instagram (Peng 2020)

149. Intelligence predicts humour production ability (Greengross and Miller 2011)

150. Parents who have twins in their first parity are less likely to vote (Dahlgaard and Hansen 2020)


Previous posts: #5, #4, #3, #2, #1

Er nutidens studerende for dårlige? #2

For snart ti år siden skrev jeg et indlæg, hvor jeg kritiserede en rundspørge foretaget af Politiken. Denne rundspørge konkluderede, at nutidens studerende var blevet dårligere i løbet af 5-10 år.

Der var en lang række metodiske problemer med denne type rundspørge, som jeg kom ind på allerede for ti år siden. Hvad jeg i dette indlæg vil belyse er et studie publiceret i Science Advances, der kan forklare, hvorfor folk tror studerende er dårligere i dag – også selvom dette ikke nødvendigvis er tilfældet.

Studiet viser, at der er forskellige mekanismer, der kan forklare, hvorfor vi er tilbøjelige til at tro at nutidens studerende er dårligere. For det første har vi en tendens til at se andres begrænsninger når vi er bedre, og i takt med at vi bliver bedre (eksempelvis som undervisere), vil vi i højere grad se studerende som dårligere. For det første har vi en tendens til at projicere vores egne nuværende kvaliteter overpå ældre studerende. Disse to mekanismer kan relativt nemt forklare, hvorfor det virker til, at studerende i dag er dårligere end tidligere. Derfor giver det ganske enkelt ikke mening blot at spørge lærere om, hvorvidt studerende i dag er dårligere end de var for eksempelvis 10 år siden.

Et andet interessant fund i studiet er, at personer med bestemte træk synes at ungdommen i dag klarer sig dårligere på disse træk. Eksempelvis synes mere autoritære personer, at ungdommen i dag viser ældre for lidt respekt, intelligente mennesker synes at ungdommen er mindre intelligent og belæste personer er af den overbevisning at ungdommen nyder at læse mindre i dag.

Selvfølgelig er det muligt, at ungdommen kan være dårligere i dag end for fem år siden (hvordan vil eksempelvis en masse unge, der er ramt hårdt af COVID-19, præstere gennem resten af deres uddannelse?), men det er – som ovennævnte studie viser – ikke noget man kan dokumentere ved blot at spørge undervisere om, hvorvidt nutidens studerende er dårligere.