Assorted links #4

91. A Data-Driven Guide to Effective Personal Climate Action
92. 50 tips to improve user interface
93. What I learnt roasting 200 landing pages in 12 months
94. Why Do We Keep Reading The Great Gatsby?
95. Interviewing MPs
96. Thinkers at War – John Rawls
97. Beatport’s Definitive History of Techno
98. Every Country Has Its Own Climate Risks. What’s Yours?
99. Dark Patterns at Scale: Findings from a Crawl of 11K Shopping Websites
100. James Bond movies: Ranking 007’s best, worst and everything in between
101. The documentation system
102. Why I Still Use RSS
103. Complexity Explained
104. Research Ethics Timeline
105. Don’t offer a Free Plan
106. Electoral Shocks: The Volatile Voter in a Turbulent World
107. Dodging the Trump Bullet
108. Who is Scott Alexander and what is he about?
109. Slate Star Clusterfuck
110. How Long Does a Bottle of Wine Last After It Is Opened?
111. The Internet of Beefs
112. Il Maestro: Federico Fellini and the lost magic of cinema
113. What Is Consciousness? Some New Perspectives from Our Physics Project
114. The Making Of: Dust 2
115. Map of my personal data infrastructure
116. Revising the Canon: How Andy Warhol Became the Most Important American Modern Artist
117. Beautiful PDFs from HTML
118. The moving sofa problem
119. Based Cooking
120. How a Publicity Blitz Created The Myth of Subliminal Advertising


Previous posts: #1 #2 #3

Hyperintelligente superalgoritmer

Politiken kan fortælle, at “en digital superalgoritme med hidtil uset præcision” kan kortlægge hadefulde kommentarer på Facebook. Jeg har ingen idé om, hvad en superalgoritme er, men det skal man nok være enten astrofysiker eller journalistpraktikant for at vide. I en anden artikel kalder Politiken det for en “hyperintelligent algoritme”. Jeg ved heller ikke, hvad dette er. Der er intet i de pågældende artikler, der giver anledning til at konkludere, at der er tale om noget ekstraordinært.

Her er et godt råd til, når du læser artikler omkring kunstig intelligens (AI), maskinlæring, big data og lignende: Jo mere begrebsmæssig hype der er, desto mindre er der at tage seriøst. Hvis der virkelig er noget at komme efter, er der ikke brug for at pakke indholdet ind i termer som hyperintelligente superalgoritmer.

Det er ikke første gang vi ser denne slags artikler, men det er nok sidste gang du vil høre om den konkrete algoritme. Jeg udelukker ikke, at vi kommer til at støde på den konkrete algoritme (eller mere specifikt de to algoritmer) igen, men det er svært at se – med den information, der er offentlig tilgængelig – hvad der er selve nyhedsværdien set fra et maskinlæringsperspektiv.

I forhåndenværende tilfælde ser jeg primært Politikens dækning som en annonce for et analysebureau ved navn Analyse & Tal, der har en interesse i at skabe så meget hyperintelligent hype som muligt omkring deres superkompetencer (og derfor selvsagt ikke evner at forholde sig kritisk til deres produkt i et omfang man kunne ønske, hvis man skulle tage deres arbejde alvorligt i forhold til at forbedre den demokratiske samtale på sociale medier).

Konkret viser deres arbejde, at deres algoritme kan præsentere en F1-score (et samlet mål for præcision og genkaldelse), der har en værdi, der er 0,02 bedre end den hidtil bedste danske algoritme (når det kommer til at identificere sproglige angreb). Det er meget pæne resultater, men jeg vil undlade at gøre mig klog på, hvad der kan betegnes som “hidtil uset præcision”.

Der foreligger ingen (forsknings)artikel eller teknisk appendiksmateriale, der beskriver algoritmen med det mærkværdige navn At&tack-Ha&te (igen, som en annonce for Analyse & Tal), så jeg skal også holde mig fra en egentlig gennemgang af deres metode (du kan finde en introduktion i præsentationsformat her). Der er så mange detaljer, der er udeladt i det offentligt tilgængelige materiale, at det end ikke giver mening at kommentere på resultaterne. Jeg kan dog blot nævne, at det umiddelbart virker som et godt eksempel på, at deep learning ikke nødvendigvis giver dybe indsigter – med mindre Analyse & Tal selvfølgelig ligger inde med nogle guldkorn, de ikke har præsenteret for offentligheden.

Jeg forstår godt, at Politiken såvel som Analyse & Tal har en fælles interesse i at gøre ting mere revolutionerende end de er med begreber som hyperintelligente superalgoritmer, men der er absolut intet i det offentligt tilgængelige materiale, der besvarer, hvad der er hyperintelligent og/eller super ved deres algoritmer.

Facial recognition technology and political orientation

A new paper argues that political orientation can be correctly classified with 72% accuracy using facial recognition technology. The paper begins with considerations about how “facial recognition can be used without subjects’ consent or knowledge”, which is true, but I am confident we do not need to be concerned about being able to predict people’s political orientation using facial recognition technology. At least not based upon the methodology and findings presented in the paper in question.

Specifically, the fact that the classifier in the study was able to correctly “predict” political orientation with 72% accuracy is not the same as the probability of correctly predicting the political orientation of a person when presented with a picture (or even multiple pictures) of that person.

The article is aware of some limitations of the approach, but only to conclude that “the accuracy of the face-based algorithm could have been higher” (i.e., what we are looking at are lower-bound estimates!). That is what you often see in scientific papers (limitations are often presented as humblebragging), because the more serious limitations would decrease the likelihood of the paper being published (even in an outlet such as Scientific Reports).

To understand why the accuracy in “real life” is less likely to be as high as 72%, we need to keep in mind that it is not a random sample of pictures we are looking at, and this will significantly bias the task at hand to provide more accurate predictions. First, not all people are liberals or conservative. If we had to add a third category (such as “Centrist”), the accuracy would decrease. In other words, the classification task does not reflect the real challenge if we are to use facial recognition technology to predict political affiliations.

Second, not everybody want to declare their political orientation and only people who did so are included in the study. The study relies on data from Facebook and dating websites. You will most likely have less of an issue with people being able to predict your political orientation if you, in the first place, are happy with publicly providing information about your political orientation. Accordingly, even if the estimate provided in the paper is realistic, I would definitely see it as an upper-bound estimate.

For the dating websites, more than half of the sample selected “Green”, “Libertarian”, “Other”, “Centrist” or “don’t know”. By only including the people who explicitly selected liberal or conservative political orientations (i.e., less than half of the sample), we are making the task a lot easier. The problem, or rather the good thing, is that people in real life do not only fit into these two categories. All of these studies on facial recognition tecnology do not deal with these issues because it would make them a lot less important.

For the Facebook data, it is even more interesting to look at the data. The study describes how a face is a better predictor of political orientation than a 100-item personality questionnaire. Here is the twist: To measure political orientation, two items from this questionnaire were used. Accordingly, it is actually only a 98-item personality questionnaire. With this information in mind, take a look at the following interpretation provided in the paper:

a single facial image reveals more about a person’s political orientation than their responses to a fairly long personality questionnaire, including many items ostensibly related to political orientation (e.g., “I treat all people equally” or “I believe that too much tax money goes to support artists”).

So an image of a person is better able to predict the answers to two questions in the 100-item International Personality Item Pool than the 98 other questions? I don’t see this as convincing evidence. It is not a feature – it is a bug. Again, in this sample, some participants were also excluded (although it is not easy to get a sense of how many are actually excluded).

The study concludes that given “the widespread use of facial recognition, our findings have critical implications for the protection of privacy and civil liberties.” It is great that people care about privacy and civil liberties (we should all care more about such topics!), but there is nothing in the study that makes me concerned about the ability for facial recognition technologies to successfully predict political orientation.

Potpourri: Statistics #74 (Python)

What the f*ck Python!
Notes On Using Data Science & Machine Learning To Fight For Something That Matters
Computational and Inferential Thinking: The Foundations of Data Science
data-science-ipython-notebooks
How to make an awesome Python package in 2021
Tutorial: Working with Large Data Sets using Pandas and JSON in Python
Data analysis with Python – Summer 2019
Introduction to Linear Algrebra for Applied Machine Learning with Python
Speeding Up Your Python Code!
Python for Non-Programmers
Web Scraping 101 with Python
Full Stack Python
R Markdown Python Engine
Introduction to Programming and Numerical Analysis


Previous posts: #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31 #32 #33 #34 #35 #36 #37 #38 #39 #40 #41 #42 #43 #44 #45 #46 #47 #48 #49 #50 #51 #52 #53 #54 #55 #56 #57 #58 #59 #60 #61 #62 #63 #64 #65 #66 #67 #68 #69 #70 #71 #72 #73

How to improve your figures #5: Don’t use pie charts

The pie chart is more than 200 years old. And I am sure people will use pie charts 200 years from now (cf., the Lindy effect). It is a popular chart type and I am not universally against using pie charts. However, in most cases – especially in academic publications – the pie chart is not the best choice.

Specifically, often we are simply better off not providing a figure at all or turning the pie chart into a bar chart. I will provide an example of both these cases. First, to understand why no chart at all might be better than a pie chart, I will show the full context of a pie chart from this article to illustrate the issue:

As you can see, the pie chart and the figure legend take up more than half of the space on the page (and the text on the page is then used to comment on what the figure is showing). The pie chart is adding nothing of value here that couldn’t be described in a few sentences, including the examples highlighted for each category in the pie chart. Accordingly, even (or especially) when pie charts are quite simple, their shape makes them take up more space than simply adding a few lines of text. Of course, in some settings, such as in PowerPoint presentations or tweets, text can be a problem and a pie chart like the one above might be a useful way to illustrate the information of interest.

Second, when we add more categories to a pie chart, the visualisation will only be even worse. That is, when we want to show more information, the pie chart is not the ideal choice. Consider a figure from this article on the occupations of members of Congress:

There are at least three issues with the pie chart in question. First, and most importantly when we look at pie charts with multiple categories, it is very difficult to compare the relative size of the different categories. Second, pie charts often use different colours for the different categories. However, the colours are not adding any information and it is almost impossible to read the “Business employee” category. Third, notice how “Other/unknown” is 0% but still have a non-zero sized piece of the pie. It might be a rounding issue but it is not looking good.

To address all of the three issues, we can create a simple bar chart showing the same information:

This figure makes it a lot easier to compare the different categories, works well in black and white, and do not need to use any ink to show a value of 0%.

Pie charts are not always bad, but make sure that you consider whether your pie chart is actually better than no pie chart at all or better than an alternative chart (such as a bar chart).

25 interesting facts #7

151. Families’ wealth in Florence in 1427 predicts their wealth in 2011 (Barone and Mocetti 2020)

152. People pay as much attention to the sample size as the rated quality in online reviews when choosing products (Hayes et al. 2021)

153. Chimpanzees are rational maximizers and are not sensitive to fairness (Jensen et al. 2007)

154. Drug dealers give away free samples – also in e-commerce markets (Ladegaard 2018)

155. Fewer toys help toddlers to focus better and play more creatively (Dauch et al. 2018)

156. Unattractive people are unaware of their unattractiveness (Greitemeyer 2020)

157. Individuals with visible tattoos are more short-sighted and impulsive than non-tattooed individuals (Ruffle and Wilson 2019)

158. Ronald Reagan’s tenure as the host of an entertainment television program translated into support for his candidacy decades later (Xiong 2020)

159. Investors are less likely to log in to their online account the day after a market decline (Sicherman et al. 2016)

160. Prettier food is perceived as healthier – even when it is not healthy (Hagen 2020)

161. 23-33% of women in mTurk samples had engaged in a foodie call (when a person, despite a lack of romantic attraction to a suitor, chooses to go on a date to receive a free meal) (Collisson et al. 2020)

162. Dogs can discriminate any type of dog from other species (Autier-Dérian et al. 2013)

163. Young married men in Saudi Arabia privately support women working outside the home and substantially underestimate support by other young married men (Bursztyn et al. 2020)

164. Surprising results in scientific studies are less replicable (Hoogeveen et al. 2020)

165. The rise of prosociality in fiction preceded democratic revolutions in Early Modern Europe (de Jesus et al. 2020)

166. Cul-de-sac residents experience greater attitudinal and behavioral social cohesion (Hochschild Jr. 2015)

167. In Hong Kong’s real estate market, prices drop on average 20% for units that become haunted, 10% for units on the same floor, 7% for units in the same block, and 1% for units in the same estate (Bhattacharya 2020)

168. More attractive CEOs are associated with better stock returns surrounding their job announcements (Halford and Hsu 2020)

169. State-controlled community meetings prior to the 1994 genocide in Rwanda led to increased civilian violence during the genocide (Bonnier et al. 2020)

170. Bus drivers were twice as willing to let white people ride free as black people (Mujcic and Frijters 2020)

171. Music training has no cognitive and academic benefits (Sala and Gobet 2020)

172. People like to give to charity but are insensitive to the efficacy of such donations (Burum et al. 2020)

173. Early-night dreams are more continuous with waking life whereas late-night dreams are more emotional (Malinowski and Horton 2021)

174. Increased undocumented immigration is not associated with terrorist attacks, radicalization, or terrorism prosecutions (Light and Thomas 2020)

175. Children prioritize humans over animals less than adults do (Wilks et al. 2020)


Previous posts: #6 #5, #4, #3, #2, #1

Hvor mange vil stemme på Lars Løkke Rasmussens parti? #2

I et tidligere indlæg kiggede jeg nærmere på en meningsmåling, der påstod, at 20 procent af vælgerne vil overveje at stemme på Lars Løkke Rasmussen og/eller hans nye parti. I indlægget gentog jeg nogle af de kritikpunkter, jeg tidligere har fremført, når medierne og analyseinstitutterne forsøger at belyse, hvor stor opbakningen er til et nyt parti, der ikke er med i de traditionelle meningsmålinger.

Ét af mine kritikpunkter i mit indlæg var, at der ikke engang var tale om et egentligt parti endnu, men et potentielt parti. Siden da har Lars Løkke bekræftet, at der er tale om et politisk parti. Partinavnet er der dog stadig ingen, der kender til.

Vi ved stadig ikke, hvor mange der sandsynligvis vil stemme på Lars Løkke Rasmussens parti, før vi har en meningsmåling, hvor vælgerne bliver spurgt om, hvilket parti de ville stemme på, hvis der var valg i dag – og Lars Løkke Rasmussens parti er én blandt flere valgmuligheder. En sådan meningsmåling har vi stadig til gode (de fleste analyseinstitutter kræver, at et parti er opstillingsberettiget, før de inkluderer det i deres meningsmålinger). Mit gæt er at YouGov, for hvem kvaliteten af meningsmålingerne er sekundært og ofte underordnet, vil være de første til at inkludere Lars Løkkes parti i målingerne (og sandsynligvis før det er opstillingsberettiget).

Siden jeg skrev mit forrige indlæg, har Voxmeter foretaget to meningsmålinger, der begge spørger respondenterne om følgende: “Hvis Lars Løkke Rasmussen stifter et parti, som bliver opstillingsberettiget til næste Folketingsvalg, hvor sandsynligt er det så, at du ville stemme på et sådant parti?”

Den første måling blev foretaget i perioden fra 19. til 22. januar. Den anden måling blev foretaget fra 9. til 16. april. Lars Løkke offentliggjorde sit parti midt i dataindsamlingsperioden for den anden meningsmåling i en klumme hos BT den 10. april (det er altid godt at kommunikere til laveste fællesnævner, når man vil komme bredt ud med et budskab).

Jeg finder det ikke interessant at kigge alt for meget på tallene. De kunne have været halvt eller dobbelt så store, uden at jeg ville finde dem relevante at formidle. Der er ikke tale om en traditionel meningsmåling, og det er i bedste fald blot en useriøs måde at lave meningsmålinger på. Den overordnede pointe er dog, at 13,6% af vælgerne fandt det sandsynligt at ville stemme på Lars Løkkes parti i januar, men det tal var nede på 9,3% i april. Hvad kan vi bruge denne ændring på 4,3 procentpoint til? Jeg mener ikke, at vi kan bruge disse tal til meget, men det er ikke desto mindre, hvad de viser.

Et af de interessante forhold ved den slags meningsmålinger er, at de altid kan bruges til at lave vidt forskellige historier. Avisen.dk kaldte eksempelvis de 9,3% i målingen fra april for medvind til Lars Løkke på baggrund af et notat fra Ritzau. Igen, jeg vil helst undlade at tolke for meget på de tal, men jeg har svært ved at se, hvordan man kan tolke tallene som medvind.

Jeg har fuld forståelse for, at medierne hjertens gerne vil belyse et nyt partis elektorale potentiale, samt at analyseinstitutterne øjner sig en unik mulighed for at få ekstra omtale, men jeg har vitterligt vanskeligt ved at se anvendeligheden af den slags målinger. Der er langt mere støj i den politiske dækning med den slags målinger, hvor vælgerne fejlagtigt vil tro, at opbakningen til Lars Løkkes nye parti ligger på omkring 9,3% af stemmerne, selvom der absolut intet empirisk belæg er for sådan en opfattelse.

Mit råd vil være at medierne holder sig fra at dække den slags meningsmålinger og fokuserer på andre aspekter ved nye partier, eksempelvis deres politiske profil (og evt. hvad vælgerne synes om disse politiske udmeldinger), og når partiet så er opstillingsberettiget, kan vi belyse, hvor stor opbakning partiet vil få ved næste valg.

Hvor mange vil stemme på Nye Borgerlige? #10

Det er efterhånden længe siden, at jeg sidst kiggede nærmere på, hvor stor opbakningen er til Nye Borgerlige. Den korte forklaring på dette er, at der ikke har været meget nyt at rapportere om, når det handler om hvor enige (eller rettere sagt uenige) medierne og analyseinstitutterne er i forhold til at måle partiets opbakning.

Der er stadig ikke enighed om, hvor stor opbakningen er til Nye Borgerlige. Især YouGov og Voxmeter er fortsat uenige, hvor førstnævnte giver partiet en større opbakning (husk på at YouGov ramte partiet forkert ved valget i 2019). Dette er dog ikke det samme som, at der ikke er sket noget i meningsmålingerne hvad angår Nye Borgerlige. Meningsmålingerne har således i løbet af det seneste år været enige om én ting: Nye Borgerliges opbakning i befolkningen er gået opad.

For et år siden havde Voxmeter partiet omkring spærregrænsen. Nu ligger partiet i Voxmeters målinger stabilt på et sted mellem 5 og 10% af stemmerne. De seneste målinger fra Gallup og Epinion placerer også partiet et sted mellem 5 og 10%. Det interessante er, at jo større opbakningen bliver til partiet, desto mindre uenighed vil der være mellem de fleste analyseinstitutter. Det er derfor også vanskeligt at sige, i takt med at opbakningen til partiet stiger, hvad der kan tilskrives henholdsvis tilfældig støj og systematisk bias i meningsmålingerne. Vi ved at den statistiske usikkerhed er mindre for små partier (lille tilfældig støj), men vi ved også, at analyseinstitutterne har svært ved at ramme nye, små partier (større systematisk bias).

YouGov vil kunne forsvare sig med, at de “måler folkestemningen” og indfanger tendenser før andre institutter, hvorfor de har fat i den lange ende. Dette argument køber jeg dog ikke. De formåede som sagt ikke at ramme valgresultatet i 2019. Når det er sagt er YouGov ikke radikalt langt fra hvad andre analyseinstitutter viser nu. Den seneste YouGov-måling giver Nye Borgerlige 11,7% af stemmerne, hvilket ikke er radikalt langt fra 10%. Jeg finder det dog stadig usandsynligt, at YouGov rammer rigtigt.

Voxmeter lavede i 2016 en fejlagtig meningsmåling, der postulerede, at “hver tiende vil stemme på Nye Borgerlige” (Voxmeter har lavet lignende målinger med Lars Løkkes nye parti, men mere om dette i morgen), men forkerte målinger bliver ikke bedre af, at de rammer rigtigt på et senere tidspunkt. Som jeg pointerede sidste år i Altinget, kan denne slags meningsmålinger netop ende med at blive selvopfyldende profetier. Derfor er det vigtigt, at medierne tager deres dækning af meningsmålingerne seriøst og ikke konkluderer om et parti går op eller ned, før der er systematisk belæg herfor.

Med dette in mente kan vi se på den seneste historie om Nye Borgerlige, der går på, at de går tilbage i meningsmålingerne. Hos Altinget rapporterer de således, at opbakningen til Nye Borgerlige bevæger sig nedad. Konkret stod partiet til at få 10,2% af stemmerne i marts, hvor de i april står til at få 8,9% af stemmerne.

Disse estimater harmonerer fint med, hvad min egeng model viser, altså at partiet lå på omkring 10% i marts og nu ligger lidt lavere. Jeg er dog skeptisk i forhold til at konkludere, at Nye Borgerlige går tilbage i meningsmålingerne. Mit bedste bud er – i skrivende stund – at partiet ligger på omkring 10 procent af stemmerne. Min seneste prognose giver partiet 9,5% af stemmerne. I nedenstående figur viser jeg opbakningen til partiet i meningsmålingerne fra 2020 til i dag.

Jeg finder det usanynligt, at partiet har mistet vælgere på det seneste. Min læsning af tallene er, at opbakningen til partiet er stabiliseret. De har således hverken vundet eller tabt stemmer, men de ændringer vi ser er marginale og skal ikke tilskrives for stor betydning. Altinget kan selvfølgelig gøre, hvad de vil (der skal jo skrives nye historier og deres læsere skal have value for money), men jeg ville ikke selv stå på mål for sådan en tolkning af meningsmålingerne.

Bid desuden mærke i, at jeg her er kritisk i forhold til at konkludere, at Nye Borgerlige går tilbage. Sidst jeg kritiserede mediernes formidling af meningsmålingerne i forhold til Nye Borgerlige, var Uriasposten ude med riven, da nogen ikke evnede at forstå, at jeg kritiserede meningsmålingerne og ikke partiet. Dette tager jeg stille og roligt, da der ikke var nogen sammenhængende kritik, jeg kunne forholde mig til (det eneste denne slags meningsdannere ser er nogle kritiske kommentarer i en kontekst, hvor Nye Borgerlige nævnes, og så går de i emotionelt selvsving). Jeg kan blot fremhæve, at jeg vistnok efterhånden har kritiseret mediernes dækning af alle partier – også venstreorienterede partier (da medierne eksempelvis påstod at Alternativet var over spærregrænsen, kritiserede jeg dette og konkluderede, at der ikke var nogen evidens for denne påstand i meningsmålingerne).

Er det utænkeligt at Nye Borgerlige går tilbage? Nej, men det er et andet spørgsmål, der kun kan besvares, når vi ser på de kommende meningsmålinger. Hvis partiet får negativ dækning (såsom at de går tilbage i meningsmålingerne), er det sågar plausibelt, at de vil miste stemmer. Jeg ser blot ingen tendenser i målingerne, der tyder på, at Nye Borgerlige mister stemmer. Partiet ligger på omkring 9,5% af stemmerne og sådan har det været gennem 2021 indtil videre.

Potpourri: Statistics #73

Which color scale to use when visualizing data
When to use quantitative and when to use qualitative color scales
When to use sequential and when to use diverging color scales
When to use classed and when to use unclassed color scales
Patterns, predictions, and actions: A story about machine learning
Principles for data analysis workflows
A Comprehensive Introduction to Command Line for R Users
Reading Data from Multiple Excel Sheets and Converting it to Individual Data Frames in R
Making a ggplot theme
Visualizing with Text
Why I love dplyr’s across
A Multiverse Analysis of Interaction Effects
3200+ searchable R articles and packages
Using Excel Templates as Tables in R Shiny
A Basic Checklist for Observational Studies in Political Science
Understanding p-values Through Simulations: An Interactive Visualization
One Way ANOVA with R
Driving Alone vs. Public Transportation in Pittsburgh
The Effect: An Introduction to Research Design and Causality
k-Means 101: An introductory guide to k-Means clustering in R
Bivariate dasymetric map
Introductory time-series forecasting with torch
Lightweight Machine Learning Classics with R
flextable gallery
Exploring other {ggplot2} geoms
Bayesian statistics with R


Previous posts: #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20 #21 #22 #23 #24 #25 #26 #27 #28 #29 #30 #31 #32 #33 #34 #35 #36 #37 #38 #39 #40 #41 #42 #43 #44 #45 #46 #47 #48 #49 #50 #51 #52 #53 #54 #55 #56 #57 #58 #59 #60 #61 #62 #63 #64 #65 #66 #67 #68 #69 #70 #71 #72

Kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed #3

I mit forrige indlæg om kvalitetsvægtede gennemsnit af meningsmålinger og statistisk usikkerhed, kom jeg ind på, at en af grundene til, at der er forskel på de vægtede gennemsnit er, at de ikke anvender samme tilgang:

Der findes ikke én måde at lave et vægtet gennemsnit. Der er en lang række af spørgsmål, man skal forholde sig til. Hvor mange meningsmålinger skal indgå i et vægtet snit? Skal alle analyseinstitutter have samme indflydelse – eller skal eksempelvis de institutter, der ramte sidste valg bedre, vægtes højere? Nyere meningsmålinger skal vægtes højere end ældre meningsmålinger, men hvor meget mere? Svarene på disse spørgsmål er ikke nødvendigvis oplagte, og det er en af grundene til, at forskellige vægtede gennemsnit ej heller giver de samme estimater.

På den baggrund tænkte jeg, at det ville være interessant at lave en sammenligning af de respektive vægtede gennemsnit. Der er fire vægtede gennemsnit i Danmark, der bliver opdateret regelmæssigt: Politologi Prognose, Risbjerg-snittet, Berlingske Barometer og Ritzau Index.

Der er flere ligheder og forskelle mellem de respektive snit, og i tabellen nedenfor har jeg sammenlignet de fire snit på de følgende syv parametre: 1) hvilke institutter, de inkluderer (om det er alle institutter eller ej); 2) antallet af meningsmålinger; 3) om der tages højde for huseffekter; 4) hvilke minimumskrav der er til, at et parti inkluderes; 5) om nyere målinger vægtes højere; 6) om resultaterne er offentligt tilgængelige; og 7) om den statistiske usikkerhed formidles.

Tabel 1: Sammenligning af vægtede gennemsnit

Politologi Prognose Risbjerg-snittet Berlingske Barometer Ritzau Index
Alle institutter Ja Nej Nej Nej
Antal målinger Alle fra valgperioden Målinger fra den seneste måned Målinger fra de seneste 31 dage Seneste 15 målinger
Estimering af huseffekter Ja Nej Nej Nej
Minimumskrav Ingen Ingen Ingen Minimum 15 målinger hvor et parti indgår
Vægter nye målinger højest Ja Uklart Ja Ja
Offentligt tilgængelige resultater Ja Nej Ja Ja
Rapportering af statistisk usikkerhed Ja Ja Nej Nej

Før jeg beskriver detaljerne i tabellen yderligere, skal jeg nævne, at jeg tager forbehold for, at jeg kan have misforstået noget ved de vægtede snit, og såfremt der er fejl eller mangler, skal jeg selvfølgelig nok korrigere disse. Ligeledes skal jeg for en god ordens skyld orientere, at jeg står bag Politologi Prognose, hvorfor jeg (u)bevidst kan få den til at fremstå som den bedste prognose blandt de fire. Jeg vil holde mig fra at lave en sådan vurdering i dette indlæg.

De fleste vægtede gennemsnit inkluderer ikke meningsmålinger fra Megafon. Sådan har det været i årevis, hvor Megafon eksplicit har frabedt sig dette. Jeg har ikke fået en henvendelse fra Megafon, hvorfor jeg antager, at det er acceptabelt, at de er inkluderet i Politologi Prognose. Politologi Prognose er dermed det eneste vægtede snit, der inkluderer meningsmålinger fra alle institutter.

De vægtede snit bruger ikke de samme meningsmålinger. Risbjerg-snittet og Berlingske Barometer anvender begge de nyeste meningsmålinger (meningsmålinger der er ældre end en måned, er ikke inkluderet). Ritzau Index tager ikke højde for, hvornår meningsmålingerne er lavet, men blot at de er blandt de seneste 15 meningsmålinger. Politologi Prognose anvender uden sammenligning flest meningsmålinger ved at kigge på alle meningsmålinger i perioden fra det seneste folketingsvalg frem til og med den seneste meningsmåling.

Dette fører til en af de primære forskelle mellem Politologi Prognose og de andre vægtede gennemsnit. Mere konkret at Politologi Prognose estimerer huseffekter, altså systematiske forskelle i, hvordan analyseinstitutterne generelt betragtet vurderer (eller ikke vurderer) partierne forskelligt (se dette indlæg for henvisninger til mere information omkring huseffekter). Ved at bruge et større datamateriale har Politologi Prognose nemmere ved at opfange nye tendenser i meningsmålingerne, uden blot at samle op på tilfældig støj. De vægtede snit der anvender de seneste meningsmålinger, men som ikke korrigerer for, hvor disse meningsmålinger kommer fra, vil i overvejende grad primært formidle et gennemsnit af Voxmeters resultater (da de kommer med flere meningsmålinger end de andre institutter).

De fleste vægtede gennemsnit har ingen eksplicitte minimumskrav til, hvornår et nyt parti skal inkluderes. Undtagelsen her er Ritzau Index, der først inkluderer et nyt parti, når de er at finde i mindst 15 meningsmålinger. Det vil sige at Ritzau Index skal have et parti med i alle de respektive meningsmålinger, de kigger på i deres vægtede snit, før de inkluderes.

De vægtede snit vægter som regel nye målinger højest, om end det er uklart i hvilket omfang dette finder sted i Risbjerg-snittet. Dette da det blot er den seneste måneds meningsmålinger, der inkluderes, hvorfor det nok ikke vil have den store betydning i sidste instans. Det er således også begrænset, hvor meget information vi har om, hvor meget mere nye målinger vægtes højere. I Politologi Prognose estimeres en model, hvor der gives estimater for hver dag for, hvor stor opbakningen er til de respektive partier. Det vægtede gennemsnit er således blot estimaterne for den dag, modellen er estimeret.

De fleste vægtede snit er offentligt tilgængelige, så det er muligt for alle at få information om, hvordan partierne klarer sig i meningsmålingerne. Undtagelsen her er Risbjerg-snittet, der af samme grund primært er af interesse for journalister og andre fagprofesionelle, der har adgang til indholdet bag Altingets betalingsmur.

Det sidste jeg har kigget på er, hvorvidt de vægtede snit formidler den statistiske usikkerhed. Hverken Berlingske Barometer eller Ritzau Index rapporterer den statistiske usikkerhed ved de vægtede snit. Den statistiske usikkerhed er som bekendt lavere end ved enkeltmålinger, men det er vigtigt at huske på, at vi trods alt stadig har en statistisk usikkerhed. Ved Politologi Prognose formidles den statistiske usikkerhed for hvert parti, og for Risbjerg-snittet formidles den som det højeste usikkerhedsestimat, eksempelvis: “Den statistiske usikkerhed på snittet for de enkelte partier er højst +/- 1,3 procentpoint.”

Dette er ikke en udtømmende gennemgang af alt, hvad man kan kigge på, når vi kigger på de vægtede genenmsnit. Som jeg nævnte i mit forrige indlæg, er det eksempelvis muligt at give nogle analyseinstitutter større indflydelse, hvis de har for vane at ramme valgresultatet mere præcist. Mig bekendt tager ingen af de nuværende danske vægtede gennemsnit dette i betragtning.

Ovenstående genenmgang er som sagt ikke en øvelse i at vurdere, hvilket vægtet snit, der er bedst. Der er forskelle og ligheder, og min plan er ikke at øge konkurrencen mellem disse snit (tværtimod tror jeg kun det er sundt, at der er forskellige snit med forskellige tilgange), men at øge transparensen og vores opmærksomhed på, hvordan disse vægtede gennemsnit er skruet sammen. Hvis nogen skulle have interesse heri, står det dem frit for at lave et kvalitetsvægtet gennemsnit af de vægtede gennemsnit.

Min tilgang til de vægtede gennemsnit og deres anvendelighed er blevet mere kritisk og pessimistisk med årenes gang (sammenlign eventuelt mit indlæg fra 2013 med mit indlæg fra 2020). Derfor ønsker jeg heller ikke, at ovenstående skal tage fokus fra enkeltmålingernes relevans. Min tilgang er nu, at det er vigtigt ikke blot at kigge på én meningsmåling, når vi skal vurdere, hvordan partierne står i målingerne, men at vi ej heller skal reducere et partis opbakning til et estimat i ét vægtet gennemsnit.