Meningsmålinger og eksperternes gættelege

Sigge Winther Nielsen, ph.d.-studerende ved KU, har skrevet et fint indlæg på Politiken.dk, hvor han korrekt nævner flere af de faldgruber, der er forbundet med at udtale sig på baggrund af variationer på tværs af meningsmålinger over tid.

Problemet er, som Sigge pointerer, at de konklusioner der laves, ikke altid giver mening, da samvariation ikke er det samme som en årsagssammenhæng. Eller som han formulerer det: »At SF har fået en ny formand (A) og er gået frem i meningsmålingerne (B), betyder ikke, at A fører til B.«

Når Sigge åbenlyst har så godt styr på disse svagheder forbundet med at forholde sig til kausaleffekter i denne slags meningsmålinger, fremstår det tragikomisk, at han selv flittigt udtaler sig om lige præcis dette. Lad os blot tage udgangspunkt i eksemplet med SFs nye formand og SFs elektorale opbakning i meningsmålingerne.

Der har været foretaget et par meningsmålinger efter valget af Annette Vilhelmsen som ny formand for SF, og disse har Sigge Winther Nielsen forholdt sig til. Den ene meningsmåling viser en fremgang til SF, den anden en tilbagegang1.

Meningsmåling 1, 23. okt: Fremgang hos SF, YouGov for metroXpress. Her konkluderes det, at SF har fået ny formand (A) og en større vælgertilslutning (B). Jævnfør Sigge kan denne effekt (A → B) være en såkaldt formandseffekt: »Vi så den samme umiddelbare effekt, da Helle Thorning-Schmidt (S) og Villy Søvndal (SF) blev valgt til nye partiformænd i 2005. Da oplevede SF og Socialdemokraterne også en hurtigt [sic] fremgang, men de tabte den lige så hurtigt igen. Man ved faktisk ikke, hvorfor vælgerne reagerer sådan, men et godt gæt er, at de tiltrækkes af det nye og spændende, men hurtigt mister interessen igen«

Meningsmåling 2, 25. okt: Tilbagegang hos SF, Megafon for Politiken og TV 2. Her konkluderes det, at SF har fået ny formand (A), og ikke har fået en større vælgertilslutning (B). Jævnfør Sigge kan denne manglende effekt tilskrives det faktum, at vælgerne er kritisk afventende: »Jeg ser målingen som et udtryk for, at vælgerne er kritisk afventende. De vil give Vilhelmsen mere tid, før de vælger, om det er et hold, de springer over på«

For at opsummere: 23. oktober fortæller Sigge, at vælgerne tiltrækkes af det nye og spændende, og 25. oktober, at vælgerne er kritisk afventende. Vel at mærke i forhold til det samme fænomen. Det må per definition være en selvmodsigelse.

Jeg er derfor heller ikke nødvendigvis enig med Sigge, når han skriver: »Derfor kan medierne godt ranke ryggen og forlange mere journalistik (af den strengt metodiske slags) i deres egne meningsmålinger. Hvis det ikke sker, vil den kvalificerede gættekonkurrence fortsætte.«. Den kvalificerede gættekonkurrence fortsætter kun så længe politiske kommentatorer og eksperter fejlagtigt kommer med konklusioner, der ikke er belæg for, hvor fluktuationer i meningsmålingerne (der sjældent er så store de kan tilskrives andet end statistisk usikkerhed), betragtes som var de eksperimentelt isolerede effekter.

Journalisterne er ikke altid eminente til hverken at formidle eller fortolke meningsmålinger, men det legitimerer på ingen måde eksperternes gættelege. Der er intet galt i de meningsmålinger der foretages, så længe eksperter og journalister kan formidle de begrænsninger, der er forbundet med den slags.

  1. Jeg er ikke overbevist om, at variationen er så stor, at den kan tilskrives andet end statistisk usikkerhed og andre tilfældigheder, men det gør på ingen måde sagen bedre. []

Countrymusik og selvmord

Gennem indlægget On the (Mis)Use of Regression Analysis: Country Music and Suicide, faldt jeg over Steven Stack og Jim Gundlachs paper1 fra 1992, der undersøger effekten af countrymusik på selvmord(!): »This article assesses the link between country music and metropolitan suicide rates. Country music is hypothesized to nurture a suicidal mood through its concerns with problems common in the suicidal population, such as marital discord, alcohol abuse, and alienation from work. The results of a multiple regression analysis of 49 metropolitan areas show that the greater the airtime devoted to country music, the greater the white suicide rate«.

Det er – som ovenstående link indikerer – ikke det bedste studie nogensinde foretaget i videnskabens historie, men det er jo også tyve år gammelt. Det er dog stadigvæk et godt eksempel på et studie med flere åbenlyse fejlkilder og problemer (spørgsmålet om den kausale sammenhæng, at slutte fejlagtigt fra gruppe-niveau til individ-niveau (“ecological fallacy“), måleproblemer m.v.). Flere af disse bliver belyst i et par replikationsstudier og kommentarer i tidsskriftet som det oprindelige studie blev publiceret i, men som (desværre) ikke bliver omtalt i indlægget.

Det første replikationsstudie2, foretaget af Maguire og Snipes i 1994, der ikke finder nogen signifikant korrelation mellem countrymusik og selvmordsrater, kommer med en sjov bemærkning i forhold til hvordan de måler våbentilgængeligheden: »They measured gun availability using “the number of retail outlets (per 100,000 population) listed under ‘guns’ or ‘firearms’ in the … yellow pages.” Although this is a poor measure of gun availability, to remain consistent, we too incorporated this measure.« (s. 1240).

Dette afføder et paper3 hvor Steven Stack og Jim Gundlachs kritiserer det pågældende studies måleproblemer på andre variable, og hvordan korrelationen er signifikant. Her svarer Maguire og Snipes igen4, hvor det påvises, at sammenhængen er spuriøs: »Rather, as Table 1 shows, the relationship is spurious, attributable primarily to the effects of divorce and poverty, and to a lesser extent southernness and gun availability.«

I en kommentar5 omhandlende, at An “Achy Breaky Heart” May Not Kill You, fremhæves nogle af de åbenlyse problemer med studiet der undersøger effekten af countrymusik på sandsynligheden for selvmord: »results of analyses of aggregate data on suicide are “suggestive but not conclusive” and that “researchers must make serious efforts to uncover the conditions under which inferences from aggregate to individual data are still permissible« (s. 1252). Ligeledes pointeres en lang række andre metodiske problemer, der er tekstbogseksempler på begrænsninger ved studiets resultater. For blot at nævne et par af dem relateret til deres data (s. 1252):

Lacking data on individual cases of suicide, one cannot know (1) whether whites who are depressed and suicidal tend to listen to country music or (2) whether whites tend to become depressed and suicidal as a result of listening to country music. Likewise, one cannot determine (1) whether whites who are divorced tend to listen to country music, (2) whether listening to country music tends to cause their noncountry music fan spouses to divorce them, or (3) whether country music makes romantic conflict and divorce seem more normal for those individuals who are contemplating suicide, thus increasing the likelihood that they will attempt suicide. Finally, it is unknown (1) whether whites who are suicidal are more likely to live in the southern region of the U.S. or (2) whether living in the southern region of the U.S. tends to cause whites to become depressed and suicidal.

Som det reagerer Stack og Gundlach6 på resultaterne ved at påvise simple korrelationer på individniveau mellem om man er fan af countrymusik og har været skilt eller separeret, og om man er fan af countrymusik og har et skydevåben, og konkluderer, at: »work is needed to explore the relationship between art and suicide, including country music.« (s. 335).

Studiet og de efterfølgende studier og kommentarer er gode eksempler på for det første hvor vigtige metodiske overvejelser (datavalg, operationaliseringer, indikatorer osv. osv.) såvel som replikationsstudier er, hvor mange faldgruber der er, og selvfølgelig den klassiske; korrelation ≠ kausalitet.

  1. Stack, S. & J. Gundlach (1992). “The Effect of Country Music on Suicide”, Social Forces 71(1): 211-218.  []
  2. Maguire, E. R. & J. B. Snipes (1994). “Reassessing the Link between Country Music and Suicide”, Social Forces 72(4): 1239-1243. []
  3. Stack, S. & J. Gundlach (1994). “Country Music and Suicide: A Reply to Maguire and Snipes”, Social Forces 72(4): 1245-1248 []
  4. Snipes, J. B. & E. R. Maguire (1995). “Country Music, Suicide, and Spuriousness”, Social Forces 74(1): 327-329. []
  5. Mauk, G. W., M. J. Taylor, K. R. White, T. S. Allen (1994). “Comments on Stack and Gundlach’s “The Effect of Country Music on Suicide:” An “Achy Breaky Heart” May Not Kill You”, Social Forces 72(4): 1249-1255 []
  6. Stack, S. & J. Gundlach (1995). “Country Music and Suicide – Individual, Indirect, and Interaction Effects: A Reply to Snipesand Maguire”, Social Forces 74(1): 331-335. []

Lidt om statistik… og får iPhone-ejere mere sex?

Det er sommerferie – og det er dejligt! Sommerferien er lig med en masse tid man skal bruge og prioritere efter ens egne ønsker og præferencer. I mit tilfælde har jeg, foruden arbejde, film, læsning, solskin m.v., valgt at bruge tid på statistik. Hvorfor? Fordi at statistik i bund og grund er noget så fantastisk.

Jeg har før siddet i en diskussion og refereret til diverse statistikker i min argumentation, for blot at få modsvaret, at det jo ”bare” er statistik. Jeg ved ikke hvor udbredt denne opfattelse er, men jeg bliver mildest talt målløs, når jeg møder nogen der har den indstilling til statistik. Jeg må nok tilstå, at jeg er af den opfattelse, at har man intet statistik til at underbygge ens påstande, står man meget svagt.

Benjamin Disraeli, der var engelsk premierminister, sagde, at der findes tre typer af løgne: almindelig løgn, forbandet løgn – og statistik. Dette kan der være noget om, da man kan tolke statistik efter forgodtbefindende, få de værste tal til at se pæne ud og ændre proportioner på fænomener, alt afhængigt af hvordan man ønsker at noget skal fremstå. Dette er dog blot et argument for, at der ikke er brug for at væmmes ved statistik, men tværtimod at specialisere sig yderligere i statistikkens værktøjskasse.

Da Darrell Huff i 1954 skrev bogen How to Lie With Statistics, var det jo netop ikke for at få flere til bevidst at sløre fakta med statistisk manipulation. Nej, hensigten med bogen var at informere om nogle af de faldegruber der eksisterer. Man kan bruge statistik, og man kan også misbruge det, men uanset hvad, så ændrer det ikke på, at man bare må sætte sig ind i, hvad det er statistik kan bruges til og hvordan. Samtidigt er det dog også vigtigt at vide, hvad statistik ikke fortæller. Et eksempel på dette kan være kausalitet.

Fordi at vi opererer med statistisk korrelation, har vi ikke nødvendigvis en kausal sammenhæng. Som statskundskabsstuderende hører man dette igen og igen, og med god grund. Man støder desværre alt for ofte i det daglige på, at folk fejlagtigt forveksler korrelation med kausalitet. Vi ser det desuden også ofte i den journalistiske praksis, hvor at en statistisk korrelation giver en fantastisk anledning til at lave en artikel, hvor at overskriften eksplicit eller implicit antager, at der er en kausalmekanisme.

Et eksempel på dette er nyheden om, at iPhone-ejere får mere sex. En sådan nyhed sælger selvfølgelig blot på overskriften og ideen om, at det er selve ens iPhone der kan forklare, at man får mere sex. Kigger man nærmere, er der i bund og grund blot tale om en meget kedelig statistik, der viser, at det forbrugersegment der køber iPhones, har en fortid præget af flere seksuelle partnere, end ejere af Android-telefoner og BlackBerrys. Det har, whatsoever, ingen direkte relation til ens iPhone (formoder jeg).

Nuvel, der er altså en korrelation mellem smartphones og antallet af seksuelle partnere, men der er næppe en kausalitet, da det tvivlsomt giver nogen mening, at 40-åriges øgede antal af seksuelle partnere, delvist kan forklares ud fra deres køb af en iPhone. Smartphones har trods alt ikke været på markedet længe nok til, overhovedet at kunne tænkes til at være en forklarende variabel.

Ved at måle på antallet af sexpartnere, måler man desuden ikke på, om iPhone ejere får mere sex, end ejere af andre smartphones. Dette fordi, at man med én sexpartner sagtens kan have fået mere sex, end andre kan have fået med tyve sexpartnere. Det er derfor vigtigt med statistik, at man er bevidst om hvad det er man måler, og hvad man kan tillade sig at udlede på den baggrund.

Det er selvfølgelig en sjov information (for iPhone-ejere), at de får mere sex, men ja – de kan allerhøjest klappe sig selv på skulderen over, at de tilhører det forbrugssegment, der generelt bare har flere seksuelle partnere.

Det var vist alt hvad jeg havde på sinde for dette lille hyldestindlæg til statistik. Men som jeg sidder og skriver dette indlæg, mindes jeg følgende quote fra Double Indemnity (1944), som viser meget godt, hvad det er statistikken kan, og som passende bør afslutte dette indlæg:

[Norton, Keyes’s boss, has just tried, unsuccessfully, to convince a client that her husband’s death was a suicide]

Barton Keyes: You know, you, uh, oughta take a look at the statistics on suicide some time. You might learn a little something about the insurance business.
Edward S. Norton: Mister Keyes, I was RAISED in the insurance business.
Barton Keyes: Yeah, in the front office. Come now, you’ve never read an actuarial table in your life, have you? Why they’ve got ten volumes on suicide alone. Suicide by race, by color, by occupation, by sex, by seasons of the year, by time of day. Suicide, how committed: by poison, by firearms, by drowning, by leaps. Suicide by poison, subdivided by *types* of poison, such as corrosive, irritant, systemic, gaseous, narcotic, alkaloid, protein, and so forth; suicide by leaps, subdivided by leaps from high places, under the wheels of trains, under the wheels of trucks, under the feet of horses, from *steamboats*. But, Mr. Norton, of all the cases on record, there’s not one single case of suicide by leap from the rear end of a moving train. And you know how fast that train was going at the point where the body was found? Fifteen miles an hour. Now how can anybody jump off a slow-moving train like that with any kind of expectation that he would kill himself? No. No soap, Mr. Norton. We’re sunk, and we’ll have to pay through the nose, and you know it.

Barton Keyes er klar over, at der er noget galt. Hvorfor? Fordi det ikke stemmer overens med hans statistik. Sandsynligheden for, at der er tale om selvmord, er ganske enkelt forsvindende lille. Det er stadigvæk muligt, at der er tale om selvmord, men sandsynligheden er lille. Meget lille.

Statistik er fantastisk.