Erik Gahner Larsen

Lidt om statistik… og får iPhone-ejere mere sex?

Det er sommerferie – og det er dejligt! Sommerferien er lig med en masse tid man skal bruge og prioritere efter ens egne ønsker og præferencer. I mit tilfælde har jeg, foruden arbejde, film, læsning, solskin m.v., valgt at bruge tid på statistik. Hvorfor? Fordi at statistik i bund og grund er noget så fantastisk.

Jeg har før siddet i en diskussion og refereret til diverse statistikker i min argumentation, for blot at få modsvaret, at det jo ”bare” er statistik. Jeg ved ikke hvor udbredt denne opfattelse er, men jeg bliver mildest talt målløs, når jeg møder nogen der har den indstilling til statistik. Jeg må nok tilstå, at jeg er af den opfattelse, at har man intet statistik til at underbygge ens påstande, står man meget svagt.

Benjamin Disraeli, der var engelsk premierminister, sagde, at der findes tre typer af løgne: almindelig løgn, forbandet løgn – og statistik. Dette kan der være noget om, da man kan tolke statistik efter forgodtbefindende, få de værste tal til at se pæne ud og ændre proportioner på fænomener, alt afhængigt af hvordan man ønsker at noget skal fremstå. Dette er dog blot et argument for, at der ikke er brug for at væmmes ved statistik, men tværtimod at specialisere sig yderligere i statistikkens værktøjskasse.

Da Darrell Huff i 1954 skrev bogen How to Lie With Statistics, var det jo netop ikke for at få flere til bevidst at sløre fakta med statistisk manipulation. Nej, hensigten med bogen var at informere om nogle af de faldegruber der eksisterer. Man kan bruge statistik, og man kan også misbruge det, men uanset hvad, så ændrer det ikke på, at man bare må sætte sig ind i, hvad det er statistik kan bruges til og hvordan. Samtidigt er det dog også vigtigt at vide, hvad statistik ikke fortæller. Et eksempel på dette kan være kausalitet.

Fordi at vi opererer med statistisk korrelation, har vi ikke nødvendigvis en kausal sammenhæng. Som statskundskabsstuderende hører man dette igen og igen, og med god grund. Man støder desværre alt for ofte i det daglige på, at folk fejlagtigt forveksler korrelation med kausalitet. Vi ser det desuden også ofte i den journalistiske praksis, hvor at en statistisk korrelation giver en fantastisk anledning til at lave en artikel, hvor at overskriften eksplicit eller implicit antager, at der er en kausalmekanisme.

Et eksempel på dette er nyheden om, at iPhone-ejere får mere sex. En sådan nyhed sælger selvfølgelig blot på overskriften og ideen om, at det er selve ens iPhone der kan forklare, at man får mere sex. Kigger man nærmere, er der i bund og grund blot tale om en meget kedelig statistik, der viser, at det forbrugersegment der køber iPhones, har en fortid præget af flere seksuelle partnere, end ejere af Android-telefoner og BlackBerrys. Det har, whatsoever, ingen direkte relation til ens iPhone (formoder jeg).

Nuvel, der er altså en korrelation mellem smartphones og antallet af seksuelle partnere, men der er næppe en kausalitet, da det tvivlsomt giver nogen mening, at 40-åriges øgede antal af seksuelle partnere, delvist kan forklares ud fra deres køb af en iPhone. Smartphones har trods alt ikke været på markedet længe nok til, overhovedet at kunne tænkes til at være en forklarende variabel.

Ved at måle på antallet af sexpartnere, måler man desuden ikke på, om iPhone ejere får mere sex, end ejere af andre smartphones. Dette fordi, at man med én sexpartner sagtens kan have fået mere sex, end andre kan have fået med tyve sexpartnere. Det er derfor vigtigt med statistik, at man er bevidst om hvad det er man måler, og hvad man kan tillade sig at udlede på den baggrund.

Det er selvfølgelig en sjov information (for iPhone-ejere), at de får mere sex, men ja – de kan allerhøjest klappe sig selv på skulderen over, at de tilhører det forbrugssegment, der generelt bare har flere seksuelle partnere.

Det var vist alt hvad jeg havde på sinde for dette lille hyldestindlæg til statistik. Men som jeg sidder og skriver dette indlæg, mindes jeg følgende quote fra Double Indemnity (1944), som viser meget godt, hvad det er statistikken kan, og som passende bør afslutte dette indlæg:

[Norton, Keyes’s boss, has just tried, unsuccessfully, to convince a client that her husband’s death was a suicide]

Barton Keyes: You know, you, uh, oughta take a look at the statistics on suicide some time. You might learn a little something about the insurance business.
Edward S. Norton: Mister Keyes, I was RAISED in the insurance business.
Barton Keyes: Yeah, in the front office. Come now, you’ve never read an actuarial table in your life, have you? Why they’ve got ten volumes on suicide alone. Suicide by race, by color, by occupation, by sex, by seasons of the year, by time of day. Suicide, how committed: by poison, by firearms, by drowning, by leaps. Suicide by poison, subdivided by *types* of poison, such as corrosive, irritant, systemic, gaseous, narcotic, alkaloid, protein, and so forth; suicide by leaps, subdivided by leaps from high places, under the wheels of trains, under the wheels of trucks, under the feet of horses, from *steamboats*. But, Mr. Norton, of all the cases on record, there’s not one single case of suicide by leap from the rear end of a moving train. And you know how fast that train was going at the point where the body was found? Fifteen miles an hour. Now how can anybody jump off a slow-moving train like that with any kind of expectation that he would kill himself? No. No soap, Mr. Norton. We’re sunk, and we’ll have to pay through the nose, and you know it.

Barton Keyes er klar over, at der er noget galt. Hvorfor? Fordi det ikke stemmer overens med hans statistik. Sandsynligheden for, at der er tale om selvmord, er ganske enkelt forsvindende lille. Det er stadigvæk muligt, at der er tale om selvmord, men sandsynligheden er lille. Meget lille.

Statistik er fantastisk.