Det uetiske ved randomiserede forsøg i offentlig politik

Det er af afgørende betydning, at offentlige politikker har den ønskede virkning. Det giver eksempelvis ingen mening at gennemføre sociale tiltag, hvis de ikke har nogen effekt (eller ligefrem en modsatrettet effekt af den ønskede). Den bedste (og ofte eneste) måde at klarlægge, om en politik virker, er ved at gennemføre eksperimenter. Der er heldigvis flere og flere offentlige institutioner, der er ved at åbne øjnene op for, hvilke specifikke styrker den eksperimentelle metode har, og det er åbenlyst, at vi kun vil se endnu flere eksperimenter i fremtiden. Især i takt med at ønsket om og behovet for evidensbaseret politik stiger.

Eksperimenter er dog også forbundet med diverse svagheder, og et af de kritikpunkter man ofte hører, er relateret til det uetiske ved, at ikke alle personer i et eksperimentelt studie får den samme behandling. Og hvad endnu værre er: Det er tilfældigt, hvem der får behandlingen. Problemet er bare, at tilfældighedsaspektet, altså randomiseringen, ikke alene er ønskværdigt, men en forudsætning for, at kunne undersøge effekten af offentlige politikker.

I Weekendavisen fra den 11. september kan man læse en interessant artikel, ”Må vi kigge over skulderen?”, der blandt andet kommer ind på det etiske aspekt ved randomiserede forsøg: ”At det også er vanskeligt at lave randomiserede kontrollerede studier af det specialiserede socialområde, har SFI erfaret. Her måtte man sidste år opgive at undersøge effekten af behandlingsprogrammet Treatment Foster Care Oregon. Det er målrettet børn og unge i alderen 12-18 år med adfærdsproblemer, som midlertidigt anbringes i en træningsfamilie, og er en af de ni metoder, som Socialstyrelsen anbefaler. I første omgang sagde otte ud af 18 kommuner ja til at medvirke i et forsøg, hvor metoden skulle sammenlignes med en traditionel anbringelse. Men efterfølgende fik sagsbehandlerne kolde fødder. De fandt det uetisk at lade lodtrækning afgøre, hvilket tilbud børnene skulle have.”

Dette er hverken den første eller sidste historie, hvor hovedfortællingen er, at et eksperiment bliver aflyst, fordi dem der står med ansvaret, finder det uetisk at lade tilfældigheder afgøre, hvilke tiltag borgerne får (i ovenstående tilfælde børnene). Det triste er, at vi opgiver forsøget på at opnå en viden om sociale sammenhænge (altså at blive klogere på verdenen), fordi der tilsyneladende hersker en illusion om, at status quo er bedre.

Det vigtige er, at vi ikke kan vide om alternativet til en bestemt politik er bedre uden først at undersøge det. Udfordringen er her, at der ofte allerede er en bestemt politik på et givent område, og denne politik eksisterer ikke uden at offentligt ansatte har en opfattelse af, at den pågældende politik har en eller anden intenderet virkning. Når man dermed ønsker at undersøge, om en anden politik (eller ingen politik) virker bedre, skal man først overbevise de ansvarlige om, at en bestemt gruppe mennesker ikke skal udsættes for status quo. Det giver bare ingen mening at sige, at dette er uetisk, da grunden til vi netop ønsker at gennemføre et eksperiment er at finde ud af, om status quo er den bedste løsning. Først når noget er undersøgt i et eksperiment, kan vi diskutere, om det er uetisk at lade tilfældigheder afgøre, hvem der skal udsættes for en bestemt politik.

Her kommer vi så til det paradoksale: Det at designe eksperimenter kræver en viden om, hvad der virker. En viden som først opnås, når man har gennemført et eksperiment. Det er denne viden de ansvarlige føler, at de besidder forud for et eksperiment, hvorved det er uetisk at gennemføre eksperimentet. Opgaven for forskere og andre personer med et ønske om evidensbaseret politik, er at overbevise de ansvarlige om, at eksperimenter ikke er uetiske, men en forudsætning for at kunne belyse sociale sammenhænge og i mange tilfælde blive fundamentalt klogere på, hvordan man bedst opnår de ønskede mål for færrest mulige offentlige midler.

Summa summarum: Det er altid vigtigt at forholde sig til de etiske aspekter af et eksperiment (dette gælder for al slags forskning), men når det kommer til de etiske aspekter forbundet med spørgsmålet om, hvorvidt vi skal bruge randomiserede kontrollede forsøg til at blive klogere på verdenen, er det ikke uetisk at lave eksperimenter, men tværtimod – i de fleste tilfælde – uetisk ikke at gennemføre eksperimenter.

Meningsmålinger og eksperternes gættelege

Sigge Winther Nielsen, ph.d.-studerende ved KU, har skrevet et fint indlæg på Politiken.dk, hvor han korrekt nævner flere af de faldgruber, der er forbundet med at udtale sig på baggrund af variationer på tværs af meningsmålinger over tid.

Problemet er, som Sigge pointerer, at de konklusioner der laves, ikke altid giver mening, da samvariation ikke er det samme som en årsagssammenhæng. Eller som han formulerer det: »At SF har fået en ny formand (A) og er gået frem i meningsmålingerne (B), betyder ikke, at A fører til B.«

Når Sigge åbenlyst har så godt styr på disse svagheder forbundet med at forholde sig til kausaleffekter i denne slags meningsmålinger, fremstår det tragikomisk, at han selv flittigt udtaler sig om lige præcis dette. Lad os blot tage udgangspunkt i eksemplet med SFs nye formand og SFs elektorale opbakning i meningsmålingerne.

Der har været foretaget et par meningsmålinger efter valget af Annette Vilhelmsen som ny formand for SF, og disse har Sigge Winther Nielsen forholdt sig til. Den ene meningsmåling viser en fremgang til SF, den anden en tilbagegang1.

Meningsmåling 1, 23. okt: Fremgang hos SF, YouGov for metroXpress. Her konkluderes det, at SF har fået ny formand (A) og en større vælgertilslutning (B). Jævnfør Sigge kan denne effekt (A → B) være en såkaldt formandseffekt: »Vi så den samme umiddelbare effekt, da Helle Thorning-Schmidt (S) og Villy Søvndal (SF) blev valgt til nye partiformænd i 2005. Da oplevede SF og Socialdemokraterne også en hurtigt [sic] fremgang, men de tabte den lige så hurtigt igen. Man ved faktisk ikke, hvorfor vælgerne reagerer sådan, men et godt gæt er, at de tiltrækkes af det nye og spændende, men hurtigt mister interessen igen«

Meningsmåling 2, 25. okt: Tilbagegang hos SF, Megafon for Politiken og TV 2. Her konkluderes det, at SF har fået ny formand (A), og ikke har fået en større vælgertilslutning (B). Jævnfør Sigge kan denne manglende effekt tilskrives det faktum, at vælgerne er kritisk afventende: »Jeg ser målingen som et udtryk for, at vælgerne er kritisk afventende. De vil give Vilhelmsen mere tid, før de vælger, om det er et hold, de springer over på«

For at opsummere: 23. oktober fortæller Sigge, at vælgerne tiltrækkes af det nye og spændende, og 25. oktober, at vælgerne er kritisk afventende. Vel at mærke i forhold til det samme fænomen. Det må per definition være en selvmodsigelse.

Jeg er derfor heller ikke nødvendigvis enig med Sigge, når han skriver: »Derfor kan medierne godt ranke ryggen og forlange mere journalistik (af den strengt metodiske slags) i deres egne meningsmålinger. Hvis det ikke sker, vil den kvalificerede gættekonkurrence fortsætte.«. Den kvalificerede gættekonkurrence fortsætter kun så længe politiske kommentatorer og eksperter fejlagtigt kommer med konklusioner, der ikke er belæg for, hvor fluktuationer i meningsmålingerne (der sjældent er så store de kan tilskrives andet end statistisk usikkerhed), betragtes som var de eksperimentelt isolerede effekter.

Journalisterne er ikke altid eminente til hverken at formidle eller fortolke meningsmålinger, men det legitimerer på ingen måde eksperternes gættelege. Der er intet galt i de meningsmålinger der foretages, så længe eksperter og journalister kan formidle de begrænsninger, der er forbundet med den slags.

  1. Jeg er ikke overbevist om, at variationen er så stor, at den kan tilskrives andet end statistisk usikkerhed og andre tilfældigheder, men det gør på ingen måde sagen bedre. []

Countrymusik og selvmord

Gennem indlægget On the (Mis)Use of Regression Analysis: Country Music and Suicide, faldt jeg over Steven Stack og Jim Gundlachs paper1 fra 1992, der undersøger effekten af countrymusik på selvmord(!): »This article assesses the link between country music and metropolitan suicide rates. Country music is hypothesized to nurture a suicidal mood through its concerns with problems common in the suicidal population, such as marital discord, alcohol abuse, and alienation from work. The results of a multiple regression analysis of 49 metropolitan areas show that the greater the airtime devoted to country music, the greater the white suicide rate«.

Det er – som ovenstående link indikerer – ikke det bedste studie nogensinde foretaget i videnskabens historie, men det er jo også tyve år gammelt. Det er dog stadigvæk et godt eksempel på et studie med flere åbenlyse fejlkilder og problemer (spørgsmålet om den kausale sammenhæng, at slutte fejlagtigt fra gruppe-niveau til individ-niveau (“ecological fallacy“), måleproblemer m.v.). Flere af disse bliver belyst i et par replikationsstudier og kommentarer i tidsskriftet som det oprindelige studie blev publiceret i, men som (desværre) ikke bliver omtalt i indlægget.

Det første replikationsstudie2, foretaget af Maguire og Snipes i 1994, der ikke finder nogen signifikant korrelation mellem countrymusik og selvmordsrater, kommer med en sjov bemærkning i forhold til hvordan de måler våbentilgængeligheden: »They measured gun availability using “the number of retail outlets (per 100,000 population) listed under ‘guns’ or ‘firearms’ in the … yellow pages.” Although this is a poor measure of gun availability, to remain consistent, we too incorporated this measure.« (s. 1240).

Dette afføder et paper3 hvor Steven Stack og Jim Gundlachs kritiserer det pågældende studies måleproblemer på andre variable, og hvordan korrelationen er signifikant. Her svarer Maguire og Snipes igen4, hvor det påvises, at sammenhængen er spuriøs: »Rather, as Table 1 shows, the relationship is spurious, attributable primarily to the effects of divorce and poverty, and to a lesser extent southernness and gun availability.«

I en kommentar5 omhandlende, at An “Achy Breaky Heart” May Not Kill You, fremhæves nogle af de åbenlyse problemer med studiet der undersøger effekten af countrymusik på sandsynligheden for selvmord: »results of analyses of aggregate data on suicide are “suggestive but not conclusive” and that “researchers must make serious efforts to uncover the conditions under which inferences from aggregate to individual data are still permissible« (s. 1252). Ligeledes pointeres en lang række andre metodiske problemer, der er tekstbogseksempler på begrænsninger ved studiets resultater. For blot at nævne et par af dem relateret til deres data (s. 1252):

Lacking data on individual cases of suicide, one cannot know (1) whether whites who are depressed and suicidal tend to listen to country music or (2) whether whites tend to become depressed and suicidal as a result of listening to country music. Likewise, one cannot determine (1) whether whites who are divorced tend to listen to country music, (2) whether listening to country music tends to cause their noncountry music fan spouses to divorce them, or (3) whether country music makes romantic conflict and divorce seem more normal for those individuals who are contemplating suicide, thus increasing the likelihood that they will attempt suicide. Finally, it is unknown (1) whether whites who are suicidal are more likely to live in the southern region of the U.S. or (2) whether living in the southern region of the U.S. tends to cause whites to become depressed and suicidal.

Som det reagerer Stack og Gundlach6 på resultaterne ved at påvise simple korrelationer på individniveau mellem om man er fan af countrymusik og har været skilt eller separeret, og om man er fan af countrymusik og har et skydevåben, og konkluderer, at: »work is needed to explore the relationship between art and suicide, including country music.« (s. 335).

Studiet og de efterfølgende studier og kommentarer er gode eksempler på for det første hvor vigtige metodiske overvejelser (datavalg, operationaliseringer, indikatorer osv. osv.) såvel som replikationsstudier er, hvor mange faldgruber der er, og selvfølgelig den klassiske; korrelation ≠ kausalitet.

  1. Stack, S. & J. Gundlach (1992). “The Effect of Country Music on Suicide”, Social Forces 71(1): 211-218.  []
  2. Maguire, E. R. & J. B. Snipes (1994). “Reassessing the Link between Country Music and Suicide”, Social Forces 72(4): 1239-1243. []
  3. Stack, S. & J. Gundlach (1994). “Country Music and Suicide: A Reply to Maguire and Snipes”, Social Forces 72(4): 1245-1248 []
  4. Snipes, J. B. & E. R. Maguire (1995). “Country Music, Suicide, and Spuriousness”, Social Forces 74(1): 327-329. []
  5. Mauk, G. W., M. J. Taylor, K. R. White, T. S. Allen (1994). “Comments on Stack and Gundlach’s “The Effect of Country Music on Suicide:” An “Achy Breaky Heart” May Not Kill You”, Social Forces 72(4): 1249-1255 []
  6. Stack, S. & J. Gundlach (1995). “Country Music and Suicide – Individual, Indirect, and Interaction Effects: A Reply to Snipesand Maguire”, Social Forces 74(1): 331-335. []

Lidt om statistik… og får iPhone-ejere mere sex?

Det er sommerferie – og det er dejligt! Sommerferien er lig med en masse tid man skal bruge og prioritere efter ens egne ønsker og præferencer. I mit tilfælde har jeg, foruden arbejde, film, læsning, solskin m.v., valgt at bruge tid på statistik. Hvorfor? Fordi at statistik i bund og grund er noget så fantastisk.

Jeg har før siddet i en diskussion og refereret til diverse statistikker i min argumentation, for blot at få modsvaret, at det jo ”bare” er statistik. Jeg ved ikke hvor udbredt denne opfattelse er, men jeg bliver mildest talt målløs, når jeg møder nogen der har den indstilling til statistik. Jeg må nok tilstå, at jeg er af den opfattelse, at har man intet statistik til at underbygge ens påstande, står man meget svagt.

Benjamin Disraeli, der var engelsk premierminister, sagde, at der findes tre typer af løgne: almindelig løgn, forbandet løgn – og statistik. Dette kan der være noget om, da man kan tolke statistik efter forgodtbefindende, få de værste tal til at se pæne ud og ændre proportioner på fænomener, alt afhængigt af hvordan man ønsker at noget skal fremstå. Dette er dog blot et argument for, at der ikke er brug for at væmmes ved statistik, men tværtimod at specialisere sig yderligere i statistikkens værktøjskasse.

Da Darrell Huff i 1954 skrev bogen How to Lie With Statistics, var det jo netop ikke for at få flere til bevidst at sløre fakta med statistisk manipulation. Nej, hensigten med bogen var at informere om nogle af de faldegruber der eksisterer. Man kan bruge statistik, og man kan også misbruge det, men uanset hvad, så ændrer det ikke på, at man bare må sætte sig ind i, hvad det er statistik kan bruges til og hvordan. Samtidigt er det dog også vigtigt at vide, hvad statistik ikke fortæller. Et eksempel på dette kan være kausalitet.

Fordi at vi opererer med statistisk korrelation, har vi ikke nødvendigvis en kausal sammenhæng. Som statskundskabsstuderende hører man dette igen og igen, og med god grund. Man støder desværre alt for ofte i det daglige på, at folk fejlagtigt forveksler korrelation med kausalitet. Vi ser det desuden også ofte i den journalistiske praksis, hvor at en statistisk korrelation giver en fantastisk anledning til at lave en artikel, hvor at overskriften eksplicit eller implicit antager, at der er en kausalmekanisme.

Et eksempel på dette er nyheden om, at iPhone-ejere får mere sex. En sådan nyhed sælger selvfølgelig blot på overskriften og ideen om, at det er selve ens iPhone der kan forklare, at man får mere sex. Kigger man nærmere, er der i bund og grund blot tale om en meget kedelig statistik, der viser, at det forbrugersegment der køber iPhones, har en fortid præget af flere seksuelle partnere, end ejere af Android-telefoner og BlackBerrys. Det har, whatsoever, ingen direkte relation til ens iPhone (formoder jeg).

Nuvel, der er altså en korrelation mellem smartphones og antallet af seksuelle partnere, men der er næppe en kausalitet, da det tvivlsomt giver nogen mening, at 40-åriges øgede antal af seksuelle partnere, delvist kan forklares ud fra deres køb af en iPhone. Smartphones har trods alt ikke været på markedet længe nok til, overhovedet at kunne tænkes til at være en forklarende variabel.

Ved at måle på antallet af sexpartnere, måler man desuden ikke på, om iPhone ejere får mere sex, end ejere af andre smartphones. Dette fordi, at man med én sexpartner sagtens kan have fået mere sex, end andre kan have fået med tyve sexpartnere. Det er derfor vigtigt med statistik, at man er bevidst om hvad det er man måler, og hvad man kan tillade sig at udlede på den baggrund.

Det er selvfølgelig en sjov information (for iPhone-ejere), at de får mere sex, men ja – de kan allerhøjest klappe sig selv på skulderen over, at de tilhører det forbrugssegment, der generelt bare har flere seksuelle partnere.

Det var vist alt hvad jeg havde på sinde for dette lille hyldestindlæg til statistik. Men som jeg sidder og skriver dette indlæg, mindes jeg følgende quote fra Double Indemnity (1944), som viser meget godt, hvad det er statistikken kan, og som passende bør afslutte dette indlæg:

[Norton, Keyes’s boss, has just tried, unsuccessfully, to convince a client that her husband’s death was a suicide]

Barton Keyes: You know, you, uh, oughta take a look at the statistics on suicide some time. You might learn a little something about the insurance business.
Edward S. Norton: Mister Keyes, I was RAISED in the insurance business.
Barton Keyes: Yeah, in the front office. Come now, you’ve never read an actuarial table in your life, have you? Why they’ve got ten volumes on suicide alone. Suicide by race, by color, by occupation, by sex, by seasons of the year, by time of day. Suicide, how committed: by poison, by firearms, by drowning, by leaps. Suicide by poison, subdivided by *types* of poison, such as corrosive, irritant, systemic, gaseous, narcotic, alkaloid, protein, and so forth; suicide by leaps, subdivided by leaps from high places, under the wheels of trains, under the wheels of trucks, under the feet of horses, from *steamboats*. But, Mr. Norton, of all the cases on record, there’s not one single case of suicide by leap from the rear end of a moving train. And you know how fast that train was going at the point where the body was found? Fifteen miles an hour. Now how can anybody jump off a slow-moving train like that with any kind of expectation that he would kill himself? No. No soap, Mr. Norton. We’re sunk, and we’ll have to pay through the nose, and you know it.

Barton Keyes er klar over, at der er noget galt. Hvorfor? Fordi det ikke stemmer overens med hans statistik. Sandsynligheden for, at der er tale om selvmord, er ganske enkelt forsvindende lille. Det er stadigvæk muligt, at der er tale om selvmord, men sandsynligheden er lille. Meget lille.

Statistik er fantastisk.