Samfundstjeneste er måske bedre end fængsel #3

For snart et år siden havde jeg et indlæg i Politiken, hvori jeg kritiserede en rapport fra Justitsministeriet, der argumenterede for en positiv effekt af at idømme kriminelle samfundstjeneste i stedet for fængsel. I en ny rapport fra Justitsministeriet, Præventive effekter af straf og andre tiltag over for lovovertrædere – en forskningsoversigt, adresseres min kritik af samfundstjenesterapporten i fodnote 46 på side 69-70:

”Rapporten har fået nogen omtale i medierne, idet forskellige personer har anfægtet undersøgelsens resultat. I Politiken har ph.d. studerende Erik G. Larsen d. 8.6.2014 hævdet, at sammenligningen mellem grupperne er tvivlsom, idet der ikke er taget hensyn til, at de er dømt for forskellige former for kriminalitet. Denne kritik gentages i et interview i Jyllands-Posten d. 1.12.2014, og samme argument er også fremført af to bloggere, Jens Olav Dahlgaard og Martin Vinæs, TV2 18.11.2014. Som nævnt i et modindlæg i Politiken allerede d. 22.6.2014 er dette ikke korrekt, idet der har været gennemført en lang række analyser med henblik på at teste betydningen af de forskellige variabler, herunder også arten af den kriminalitet, der er dømt for. Indvendingen giver indtryk af, at kritikerne ikke er bekendt med det varsomhedsområde, der på undersøgelsestidspunktet var for brugen af samfundstjeneste, og som bevirker, at der netop opstår en skævhed mellem dem, der er idømt en fængselsstraf og dem, der har fået samfundstjeneste. Der vil således være relativt mange voldsdømte blandt dem med fængselsstraf, da samfundstjeneste skal anvendes over for denne gruppe med varsomhed – ikke fordi de er mere recidivtruede end andre, men af hensyn til retsfølelsen. Kvasieksperimentelle undersøgelser af den art, som evalueringen af samfundstjenesteordningen repræsenterer, baserer sig på antagelsen om, at domstolene ikke vurderer alle sager på fuldstændig samme måde, men at der vil være en vis variation mellem dommere og/eller byretter. Dette er da også i den tidligere rapport påvist at være tilfældet (Klement 2011). Når en væsentlig del af samfundstjenestedommene reelt angår varsomhedsområdet, vidner også dette om, at der kan være forskelle på, hvorledes varsomhedsanvisningen er blevet vurderet af de forskellige dommere. To andre væsentlige grunde til at idømme samfundstjeneste i stedet for en fængselsstraf er omfanget af tidligere kriminalitet og længden af den aktuelle straf. Samfundstjeneste gives således hyppigere til nogen med relativt få forstraffe, og som står til en kortere straf. Disse forhold er der taget hensyn til ved de gennemførte analyser. Det kan tilføjes, at der med henblik på udgivelse i et internationalt tidsskrift (artikel accepteret til udgivelse i Journal of Experimental Criminology) er gennemført en række yderligere statistiske analyser – herunder propensity score matchning – og at alle analyser har givet samme resultat. De anvendte metoder og den anvendte fremgangsmåde svarer til de gængse inden for den kriminologiske videnskab, og en meget væsentlig del af den forskning, der er omtalt i denne rapport, hviler på sådanne metoder.”

Pointerne i fodnoten kan opsummeres i to grundlæggende punkter. Én pointe er relateret til forskningsdesignet (der er forskelle på de mennesker, der har fået fængselsstraf og samfundstjeneste, og dette skyldes hensynet til retsfølelsen hos ofrene) og én relateret til de statistiske analyser (der er blevet gennemført yderligere statistiske analyser, der bekræfter resultaterne fra den oprindelige rapport). Det relevante er, at de “yderligere statistiske analyser” netop foretages for at adressere det problem, der er med forskningsdesignet, altså systematiske forskelle mellem dem, der har modtaget fængselsstraf og dem der har modtaget samfundstjeneste. Helt konkret argumenteres der for, at der er anvendt matching som en løsning på at opnå et bedre overlap mellem de to grupper.

Den grundlæggende idé med matching i denne kontekst er, at man estimerer sandsynligheder for hver kriminel for at modtage samfundstjeneste på baggrund af de relevante observerede forhold. For nogle kriminelle vil sandsynligheden for at modtage samfundstjeneste (eller fængsel) være så lille, at det ikke giver mening at inkludere dem i en analyse af effekten af samfundstjeneste. Hvis sandsynligheden for at modtage samfundstjeneste for en person eksempelvis er lig 0, giver det ingen mening at tale om et kontrafaktisk scenarie, hvor personen modtager samfundstjeneste. For de personer der har identiske sandsynlighedsværdier, men afviger i forhold til om de er blevet idømt samfundstjeneste eller fængsel, kan vi konstruere et nyt datasæt, hvor grupperne afviger mindre fra hinanden på de observerede kontrolvariable. Med andre ord er de kriminelle mere sammenlignelige (på observerede forhold) efter man har matchet.

Rosenbaum (2010) beskriver, hvad der kendetegner et godt observationsstudie (herunder også kvasieksperimenter) på side 5: “Although a direct assessment of comparability is possible only for covariates that were measured, a matched observational study typically has a table demonstrating that the matching was reasonably effective in balancing these observed covariates. Unlike randomization, matching for observed covariates provides absolutely no basis for anticipating that unmeasured covariates are similarly balanced”. Dette minder os om to forhold, vi skal være opmærksomme på. Først, selvom vi med matching kan opnå mere sammenlignelige grupper, er det ikke det samme som, at vi har sammenlignelige grupper på uobserverede forhold (til dette har vi brug for et randomiseret forsøg med dertilhørende antagelser). For det andet, at vi skal vurdere hvor gode vores matches er. Med andre ord: Har vi reduceret systematiske forskelle mellem grupperne?

Den oprindelige kritik henholdsvis undertegnede, Jens Olav Dahlgaard og Martin Vinæs ekspliciterede handlede især om netop systematiske forskelle mellem grupperne, der gjorde, at de to grupper ikke var sammenlignelige, og en eventuel forskel mellem disse grupper ikke uden videre kunne tilskrives effekten af samfundstjeneste. I mit indlæg fra december sidste år foreslog jeg derfor følgende: “Såfremt tilfældet havde været, at der ingen (eller begrænsede) systematiske forskelle havde været på tværs af de to grupper på et hav af observerede karakteristika, ville jeg være mere tilbøjelig til at tro, at der heller ikke ville være forskelle på andre relevante men uobserverede variable. Her kan det være interessant at spørge forfatterne, om de har forsøgt sig med matching, og hvilke implikationer det har for resultaterne. Det ville ikke løse grundlæggende problemer med designet, men eventuelle større afvigelser fra de påståede effekter, vil kunne indikere væsentlige problemer.”

Dette er så angiveligt, hvad der er sket nu, hvilket kun er godt. Vi kan derfor se nærmere på, om vi får de samme effektestimater, når vi sammenligner de sammenlignelige observationer (og ikke inkluderer de observationer, der ikke er sammenlignelige, som den kritik der tidligere er rejst, blandt andet bygger på). Tidsskriftsartiklen der henvises til i fodnoten kan findes her. Det er en god artikel, og jeg fandt den læseværdig i sig selv, og der er en god grund til at den er fundet værdig til publicering i det pågældende tidsskrift. Når dette er sagt ændrer ingen af de statistiske analyser på min oprindelige kritik: Der er systematiske forskelle på tværs af de to grupper, der gør, at vi ikke kan konkludere, at der er en kausal effekt af samfundstjeneste på sandsynligheden for at begå ny kriminalitet. Titlen på mit indlæg indeholder (stadig) ordet “måske” af den simple grund, at analyserne heller ikke giver belæg for modsatte.

Som det beskrives tidligt i artiklen, var “information on previous (recorded) crimes, prison length, and type of crime were available in the study and were exploited to adjust for the selection into either CS or imprisonment.” (side 7) og dette sker med henblik på at øge “the comparability of the groups analyzed” (side 8). Perfekt. Vi erkender, at grupperne – før de er matchet – har nogle systematiske forskelle på observerede variable, som vi gerne vil have reduceret, før vi estimerer den kausale effekt af samfundstjeneste.

Problemet opstår i tabel 2, der viser systematiske forskelle på de observerede variable før og efter, der er anvendt matching. For at gøre en lang historie kort: Ingen af de systematiske forskelle på tværs af grupperne reduceres. Som det beskrives i artiklen på side 9: “Table 2 illustrates that there were some significant differences in categorically measured characteristics of offenders sentenced to CS and those sentenced to imprisonment in the unmatched and matched data. The differences concerned gender, alcohol abuse, employment, housing situation, immigration/emigration, geography, and index crime type. Whether or not an individual has immigrated or emigrated (and returned to Denmark) after age 15 is an important control variable because it might mean that the individual crime record is incomplete. The mentioned differences were present before the matching and persisted after the matching.”

Hvordan skal vi tolke især sidste sætning i ovenstående citat? Det skal tolkes således, at de systematiske forskelle der er mellem folk der er idømt samfundstjeneste og fængselsstraf, stadig er til stede, og vi kan dermed ikke sige, at en forskel mellem disse to grupper (selv efter de er matchet), kan tilskrives det forhold, at nogle af dem har modtaget samfundstjeneste. Disse forskelle beskrives desuden videre i tolkningen af tabel 3: “Table 3 shows that offenders also differed in terms of continuous measures. Judicial willingness to impose CS is heavily influenced by the type and seriousness of an offender’s index crime as well as his or her prior criminal history.” (side 10), som fører til følgende vurdering af matching proceduren, der er anvendt I artiklen: “The matching only slightly improved the balance between the CS and prison group, as evident in Tables 2 and 3. The persisting baseline differences after matching in number of prior crimes, duration of index prison sentence, employment, housing situation, and gender reflect this. These differences point to the limits of matching as a remedy for selection bias in this study.” (også side 10)

Med andre ord: Vi har at gøre med skævheder, der har seriøse implikationer for de effektestimater, vi får ud af en statistisk analyse. Derfor er jeg stadig ikke overbevist om, at Justitsministeriets rapport (eller den nye artikel) på overbevisende facon dokumenterer, at samfundstjeneste har en kausal effekt, og derfor bør man også være ekstra kritisk i forhold til de policy-anbefalinger, man ekspliciterer på baggrund af sådan en rapport.

Det der især undrer mig er, at det kun er 23 individer, der falder fra i matching processen. Det åbenlyse spørgsmål er, hvad der skal til for at opnå balance mellem de to grupper, og hvilke implikationer det har for de videre analyser (og dermed den kausale effekt), som jeg efterspurgte i mit indlæg fra december. Jeg er med andre ord ikke overbevist om, at konklusionen på baggrund af matching proceduren bør være, at forskellene mellem grupperne efter matching indikerer en manglende anvendelighed af matching i denne kontekst. Det undrer mig især når der på side 9 står: “Several versions of the matching, differentiated on type of matching and independent variables, were carried out but only the selected matching is reported”. Hvilke typer er der tale om? Hvilke implikationer havde det for balancen mellem grupperne? Hvad viser alle disse forskellige procedurer? Hvorfor kun rapportere én? (Der er intet online appendix, der giver svar på disse spørgsmål.)

Det er fantastisk, at det anerkendes, at der er systematiske forskelle mellem grupperne, som vi gerne vil have reduceret, for at kunne udtale os om den kausale effekt af samfundstjeneste. Det er mindre fantastisk, at sådanne systematiske forskelle ikke reduceres. Som nævnt ovenfor er det en god artikel (betydeligt bedre end rapporten), men man skal stadig holde sig åbenlyse begrænsninger for øje, før man laver nye politiske tiltag på baggrund af de konklusioner, der fremføres i rapporten såvel som i artiklen.

Samfundstjeneste er måske bedre end fængsel #2

I juni havde jeg en kommentar i Politiken, hvor jeg kritisererede en rapport fra Justitsministeriets Forskningskontor, der konkluderede, at “risikoen for at begå ny kriminalitet falder med 15%, hvis man får en dom til samfundstjeneste i stedet for ubetinget frihedsstraf.” Hvad der desværre gik min opmærksomhed forbi var, at forfatterne af rapporten, Christian Klement og Anne-Julie Boesen Pedersen, senere samme måned svarede på min kritik.

I svaret, der er publiceret i Politiken søndag den 22. juni, skriver forfatterne af rapporten: “I Politiken 8.6. har ph.d.-studerende Erik G. Larsen (EGL) et kritisk indlæg om den undersøgelse af effekten af samfundstjeneste i forhold til ubetinget dom, som vi har gennemført. EGL påpeger, at sammenligningsgrundlaget mellem de kriminelle, der har fået betinget dom (med vilkår om samfundstjeneste), og de kriminelle, der har fået en ubetinget dom, er tvivlsomt. Det skyldes ifølge EGL, at der i undersøgelsen ikke er taget hensyn til arten af den kriminalitet, de to grupper har begået. Grunden til, at kriminalitetens art ikke indgår i de endelige modeller, der er vist i rapporten, er, at længden af den udmålte straf er inkluderet, og at denne variabel overlapper betydeligt med kriminalitetens art og dermed erstatter denne. Og det vil det forstyrre analysens resultater, hvis meget overlappende variabler indgår samtidigt (multikollinearitet). Det er undersøgt, om rapportens konklusioner ændres, hvis typen af kriminalitet indgår i stedet for længden af den udmålte straf, men det viser sig ikke at være tilfældet.”

Forfatterne har ret i, at jeg mener sammenligningsgrundlaget er tvivlsomt i forhold til den specifikke problemstilling. Min kritik kan dog ikke reduceres til den kendsgerning, at nogle statistiske modeller ikke inkluderer en variabel omhandlende kriminalitetens art. Det er med andre ord ikke et spørgsmål om, at der ikke er taget hensyn til bestemte kontrolvariable. Jeg mener stadig ikke, uafhængigt af hvor mange teoretisk motiverede kontrolvariable man kan inkludere i en model, at der er tale om en decideret effektevaluering. Det korte af det lange: Man kan ikke kontrollere sig frem til et estimat, der på en meningsfuld måde kan tolkes som en kausaleffekt af et bestemt tiltag.

Jeg blev gjort opmærksom på indlægget af en dygtig journalist fra Jyllands-Posten, der tog fat i problemstillingen. Jeg forklarede, at de forskelle der er på tværs af grupperne, som er systematisk relateret til tilbøjeligheden til at begå kriminalitet, indikerer, at vi ikke har at gøre med sammenlignelige grupper, når vi skal vurdere, om samfundstjenesten virker. Jeg henviste desuden til Jens Olav Dahlgaards indlæg på TV2 Politik, der blandt andet har samme pointe. I Jyllands-Posten den 1. december kan man så læse artiklen Ministerium anklages for at blande »æbler og pærer«. Artiklen er saglig og får formidlet kritikken af undersøgelsen såvel som et forsvar for den.

Britta Kyvsgaard, chef for Justitsministeriets Forskningskontor, siger, at der er ryddet så mange fejlkilder af vejen som muligt og at det er solidt arbejde. Jeg er ikke nødvendigvis enig i, at analyserne og tolkningerne er udført bedst muligt (se blandt andet Jens Olavs indlæg ovenfor og min uddybning nedenfor), men det er vigtigt at holde fast i, at fordi man har gjort det så godt man kunne, er det ikke det samme som, at man har et præcist effektestimat, der siger noget meningsfuldt om, hvilken effekt samfundstjenesten har. Flemming Balvig, professor i retssociologi og kriminologi ved Det Juridiske Fakultet, Københavns Universitet, siger i forlængelse heraf, at noget tyder på, at samfundstjenesten har en positiv effekt og at det er bedre end et gæt. Jeg er, som også vil blive beskrevet nedenfor, ikke enig i dette.

Det vigtige er dog først og fremmest at få fremhævet, at der ikke bare er tale om en teknisk detalje, der gør det svært at sige, om effekten er et procentpoint eller to fra den påståede. Der er tale om et grundlæggende problem med denne slags observationsdata, hvor vi antager, at ved at kontrollere for forskelle på et hav af tænkelige kontrolvariable, vil grupperne være sammenlignelige, og kontrafaktisk kunne vi – i dette tilfælde – have fået mindre kriminalitet, hvis blot dem der fik ubetinget fængselsstraf, var blevet idømt samfundstjeneste i stedet for ubetinget fængsel. Det kan vi dog ikke være sikre på (igen, læs også Jens Olavs indlæg for en udførlig beskrivelse af den grundlæggende problematik).

Når det så er sagt, undrer det mig, at man i rapporten taler om netop eksperiment- og kontrolgrupper, som om man har at gøre med et (naturligt) eksperiment. Ved nærmere eftertanke er det nok især brugen af den eksperimentelle metodes terminologi, der gjorde, at jeg i første instans valgte at skrive et indlæg til Politiken. Såfremt tilfældet havde været, at der ingen (eller begrænsede) systematiske forskelle havde været på tværs af de to grupper på et hav af observerede karakteristika, ville jeg være mere tilbøjelig til at tro, at der heller ikke ville være forskelle på andre relevante men uobserverede variable. Her kan det være interessant at spørge forfatterne, om de har forsøgt sig med matching, og hvilke implikationer det har for resultaterne. Det ville ikke løse grundlæggende problemer med designet, men eventuelle større afvigelser fra de påståede effekter, vil kunne indikere væsentlige problemer. Det er desuden vigtigt at pointere, at fordi der kontrolleres for et hav af forhold i modellerne, kontrolleres der ikke for relationerne mellem variablene, der kan have betydning for systematiske forskelle på tværs af de to grupper. Hvis eksempelvis betydningen af typen af kriminalitet er betinget af uddannelsesforhold, der også varierer systematisk på tværs af de grupper, når man bliver idømt samfundstjeneste, kan det diskuteres, om det er tilstrækkeligt bare at kontrollere for de to variable. Det korte af det lange: Verden er så fandens kompleks.

Forfatterne afslutter indlægget i Politiken med: “Konklusionen, at samfundstjeneste sammenlignet med fængsel fører til mindre tilbagefald til ny kriminalitet, står derfor fast og er tilmed baseret på et ganske solidt fundament.” Ligeledes skriver Mette Frederiksen i en kommentar i Politiken den 24. november, at: “Derfor er det med sagkundskaben i ryggen, at regeringen netop har fremsat et nyt lovforslag om øget brug af samfundstjeneste som et alternativ til fængselsstraf.”. Til trods for at jeg værdsætter forfatternes arbejde med rapporten, savner jeg – i mangel på bedre ord – en metodisk ydmyghed.

Det vigtige ord i titlen på mit første indlæg var “måske”. Jeg afviser ikke at samfundstjenesten kan have så store effekter som forfatterne påstår, men vi kan ikke vide det. Der er dog intet ved undersøgelsen der slår fast, at samfundstjenesten ikke kan have ingen nævneværdige effekter eller sågar – gennemsnitligt set – negative effekter. Der er som sådan intet i vejen med at undersøge systematiske forskelle på tværs af forskellige grupper, men i stedet for at slutte her og konkludere, at samfundstjenesten har en dokumenteret positiv effekt (hvilket jeg igen ikke mener der er belæg for), burde sådanne analyser facilitere en kritisk diskussion af, hvad der kan gøres videre for at blive klogere på, om samfundstjenesten generelt set virker, og måske ligefrem for hvilke typer af personer, samfundstjenesten virker bedst for i stedet for ubetinget fængsel.