Samfundstjeneste er måske bedre end fængsel #3

For snart et år siden havde jeg et indlæg i Politiken, hvori jeg kritiserede en rapport fra Justitsministeriet, der argumenterede for en positiv effekt af at idømme kriminelle samfundstjeneste i stedet for fængsel. I en ny rapport fra Justitsministeriet, Præventive effekter af straf og andre tiltag over for lovovertrædere – en forskningsoversigt, adresseres min kritik af samfundstjenesterapporten i fodnote 46 på side 69-70:

”Rapporten har fået nogen omtale i medierne, idet forskellige personer har anfægtet undersøgelsens resultat. I Politiken har ph.d. studerende Erik G. Larsen d. 8.6.2014 hævdet, at sammenligningen mellem grupperne er tvivlsom, idet der ikke er taget hensyn til, at de er dømt for forskellige former for kriminalitet. Denne kritik gentages i et interview i Jyllands-Posten d. 1.12.2014, og samme argument er også fremført af to bloggere, Jens Olav Dahlgaard og Martin Vinæs, TV2 18.11.2014. Som nævnt i et modindlæg i Politiken allerede d. 22.6.2014 er dette ikke korrekt, idet der har været gennemført en lang række analyser med henblik på at teste betydningen af de forskellige variabler, herunder også arten af den kriminalitet, der er dømt for. Indvendingen giver indtryk af, at kritikerne ikke er bekendt med det varsomhedsområde, der på undersøgelsestidspunktet var for brugen af samfundstjeneste, og som bevirker, at der netop opstår en skævhed mellem dem, der er idømt en fængselsstraf og dem, der har fået samfundstjeneste. Der vil således være relativt mange voldsdømte blandt dem med fængselsstraf, da samfundstjeneste skal anvendes over for denne gruppe med varsomhed – ikke fordi de er mere recidivtruede end andre, men af hensyn til retsfølelsen. Kvasieksperimentelle undersøgelser af den art, som evalueringen af samfundstjenesteordningen repræsenterer, baserer sig på antagelsen om, at domstolene ikke vurderer alle sager på fuldstændig samme måde, men at der vil være en vis variation mellem dommere og/eller byretter. Dette er da også i den tidligere rapport påvist at være tilfældet (Klement 2011). Når en væsentlig del af samfundstjenestedommene reelt angår varsomhedsområdet, vidner også dette om, at der kan være forskelle på, hvorledes varsomhedsanvisningen er blevet vurderet af de forskellige dommere. To andre væsentlige grunde til at idømme samfundstjeneste i stedet for en fængselsstraf er omfanget af tidligere kriminalitet og længden af den aktuelle straf. Samfundstjeneste gives således hyppigere til nogen med relativt få forstraffe, og som står til en kortere straf. Disse forhold er der taget hensyn til ved de gennemførte analyser. Det kan tilføjes, at der med henblik på udgivelse i et internationalt tidsskrift (artikel accepteret til udgivelse i Journal of Experimental Criminology) er gennemført en række yderligere statistiske analyser – herunder propensity score matchning – og at alle analyser har givet samme resultat. De anvendte metoder og den anvendte fremgangsmåde svarer til de gængse inden for den kriminologiske videnskab, og en meget væsentlig del af den forskning, der er omtalt i denne rapport, hviler på sådanne metoder.”

Pointerne i fodnoten kan opsummeres i to grundlæggende punkter. Én pointe er relateret til forskningsdesignet (der er forskelle på de mennesker, der har fået fængselsstraf og samfundstjeneste, og dette skyldes hensynet til retsfølelsen hos ofrene) og én relateret til de statistiske analyser (der er blevet gennemført yderligere statistiske analyser, der bekræfter resultaterne fra den oprindelige rapport). Det relevante er, at de “yderligere statistiske analyser” netop foretages for at adressere det problem, der er med forskningsdesignet, altså systematiske forskelle mellem dem, der har modtaget fængselsstraf og dem der har modtaget samfundstjeneste. Helt konkret argumenteres der for, at der er anvendt matching som en løsning på at opnå et bedre overlap mellem de to grupper.

Den grundlæggende idé med matching i denne kontekst er, at man estimerer sandsynligheder for hver kriminel for at modtage samfundstjeneste på baggrund af de relevante observerede forhold. For nogle kriminelle vil sandsynligheden for at modtage samfundstjeneste (eller fængsel) være så lille, at det ikke giver mening at inkludere dem i en analyse af effekten af samfundstjeneste. Hvis sandsynligheden for at modtage samfundstjeneste for en person eksempelvis er lig 0, giver det ingen mening at tale om et kontrafaktisk scenarie, hvor personen modtager samfundstjeneste. For de personer der har identiske sandsynlighedsværdier, men afviger i forhold til om de er blevet idømt samfundstjeneste eller fængsel, kan vi konstruere et nyt datasæt, hvor grupperne afviger mindre fra hinanden på de observerede kontrolvariable. Med andre ord er de kriminelle mere sammenlignelige (på observerede forhold) efter man har matchet.

Rosenbaum (2010) beskriver, hvad der kendetegner et godt observationsstudie (herunder også kvasieksperimenter) på side 5: “Although a direct assessment of comparability is possible only for covariates that were measured, a matched observational study typically has a table demonstrating that the matching was reasonably effective in balancing these observed covariates. Unlike randomization, matching for observed covariates provides absolutely no basis for anticipating that unmeasured covariates are similarly balanced”. Dette minder os om to forhold, vi skal være opmærksomme på. Først, selvom vi med matching kan opnå mere sammenlignelige grupper, er det ikke det samme som, at vi har sammenlignelige grupper på uobserverede forhold (til dette har vi brug for et randomiseret forsøg med dertilhørende antagelser). For det andet, at vi skal vurdere hvor gode vores matches er. Med andre ord: Har vi reduceret systematiske forskelle mellem grupperne?

Den oprindelige kritik henholdsvis undertegnede, Jens Olav Dahlgaard og Martin Vinæs ekspliciterede handlede især om netop systematiske forskelle mellem grupperne, der gjorde, at de to grupper ikke var sammenlignelige, og en eventuel forskel mellem disse grupper ikke uden videre kunne tilskrives effekten af samfundstjeneste. I mit indlæg fra december sidste år foreslog jeg derfor følgende: “Såfremt tilfældet havde været, at der ingen (eller begrænsede) systematiske forskelle havde været på tværs af de to grupper på et hav af observerede karakteristika, ville jeg være mere tilbøjelig til at tro, at der heller ikke ville være forskelle på andre relevante men uobserverede variable. Her kan det være interessant at spørge forfatterne, om de har forsøgt sig med matching, og hvilke implikationer det har for resultaterne. Det ville ikke løse grundlæggende problemer med designet, men eventuelle større afvigelser fra de påståede effekter, vil kunne indikere væsentlige problemer.”

Dette er så angiveligt, hvad der er sket nu, hvilket kun er godt. Vi kan derfor se nærmere på, om vi får de samme effektestimater, når vi sammenligner de sammenlignelige observationer (og ikke inkluderer de observationer, der ikke er sammenlignelige, som den kritik der tidligere er rejst, blandt andet bygger på). Tidsskriftsartiklen der henvises til i fodnoten kan findes her. Det er en god artikel, og jeg fandt den læseværdig i sig selv, og der er en god grund til at den er fundet værdig til publicering i det pågældende tidsskrift. Når dette er sagt ændrer ingen af de statistiske analyser på min oprindelige kritik: Der er systematiske forskelle på tværs af de to grupper, der gør, at vi ikke kan konkludere, at der er en kausal effekt af samfundstjeneste på sandsynligheden for at begå ny kriminalitet. Titlen på mit indlæg indeholder (stadig) ordet “måske” af den simple grund, at analyserne heller ikke giver belæg for modsatte.

Som det beskrives tidligt i artiklen, var “information on previous (recorded) crimes, prison length, and type of crime were available in the study and were exploited to adjust for the selection into either CS or imprisonment.” (side 7) og dette sker med henblik på at øge “the comparability of the groups analyzed” (side 8). Perfekt. Vi erkender, at grupperne – før de er matchet – har nogle systematiske forskelle på observerede variable, som vi gerne vil have reduceret, før vi estimerer den kausale effekt af samfundstjeneste.

Problemet opstår i tabel 2, der viser systematiske forskelle på de observerede variable før og efter, der er anvendt matching. For at gøre en lang historie kort: Ingen af de systematiske forskelle på tværs af grupperne reduceres. Som det beskrives i artiklen på side 9: “Table 2 illustrates that there were some significant differences in categorically measured characteristics of offenders sentenced to CS and those sentenced to imprisonment in the unmatched and matched data. The differences concerned gender, alcohol abuse, employment, housing situation, immigration/emigration, geography, and index crime type. Whether or not an individual has immigrated or emigrated (and returned to Denmark) after age 15 is an important control variable because it might mean that the individual crime record is incomplete. The mentioned differences were present before the matching and persisted after the matching.”

Hvordan skal vi tolke især sidste sætning i ovenstående citat? Det skal tolkes således, at de systematiske forskelle der er mellem folk der er idømt samfundstjeneste og fængselsstraf, stadig er til stede, og vi kan dermed ikke sige, at en forskel mellem disse to grupper (selv efter de er matchet), kan tilskrives det forhold, at nogle af dem har modtaget samfundstjeneste. Disse forskelle beskrives desuden videre i tolkningen af tabel 3: “Table 3 shows that offenders also differed in terms of continuous measures. Judicial willingness to impose CS is heavily influenced by the type and seriousness of an offender’s index crime as well as his or her prior criminal history.” (side 10), som fører til følgende vurdering af matching proceduren, der er anvendt I artiklen: “The matching only slightly improved the balance between the CS and prison group, as evident in Tables 2 and 3. The persisting baseline differences after matching in number of prior crimes, duration of index prison sentence, employment, housing situation, and gender reflect this. These differences point to the limits of matching as a remedy for selection bias in this study.” (også side 10)

Med andre ord: Vi har at gøre med skævheder, der har seriøse implikationer for de effektestimater, vi får ud af en statistisk analyse. Derfor er jeg stadig ikke overbevist om, at Justitsministeriets rapport (eller den nye artikel) på overbevisende facon dokumenterer, at samfundstjeneste har en kausal effekt, og derfor bør man også være ekstra kritisk i forhold til de policy-anbefalinger, man ekspliciterer på baggrund af sådan en rapport.

Det der især undrer mig er, at det kun er 23 individer, der falder fra i matching processen. Det åbenlyse spørgsmål er, hvad der skal til for at opnå balance mellem de to grupper, og hvilke implikationer det har for de videre analyser (og dermed den kausale effekt), som jeg efterspurgte i mit indlæg fra december. Jeg er med andre ord ikke overbevist om, at konklusionen på baggrund af matching proceduren bør være, at forskellene mellem grupperne efter matching indikerer en manglende anvendelighed af matching i denne kontekst. Det undrer mig især når der på side 9 står: “Several versions of the matching, differentiated on type of matching and independent variables, were carried out but only the selected matching is reported”. Hvilke typer er der tale om? Hvilke implikationer havde det for balancen mellem grupperne? Hvad viser alle disse forskellige procedurer? Hvorfor kun rapportere én? (Der er intet online appendix, der giver svar på disse spørgsmål.)

Det er fantastisk, at det anerkendes, at der er systematiske forskelle mellem grupperne, som vi gerne vil have reduceret, for at kunne udtale os om den kausale effekt af samfundstjeneste. Det er mindre fantastisk, at sådanne systematiske forskelle ikke reduceres. Som nævnt ovenfor er det en god artikel (betydeligt bedre end rapporten), men man skal stadig holde sig åbenlyse begrænsninger for øje, før man laver nye politiske tiltag på baggrund af de konklusioner, der fremføres i rapporten såvel som i artiklen.