Fra rammeverk til en «fair» PISA-test
Neste skritt mot PISA-testen er det mest proble-
matiske: å lage oppgaver som tester de kompe-
tanser som beskrives i rammeverket, og som kan
brukes i alle slags land og kulturer. De tekniske
rapportene (som OECD, 2009) gir detaljer om
denne omfattende prosessen. I korthet foregår
dette slik:
PISA-forskerne i de enkelte OECD-landene
kan komme med forslag til oppgaver som passer
rammeverket, og oppgavene skal være basert på
«authentic texts» knyttet til «real life situations».
Forslagene må være på engelsk eller fransk. Så
følger det en lang prosess der disse forslagene
vurderes sentralt i OECD. Et stort antall oppgaver
plukkes ut for videre bedømmelse gjennom pre-
testing, revisjoner, oversettelse og pilottesting. Så
følger en psykometrisk/statistisk analyse av hvor-
dan oppgavene fungerer i ulike land. Prosessen er
grundig og involverer mange underkomiteer og
intens møteaktivitet.
Et viktig poeng er å lage en «fair test». Det
betyr at man må fjerne oppgaver som ikke fungerer
som de skal, rent statistisk. Dette medfører blant
annet at oppgaver der noen land har høyere skåre
enn statistisk forventet, må kuttes ut fordi det blir
urettferdig overfor andre land. I praksis betyr dette
at oppgaver som har tilknytning til bestemte lands
kultur, historie, naturmiljø, flora, fauna eller dags-
aktuelle utfordringer må fjernes. Oppgavene må
være dekontekstualisert, ingen må kjenne seg igjen
i oppgavene. Så selv om ambisjonen er knyttet til å
bruke «authentic texts» i «real life-situations», vil
hensynet til rettferdig testing gjøre slike ambisjo-
ner urealiserbare. Autentiske tekster og situasjoner
fra det virkelige liv er ikke identiske for 15-åringer
i Mexico, USA, Japan og Sverige.
Helt eksplisitt står det at oppgavene ikke må
være knyttet til landets læreplan eller være typiske
skoleoppgaver (OECD, 2009). Likevel presenterer
OECD PISA-resultatene som universelt gyldige
mål for kvaliteten til et lands skolesystem, og slik
blir de også forstått.
Fra test til skåre: Problematisk analyse
Besvarelsene rettes etter nøye anvisninger fra
sentralt hold i PISA. Dette er en nokså omfat-
tende oppgave, for mange av oppgavene omfatter
skriftlige svar og argumentasjon, ikke bare avkrys-
ninger av alternativer. Veien videre, fra testresultat
på de enkelte oppgaven til den PISA-skår som blir
brukt i analysene, er både komplisert og kontro-
versiell. Selv folk med skolering i statistikk har
vanskelig for å se inn i de detaljer som fører fra
resultatene på enkeltoppgaver fram til en publi-
sert samlet PISA-skåre. Alle elever har ikke fått
de samme oppgavene, men bare et utvalg fra en
større pool av oppgaver som til sammen utgjør
PISA-testen. Den beregnede PISA-skåre er dessu-
ten normalisert til å ha en middelverdi på 500 og
et standardavvik på 100, basert på fordelingene
i OECD-landene. I dataanalysene brukes såkalt
Item Response Theory og Rasch-modellering. En
dansk professor i statistikk, Svend Kreiner, viser
at han, basert på PISA-data, vil kunne få Danmark
til å havne på alt fra nummer 2 til 42 ved bruk av
denne modelleringen (Kreiner og Christensen,
2013). Denne saken har fått stor politisk oppmerk-
somhet i Danmark, der selv ledende politikere
etter hvert er blitt svært kritiske til å bruke PISA-
resultater i skoledebatten.
Problematiske PISA-oppgaver
Til tross for disse åpenbare problemene med å
lage en god test og å analysere de data som blir
produsert, er det viktig å se på de oppgavene som
faktisk blir brukt. En slik vurdering av oppgaveset-
tet er ikke enkel, først og fremst fordi oppgavene
i hovedsak er hemmelige. (Mange av oppgavene
skal brukes ved kommende PISA-tester, og man
vil unngå «teach-to-the-test».) En åpen, offentlig
debatt om oppgavene blir derved vanskelig. Etter
hvert er imidlertid mange oppgaver blitt tilgjenge-
lige, og mange av disse har fått betydelig kritikk,
også fra et faglig perspektiv (Henningsen, 2005;
Sjøberg, 2007). Interesserte kan finne frigitte opp-
gaver på hjemmesidene til PISA i de ulike landene.
Oversettelse av oppgavene fra fransk og engelsk
er åpenbart et viktig punkt. Her følger man et de-
taljert og strengt regelverk. Men verken poesi eller
fagprosa kan oversettes «korrekt» ut fra oppsatte
regler og prosedyrer. Selv mellom de tre skandi-
naviske land er det store forskjeller i oversettelse.
Noen ganger ser vi til og med oppgaver som er
substansielt forandret eller «forbedret» (Sjø-
berg, 2012). Margareta Serder (2014) går i detalj
Bedre Skole nr. 4
■
2014
73