
At det offentlige holder øje med sine institutioner, er ikke bare legitimt, det er også betryggende for borgerne og afgørende i en demokratisk kultur. Men når det handler om komplekse ydelser, såsom gymnasieundervisning, kan det diskuteres, hvordan et sådant tilsyn bør udmøntes: Får tilsynet øje på det væsentlige? Skævtrækker STUK med tiden uvilkårligt ydelsen, sådan at andre, væsentlige forhold kommer ud af fokus? Kan resultatet af tilsynet bruges til forbedring af de skoler, der udsættes for kritisk tilsyn? Alt i alt: Har tilsynet den effekt på undervisningen, man kunne ønske?
Siden 2015 har Undervisningsministeriet gennemført tilsyn, hvilende på en række kpi’er (Key Performance Indicators) for de enkelte gymnasier, også kaldet kvalitetsnøgletal. Det er data, der trækkes fra ministeriets Datavarehuset, dannet på baggrund af skolernes løbende indberetninger. På baggrund af talmæssig placering udtages så en række af de lavest placerede gymnasier til tilsyn. På første trin af ’sanktionsstigen’ skal skolerne derefter udarbejde beretninger til STUK om deres egne vurderinger af tallenes betydning. I nogle tilfælde skal skolerne efterfølgende udarbejde mere eller mindre omfattende planer for at ‘rette op på’ de tal, de indgår i tilsynet med. I skoleåret, der sluttede i 2022, var således 55 ud af landets omkring 180 gymnasiale institutioner udtaget (jf. STUKs oplæg på Lederkonferencen i 2023).
Har tilsynet den effekt på undervisningen, man kunne ønske?
I kronikken undersøger vi virkningen af det ministerielle kvalitetstilsyn med gymnasierne. Og vi vurderer virkningen i forhold til Styrelsen for Undervisning og Kvalitets (STUK) beskrivelse af deres mål. Vi undersøger det ud fra en række samtaler med rektorer, hvor gymnasierne har været i tilsyn. Desuden ser vi på, hvad forskning i øvrigt siger om den teknologi, STUK anvender. Vi kan på den baggrund ikke afvise, at det, at en skole kommer i tilsyn, kan have en positiv effekt – om ikke på andet – så på de tal, hvorpå der måles. Men risikoen er stor for, at det såkaldte kvalitetstilsyn ingen effekt har eller måske ligefrem kan virke kontraproduktivt på arbejdet på skolerne. Undtagen måske hvad én effekt angår – den symbolske! Kronikken hviler på en forskningsartikel, vi har skrevet, og som er publiceret i nettidsskriftet Lederliv.
Tilsynet har et tredobbelt formuleret formål. Det skal tjene til brugernes (elevernes og deres forældres) information, så de kan foretage oplyste valg. Politikerne skal kunne følge med i, hvordan skolerne arbejder. Og endelig skal resultaterne kunne bruges i skolens lokale kvalitetsudvikling. Det er det sidste formål, vi først og fremmest beskæftiger os med: Dur tilsynet, når ambitionen er kvalitetsudvikling af gymnasiets undervisning?
Helhedsorienteret og virkningsfuldt?
Ifølge STUKs seneste netpublicering (fra 2024) er det tilsynets mål, at det skal være helhedsorienteret, virkningsfuldt og effektivt. Det undersøger vi ad to veje. Dels ved en mindre interviewundersøgelse blandt rektorer om deres erfaringer med at være i tilsyn, dels i forhold til hvad evalueringsvidenskab siger om den teknologi, der anvendes af tilsynet.
De rektorer, vi har interviewet, er på ingen måde overbeviste om, at tilsynet virker helhedsorienteret. De giver udtryk for en bekymring for, at de enkelte kpi’er skaber specifik og afgrænset opmærksomhed, hvilket gør blind for systemsammenhænge. En målrettet indsats for højere gennemførelsesprocent kan således modvirke en skoles gode eksamensgennemsnit. Angående løfteevne-kpi’en er det for eksempel rektorernes erfaring, at et løft er afhængigt af eksamensgennemsnittet for de elever, gymnasiet modtager, men også af evalueringskulturen på de skoler, hvorfra eleverne rekrutteres. En specifik og stærk indsats med henblik på af hæve karaktergennemsnittet kan virke negativt på trivsels-kpi’en og reducerende på ekstra curriculære, dannende forløb og så videre. Indsatser målrettet den enkelte kpi risikerer derfor at være fragmenterende. Mere generelt peger rektorerne på risikoen for, at indsatser, der gælder for eksempel demokratiske dannelsesmål eller evnen til elevernes selvstyring af læringsarbejdet, der jo er centrale gymnasiale undervisningsmål, forsvinder i resultatmålingen, fordi de er svære at måle.
Rektorerne er også kritiske med hensyn til det virkningsfulde. Skal et tilsyn være virkningsfuldt, skal man kunne handle på resultaterne. Det er ofte svært at se, hvordan man på skolen kan handle på resultater, der forekommer aldeles forståelige på baggrund af lokalområdets sociale og kulturelle forhold. I et par af de konkrete tilsynsforløb, vi undersøgte, er der tale om særlige elevrekrutteringsforhold, som umiddelbart gør det forståeligt, at tallene på trods af rækker af handleplaner med utallige indsatser og megen opmærksomhed ikke har rokket sig i de omkring 10 år, tilsynet har stået på.
Vores forslag er, at tilsyn betyder en faglig dialog om kvalitet i den lokale sammenhæng.
Er det da effektivt? Ifølge de vurderinger, vi støder på i vores undersøgelse, er det kun sjældent tilfældet. Vi har eksempler, hvor man ikke afviser et positivt udbytte, men om det kan aflæses i kpi-tallene, er ikke sikkert. Med til den diskussion hører også, at skolerne gennemgående bruger meget energi på redegørelser og planer, men at redegørelserne og handleplanerne ikke indgår i en analyserede dialog med STUK, der sætter kpi’en ind i en helhed. Det kunne være en helhedsvurdering for eksempel foretaget i relation til det pågældende lokalområdes særkende. Det virker ikke fremmende for et eventuelt læringsudbytte, og den frase, man kender fra angelsaksisk kritik af lignende tilsynsteknologi, trænger sig da også på herhjemme – at effekten snarere er symbolsk og består i framing, naming og shaming af skoler, der præsterer lave tal. Og samtidig er det vigtigt, at udtagelsen til tilsyn sker på baggrund af benchmarking. Det vil sige, at tallene er relative i forhold til et gennemsnit. De 10 lavest præsterende skoler på en ’STUK-skala’ behøver således ikke nødvendigvis at præstere en dårlig undervisningskvalitet set for eksempel i relation til lokalområdet, de er bare nederst på skalaen!
Kpi’er og risiko
Ser vi på, hvad evalueringsforskning skriver om, hvad der i evalueringssammenhæng kaldes præstationsmåling, finder vi advarende røster. Ikke at præstationsmåling ikke kan noget – men man skal være omhyggelig bevidst om, hvad den kan, og hvad den ikke kan, og hvilken effekt selve målingen kan have på præstationen selv (evalueringens konstitutive effekt).
Set i relation til forskningen er de problematikker, rektorerne peger på, ikke overraskende. Fordelen ved præstationsmåling er, at den reducerer kompleksitet og fremmer overskuelighed. Ulempen er tæt forbundet hermed, nemlig at kompleksitetsreduktionen let svækker informationsværdien. En indikator er jo et udtryk for noget andet end selve det, den udsiger. Men ’fanger’ indikatoren dette andet, eller hvad risikerer man at gå glip af i reduktionen? Det er et spørgsmål, der særligt trænger sig på, når det gælder processer knyttet generelt til offentlig velfærdsproduktion. Velfærdsydelsers kendetegn er netop høj kompleksitet. Er eksemplet gymnasieundervisning, gælder det for eksempel lærerens evne til at etablere en meningssammenhæng mellem politisk bestemte mål, faget og elevens erfaringer. Det er forhold, der ikke uden stor didaktisk snilde og personlig indlevelsesevne kan bringes til at spille sammen. Nogle professionsforskere taler i den forbindelse om en relationsindlejret ydelse.
En evalueringsforsker som Burt Perrin (og i dansk sammenhæng Hanne Kathrine Krogstrup, Perrin, 1998; Kroghstrup, 2006) afviser ikke ganske præstationsmåling, men pointerer, at præstationsmåling ofte lover mere, end den kan holde. Det gælder i særlig grad velfærdsprofessionelt arbejde. Andre, der har beskæftiget sig med præstationsmåling specifikt i forhold til undervisning (for eksempel Cave e.a.1997), taler om, at det stiller store krav til konstruktionen af indikatorer om at være veldefinerede i deres indbyrdes sammenhæng (jf. også tidligere om den manglende systemsammenhæng). I gymnasietilfældet synes det ikke at være tilfældet for de valgte indikatorer, der er kommet til lidt efter lidt. De første kpi-er var (tvivlsomme?) forsøg på at oversætte formålsparagraffens formuleringer. De senere er i nogle tilfælde snarere udtryk for aktuelle politiske interesser. Det gælder for eksempel parallelsamfunds-kpi’en. Perrin anfører da også parentetisk, at man i industrifremstilling, hvor man ellers skulle mene, at kvantitative teknikker var umiddelbart anvendelige, efterhånden undlader at bruge præstationsmåling som eneste tilbagemeldingsstrategi, men supplerer med andre for at få det mest retvisende billede.
Hvad er det egentlig for et kvalitetsbegreb, der gemmer sig i STUK's tilgang?
Perrin fremhæver tre risici, som vi i relation til STUKs tilsyn finder væsentlige. Det gælder for det første præstationsmålingernes abstraktion fra konteksten, dernæst risikoen for målforskydning og endelig målingernes eventuelle blindhed for opgaveløsningens samlede effekt. Hvad det første angår – hvad er det egentlig, man måler med en høj gennemførelsesprocent? Er det et mål for kvaliteten i skolens arbejde, eller er det en særlig elevrekruttering, der giver sig udslag, eller noget helt tredje? Og med hensyn til målforskydning: Fra angelsaksisk forskning er det en kendt risiko, at de præstationsmålinger, man laver, forskyder aktiviteten i klassen, så undervisning mere eller mindre bliver afløst af (en i forhold til formålet snæver) træning (teaching to the test-fænomenet). Det peger frem mod det tredje og sidste forhold, vi skal nævne, en risiko for skolens samlede opgaveløsning, der dog går endnu videre: Kan for eksempel den værdi måles, som det har for et lokalsamfund, at der er et gymnasialt tilbud, uanset at den lokale uddannelsesbaggrund gør lave kpi’er sandsynlige?
Paradoksalt er, at de risici, Perrin nævner, gør sig gældende særligt i dansk sammenhæng, hvor almen dannelse er markeret som en kerneopgave. Med en parafrasering af Lars Henrik Schmidts formulering er sigtet at sætte elever i stand til at anvende, hvad de lærer, ikke blot i et instrumentelt perspektiv, men i et engagement vedrørende vedligeholdelse af det fælles for derved at styrke eleven selv (Schmidt, 1999). Det er en kvalitet, der er svær at operationalisere i en kpi, og i øvrigt en kvalitet, hvis effekt ofte viser sig, år efter at skolegangen er afsluttet.
Kvalitetsbegrebet i den politiske kontekst
Der er med andre ord afgørende indvendinger i forhold til STUKs tilsynsmål om, at indikatorerne vil være velegnede til at indgå i vidensdeling om god undervisning. Det stiller to spørgsmål: Hvad er det egentlig for et kvalitetsbegreb, der gemmer sig i STUKs tilgang? Spørgsmålet retter sig udad mod de politiske forventninger til gymnasiet. Det andet spørgsmål orienterer sig indad og handler om, hvordan en kvalitetsudviklende ambition kan lykkes, hvilket ingen jo kan være imod, hvis den kommer eleverne til gavn.
Til spørgsmålet om det kvalitetsbegreb, som ibor STUKS praksis: Tilsynsdesignet har sin rod i et fokus på, hvordan staten sikrer sig value for money. Risikoen i en tidlig New Public Management-sammenhæng er, at kvalitet måles på effektivitet.
Men muligvis trænger en anden forklaring sig også på. Ove Kaj Pedersen har i sin forskning om konkurrencestaten beskrevet, hvordan det strategiske pres på de vesteuropæiske nationer vokser forårsaget af den forandrede globale arbejdsdeling og økonomi (Pedersen, 2011). Nationale strategier kræver samordning på de områder, staten bedst kan styre. Pedersen peger således på, hvordan uddannelse fra at være et gode i højere grad i det perspektiv ses som en strategisk investering i fremtidens produktionsmæssige overlevelse. Det kræver statslig styringskapacitet, og til fremme af det bruger han udtrykket den omringede institution: Institutionerne omgives af styrings-, kontrol- og incitamentsystemer, som leder ledelsesopmærksomheden i den retning, strategien udpeger. Det nye tilsyn kan også forstås på den baggrund – som et forsøg på via kpi’erne at styre skolens opmærksomhed i en retning, der understøtter den nationale bestræbelse på at gøre uddannelse til et strategisk innovativt instrument. Her søges kvalitet, effektivitet og uddannelsens indholdsmæssige innovationskraft forbundet – de unge skal videre i en fart! Når Rigsrevisionen således (som det var tilfældet i 2021) henvender sig til STUK og gør opmærksom på, at indikatoren vedrørende overgangsfrekvensen til de videregående uddannelser er faldende, ja, så er det udtryk for, at gymnasieuddannelsen taber i økonomisk effektivitet. Tilsynssystemet er dog sådan indrettet, at STUK faktisk kunne handle her og nu. Det gjorde man ved at intensivere målingerne, der nu skal ske hvert år (og ikke som før hvert tredje), og samtidig udtage flere af de lavest placerede gymnasier i tilsyn. Ganske vist er det ikke sikkert, at det virker afgørende på overgangsfrekvensen, men symbolsk er der markeret handlekraft, og flere skoler er i det mindste blevet gjort opmærksomme på problemet. Og de vil sikkert et stykke tid eksperimentere med forskellige tiltag for at komme ud af tilsynsklemmen, men der er næppe på skolerne en forventning om, at det afgørende ændrer på elevernes ’overgangskultur’.
Risikoen er stor for, at det såkaldte kvalitetstilsyn ingen effekt har.
Kan tilsynet skabe kvalitetsudvikling?
Det andet spørgsmål, vi rejste ovenfor, retter sig indad, det vil sige umiddelbart mod undervisningsmæssig kvalitet. Det er den respektable ambition, som vi har citeret STUK for at have, men her argumenterer vi for, at selve tilsynsformen eller teknologien står i vejen. Det skal være vores sidste bemærkning.
Vi har nævnt, at indikatorteknologien har den fordel, at den skaber overskuelighed og udgør basis for sammenligning, men vi har også nævnt, at det har en pris. Når kvalitet gøres til tal, dekontekstualiseres kvaliteten. Vores vurdering er, at skal kvalitetsudviklingsarbejdet foregå lokalt og meningsfuldt, må tallene rekontekstualiseres: Hvordan oversættes de til lokal, didaktisk fornyelse? Selvfølgelig er det det, der er tanken bag kravet om indberetning og udviklingsplaner, men vi hører rektorerne sige, at det ofte ikke lader sig gøre meningsfuldt. Man kunne også sige, at selve tal-teknologien gør det mulig at unddrage sig det styringsansvar, der ligger i at gøre samtalen om kvalitet – og dermed om skolernes læring – mulig.
Vores forslag er, at det at en skole bliver udtaget til tilsyn, kunne betyde, at skolen blev inviteret til en faglig dialog om kvalitet i den lokale sammenhæng, der er skolens. Det er og skal ganske vist være en asymmetrisk dialog, for STUK må af demokratiske grunde have det sidste ord, men dialogen skal være orienteret efter sensegiving.
Faktisk kan man her hente historisk inspiration i det såkaldte KUP-initiativ, der fandt sted fra 1989 til 1993. Her tog fagkonsulenter og embedsmænd fra det daværende Gymnasiedirektorat på flerdages skolebesøg, hvor undervisning observeredes, man mødtes med eleverne, lærerne og lederne til samtaler om, hvori god kvalitet bestod. Besøget sluttede med en rapport med en række anbefalinger, der blev udsendt til samtlige gymnasier i landet. Her fremstod kvalitet ikke som et generaliseret (og dekontekstualiseret) begreb, men som et begreb, der udvikledes i lokal dialog. Man kan betegne det som en fagfællebaseret evaluering, baseret også på lokal faglig og faglig ledelsesmæssig gymnasieindsigt. Gymnasierne stod i kø for at få besøg!
Allerede for år tilbage skrev en række evalueringsforskere om fremtidens evaluering, at med den stigende interesse for uddannelse og økonomi kunne man ikke forvente, at præstationsmålingers hyppighed ville aftage, nærmere tværtimod (Albæk, et al., 2001). Dermed bliver det imidlertid helt centralt at lede efter mere effektive måder, hvorpå den form for viden, som den kpi-drevne tilgang giver, kan omsættes i den komplekse kvalitetsforståelse, der er gældende for undervisning i danske gymnasier.
Albæk, E., Dahler-Larsen, P., Hansen, H., Kroghstrup, H., Larsen, F., Lassen, M., & Winter, S. (2001). Evalueringers fremtid – fremtidens evalueringer. I P. Dahler-Larsen, & H. Kroghstrup, Tensender i Evaluering. Odense: Odense Universitetsforlag.
Cave, M., Hanney, S., Henkel, M., & Kogan, M. (3. udg. 1997). The Use of Performance Indicators in Higher Education. London: Jessica Kingsley Publishers.
Kroghstrup, H.K. (2006). Evalueringsmodeller. Århus: Academica.
Pedersen, O. (2011). Konkurrence-staten. København: Hans Reitzel.
Perrin, B. (1998). Effective Use and Misuse of Performance Measurement. American Journal of Evalutation. Vol. 19 no. 3.
Schmidt, L.H. (1999). Dannelse på ny. Om det socialanalytiske perspektiv på velfærdssamfundets dannelsesformer. Dansk pædagogisk tidsskrift, 1999, nr. 1.
Kommentar til artiklen
Eller opret med din email
Klik her, hvis du har glemt din adgangskode