ÚTILES, PERO NO PERFECTOS

Tres buenas razones para dejar de dar tanta importancia a los exámenes PISA

Cada vez son más los expertos que se muestran en contra de la evaluación realizada por la OCDE o, al menos, de su importancia. Estas son sus debilidades estadísticas

Foto: Estudiantes realizando el examen de selectividad en Sevilla el 16 de junio de 2015. (Reuters/Marcelo del Pozo)
Estudiantes realizando el examen de selectividad en Sevilla el 16 de junio de 2015. (Reuters/Marcelo del Pozo)

Después de haber sido durante unos cuantos años el espejo en el que todo sistema educativo nacional deseaba reflejarse y, a poder ser, salir favorecido, PISA ha pasado a ser objeto de críticas de muy diferente índole. No es de extrañar: cuando algo tan complejo como la educación se reduce a un par de cifras y unos cuantos titulares alarmistas, muchos empiezan a temer que quizá estemos dando demasiada autoridad a una evaluación que cumple con creces los mínimos exigibles, pero que dista mucho de ser perfecta.

Es lo que ocurre, por ejemplo, con Leslie Rutkowski y David Rutkoswki, dos profesores de la Universidad de Olso que han dedicado un buen puñado de 'papers' académicos a matizar la utilidad real de PISA. El último de ellos es 'A Call for a More Measured Approach to Reporting and Interpreting PISA Results', y ha sido publicado en 'Educational Researcher'. Se trata de un compendio de algunas de sus principales objeciones, en el que los autores recuerdan que “la información proporcionada por PISA es aceptablemente precisa y fiable, pero no es perfecta”, al mismo tiempo que piden que los resultados sean tomados con moderación.

La posición prominente de PISA y las críticas que se han realizado hacen que sea aún más importante utilizar cuidadosamente los datos

Los autores proponen ejemplos de esta locura que rodea los exámenes PISA. Es el caso de los resultados obtenidos en el año 2000 por Alemania, que provocaron un 'shock' que “condujo a gigantescas y rápidas reformas educativas”, algo que también ocurrió cuando otros países como Japón o Dinamarca obtuvieron malos resultados. Como recordaba una previa investigación, “cada vez que una nueva oleada de PISA llega, o aparece un análisis adicional, los gobiernos temen los resultados, los periódicos llenan columna tras columna, y el público demanda respuestas a los fallos en el sistema escolar de cada país”.

Lo que produce una obsesión malsana por los 'rankings', que terminan transformándose en una “carrera de caballos” educativa que “identifica a los ganadores y a los perdedores, con los ganadores situados en el foco internacional y los perdedores bajo un microscopio imaginario”. Es lo que ocurrió, por ejemplo con Finlandia, que pasó de ser “el objeto de una ola de turismo de académicos y políticos que querían descubrir los ingredientes que la llevaron al éxito educativo” a ser superada, de repente, por Shanghái, lo que provocó que los propios finlandeses empezasen a considerar que “su sistema educativo se había derrumbado”.

“PISA no está libre de errores”, concluyen los autores. “La posición prominente de PISA y las críticas que se han realizado hacen que sea aún más importante, por lo tanto, utilizar cuidadosamente los datos, que depende de un entendimiento claro de las limitaciones inherentes al estudio”. Por ello, más allá de sus reservas sociológicas, los autores analizan tres de las grandes debilidades estadísticas de esta evaluación que determina el futuro de las políticas educativas de cada nación:

Muestra de participantes

Un examen para unirlos a todos.
Un examen para unirlos a todos.

La primera reserva que manifiestan los autores tiene que ver con las tasas de exclusión en los exámenes, es decir, con el porcentaje de alumnos cuyos resultados no son cuantificados. Como señalan, aunque por lo general la muestra es representativa, “los estudiantes con discapacidades intelectuales o funcionales severas, con habilidades lingüísticas insuficientes o los colegios donde estudian son candidatos para la exclusión”. Algo aceptable, siempre y cuando el porcentaje se encuentre por debajo del 5%. Sin embargo, los Rutkowski desvelan que hay ocho países donde este porcentaje es mayor, entre ellos, Luxemburgo, con un 8,4%, lo que puede causar “distorsiones mayores de lo que cabría esperar”. A lo que hay que añadir un importante problema: la información sobre estos datos se publicó en diciembre de 2014, aunque los resultados ya se conocían desde un año antes.

Más allá de esta objeción, los autores recuerdan que aunque PISA puede ser representativo de la población escolar de un país, no lo es de la población total de 15 años; es decir, aquellos que no están escolarizados no aparecen reflejados en los resultados. Es lo que ocurre en países como Costa Rica, donde solo un 50% de la población lo está, o con Albania y Vietnam, con un 55 y un 56% respectivamente. Pero también ocurre con Shanghái, el país que mejores resultados obtiene, pero donde menos del 80% de los niños de 15 años fueron reflejados en los datos de PISA.

Modelos de estimación del logro

Students Taking Test --- Image by © Simon Jarratt/Corbis
Students Taking Test --- Image by © Simon Jarratt/Corbis

¿Puede un niño español, uno chino y uno estadounidense tener exactamente las mismas capacidades para las mismas materias? Esa es una de las grandes dificultades a la que los exámenes PISA deben hacer frente: a una gran variedad sociocultural que debe ser filtrada en las mismas cinco materias, para lo que utilizan un modelo Rasch de teoría de respuesta al ítem. “Dadas las especificaciones del modelo de Rasch, se asume que los ítems del examen son igual de difíciles para todas las poblaciones bajo consideración”, explican los autores. Una asunción, recuerdan, que previas investigaciones han demostrado que es falsa. Por lo tanto, recuerdan, dichas diferencias pueden ser pequeñas, “pero estadísticamente significativas”.

Hay, claro está, herramientas utilizadas por PISA para intentar minimizar estas diferencias: en concreto, una muestra de múltiple matriz (“multiple matrix sampling”), así como un modelo de imputación cuyo objetivo es tener en cuenta todos los datos disponibles de los estudiantes para generar una distribución en la cual cada alumno sea analizado en razón de un gran número de variables que pueden influir en su rendimiento, y que pueden llegar a las 400 en algunos sistemas educativos.

Cuando la información de fondo de los estudiantes se pierde, las diferencias en los logros entre subgrupos se estiman incorrectamente

“Es decir, más allá de las complejidades del género, los niños marcan la casilla de niño y las niñas la de niña, algo sencillo”, explican los investigadores. “Con preguntas más complejas, sin embargo, las investigaciones sobre las evaluaciones internacionales como PISA han mostrado que hay discrepancias entre lo que reportan los padres y los estudiantes sobre sus posesiones inmobiliarias y estas son mayores en los sistemas educativos menos desarrollados económicamente”. Faltan muchos más datos de lo que cabría esperar, como por ejemplo el 12% de las respuestas de cuál es el idioma que más se habla en casa. “Cuando la información de fondo de los estudiantes se pierde, las diferencias en los logros entre subgrupos se estiman incorrectamente”.

Tendencias de medición

Uno de los puntos más complejos de explicar, y que hace referencia al carácter de análisis de tendencias que tiene PISA. Ello quiere decir que las diversas oleadas tienen como objetivo, ante todo, reflejar el avance o el retroceso de un país, por lo que se comparan los resultados obtenidos en diversas pruebas. Sin embargo, estos resultados también sufren ciertas inconsistencias, señalan los autores, especialmente a la hora de crear enlaces entre distintas oleadas, sobre todo debido a que cada examen tiene un peso diferente en cada oleada.

Por ejemplo, en 2009 tuvo un mayor peso la lectura. “Conectar diversos exámenes a lo largo del tiempo es más complicado debido a la distinción entre dominios mayores y menores y a que algunos dominios de contenido no tenían marcos completamente desarrollados hasta que fueron incluidos como un dominio mayor”, señalan los investigadores. Es, por ejemplo, lo que ocurrió en el año 2006 con la Ciencia, cuando fue por primera vez la materia más importante.

La documentación técnica debe publicarse con la misma velocidad con la que se publican los resultados

Como en otros aspectos, señalan los investigadores, una lectura cuidadosa de los resultados de PISA nos permite descubrir que ellos mismos son los primeros en señalar dichas inconsistencias, probablemente menores teniendo en cuenta el tamaño de las evaluaciones, pero que suelen pasarse por alto. De ahí que hagan tres recomendaciones a la OCDE a la hora de desarrollar esta clase de exámenes: en primer lugar, “la publicación clara de las advertencias”, es decir, que no se encuentren “enterradas entre una miríada de otros detalles e información”. En segundo lugar, “ser consistentes en documentar y reportar solo aquellos análisis metodológicamente sensatos”. Y en último lugar, pero no menos importante, “que se publique la documentación técnica sobre un ciclo de exámenes con la misma velocidad con la que se publican los resultados”.  

Alma, Corazón, Vida

El redactor recomienda

Escribe un comentario... Respondiendo al comentario #1
7 comentarios
Por FechaMejor Valorados
Mostrar más comentarios