Calidad de una base y de los cuestionarios

Análisis de la calidad de las preguntas y fiabilidad de las pruebas

Cada vez que una persona responde a una pregunta, obtenemos información sobre el conocimiento de la persona (que es generalmente lo que más nos interesa), pero también obtenemos información relativa a la pregunta misma. Por ejemplo, ¿es una pregunta fácil (respondida por muchos participantes) o difícil (respondida por pocos participantes)?

Pero hay muchos otros análisis posibles y muy importantes.

Hablemos de la correlación. En términos generales, si tenemos una base de preguntas sobre un tema particular, digamos por ejemplo el RGPD, esperamos que "cuanto más conoce una persona el RGPD, mejor responde a cada una de las preguntas". Esto parece muy simple y casi evidente. Si considero una pregunta específica de mi base, digamos la pregunta #23, espero que "cuanto mejor sea el puntaje global de una persona, mejor responderá también a la pregunta #23". No es sistemático: es posible que una persona de excelente nivel haya fallado en esa pregunta. Pero es cierto en general, es decir, que la probabilidad de éxito en la pregunta #23 está correlacionada con la probabilidad de éxito en la prueba global.

Si contamos con suficientes datos, esta correlación puede medirse matemáticamente, y entonces podremos preguntarnos, para cada una de las preguntas, si está bien correlacionada con la base en su conjunto. Esta correlación es una buena medida de la calidad de la pregunta, es decir, de la capacidad de esta pregunta de contribuir a la medición del conocimiento sobre esta temática.

A partir de este tipo de análisis, es posible calcular el coeficiente “Alpha de Cronbach”, que es una generalización del coeficiente de Kuder-Richardson, llamado KR-20. Se puede decir esquemáticamente que es una medida general de la calidad de la base de preguntas, en otras palabras: cuanto más alto es este coeficiente, más fiables serán las pruebas que utilicen estas preguntas. En general, se busca un KR20 superior al 70%, y es común alcanzar valores superiores al 90%.

Un valor de KR20 inferior al 70% no es satisfactorio, es decir, que sus pruebas no tendrán una fiabilidad suficiente. ¿Qué se puede hacer al respecto? Es bastante fácil en realidad: solo hay que buscar las preguntas que tienen una baja correlación, y ya sea mejorarlas o, aún más simplemente, eliminarlas.

Las preguntas que tienen una correlación negativa con la base en su conjunto deben ser corregidas o eliminadas: son preguntas como “cuanto mejor domina una persona el conocimiento sobre esta temática, menos encuentra la respuesta correcta a esta pregunta”. Es decir, probablemente la pregunta está muy mal formulada o simplemente es errónea (la respuesta correcta no es la indicada, los expertos conocen la correcta, por lo tanto, fallan).

A partir del valor del KR20, es posible determinar el error estándar, es decir, el margen de error asociado a los resultados obtenidos en una prueba que utiliza estas preguntas.

Incluso con preguntas excelentes, es común que el error estándar esté en el orden del 5%, es decir, aproximadamente ±1 punto sobre una nota de 20. Este indicador es esencial: si su error estándar es de 15%, por ejemplo, un puntaje de 15/20 debe interpretarse realmente como estando entre 12/20 y 18/20. El nivel de imprecisión se vuelve entonces preocupante.

Cabe señalar que el error estándar depende tanto del KR20 como del número de preguntas de la prueba. Cuantas más preguntas tenga la prueba, menor será el error estándar.
Por ello, este indicador es especialmente relevante a nivel de un cuestionario dado, y no a escala de una base completa de preguntas.

Recuerde esto sobre todo: los análisis estadísticos de calidad implican cálculos algo complejos, pero usted no tiene que preocuparse por ello, solo tiene que observar los resultados y las recomendaciones que se le presentan.

Descubra también nuestro artículo dedicado a la fiabilidad de las evaluaciones.

Los indicadores principales

Estos análisis han sido ofrecidos por la plataforma Experquiz durante años, pero han sido notablemente mejorados y optimizados en esta versión.

Para acceder a los análisis de calidad, primero debe activar la funcionalidad en la configuración de su empresa (Pestaña “Configuraciones”, sección “Bases”).

A nivel de cada una de sus bases de preguntas, dispone entonces de una pestaña “Calidad”, que se presenta así:

Dispone de los siguientes filtros:

O bien todos los cuestionarios, o solo uno de los cuestionarios de la base.
Puede elegir un contexto de prueba particular, por ejemplo si piensa que los resultados de una evaluación son más pertinentes que los resultados de pruebas libres.
Puede seleccionar un período específico, para considerar solo los resultados de ese intervalo.

La página presenta luego una tabla de indicadores, y para cada uno de los indicadores, un indicador de color que señala en qué medida el valor es satisfactorio, y un comentario detallado acompañado de recomendaciones.

Si su muestra (las pruebas que corresponden a sus filtros) abarca a menos de 40 usuarios, se presenta una advertencia en la parte superior de la página, alertándole sobre la fiabilidad de los análisis. Este tipo de análisis solo es realmente pertinente si más de 40 usuarios han respondido a sus preguntas.

Los indicadores son los siguientes:

Alpha de Cronbach / KR20: vea la explicación en el capítulo anterior.
Error estándar: vea la explicación en el capítulo anterior. Recordemos que solo tiene sentido para un cuestionario dado.
Número de preguntas: para obtener puntajes fiables, sus pruebas deben incluir un número suficiente de preguntas, idealmente al menos 30 preguntas. En pruebas con menos de 20 preguntas, las fluctuaciones son más importantes, y el error estándar será mayor.
Número de usuarios: como se mencionó al inicio, estos análisis requieren al menos 40 usuarios.
Media global de las preguntas: se considera que una tasa de éxito promedio de alrededor del 60 al 70% es ideal para combinar motivación (el participante se motiva por sus éxitos) y selectividad (no todos los participantes responden correctamente todas las preguntas). Pero este indicador no tiene una importancia crítica.
Preguntas con tasa de éxito inferior al 20%
Preguntas con tasa de éxito superior al 80%
Preguntas con baja correlación: vea más arriba la explicación relativa a la noción de correlación. Una pregunta de baja correlación es una pregunta como “los participantes más expertos no responden mejor a esta pregunta que los participantes más débiles”. La pregunta puede no estar errónea, pero no parece medir el mismo conocimiento que las otras preguntas.
Preguntas con correlación negativa: como se vio anteriormente, las preguntas con correlación negativa son realmente un problema, hay que prestar atención a ellas porque degradan la calidad de sus pruebas.
Preguntas con bajo Q1-Q4: aquí se utiliza un concepto que se asemeja a la correlación, pero se calcula de una manera algo diferente.

Para estos tres últimos indicadores, la tabla presenta la lista completa de preguntas relacionadas, con un enlace para modificar la pregunta en una nueva pestaña.

Los gráficos

La siguiente parte de la página presenta 4 gráficos:

La distribución de la tasa de éxito de las preguntas: en el eje horizontal, todas las preguntas están ordenadas desde la tasa de éxito más baja (las más difíciles) a la izquierda, hasta la tasa de éxito más alta (las más fáciles) a la derecha. En el eje vertical, puede leer la tasa de éxito de las preguntas. Idealmente, sería una curva que podría ser una línea recta que va del 0% a la izquierda al 100% a la derecha. No hay realmente una mala configuración, pero si por ejemplo la curva alcanza el 100% justo a la mitad, es decir, que la mitad de sus preguntas tienen una tasa de éxito del 100%, esto probablemente significa que faltan preguntas más difíciles, ya que todas esas preguntas que todo el mundo responde correctamente no aportan mucho a sus puntajes.
La distribución de las tasas de éxito de los participantes: en el eje horizontal, todos los participantes están ordenados desde la tasa de éxito más baja (los menos expertos) a la izquierda, hasta la tasa de éxito más alta (los más expertos) a la derecha. En el eje vertical, puede leer la tasa de éxito de los participantes para cada decil. El punto en X = 50% indica la mediana de las tasas de éxito de los participantes.
La distribución de las tasas de correlación de las preguntas: en el eje horizontal, todas las preguntas están ordenadas desde la correlación más baja hasta la mejor. Las preguntas que tienen una tasa de correlación baja (inferior al 20%) no contribuyen mucho a la construcción de los puntajes. Las preguntas que tienen una tasa de correlación negativa degradan la fiabilidad de sus pruebas. En la imagen a continuación, se puede ver que algunas preguntas tienen una correlación negativa.
La distribución de la diferencia de puntajes de los 1er y 4º cuartiles: los usuarios se distribuyen en cuartiles, es decir, el 25% mejor (en la prueba en general) constituye el primer cuartil, y el 25% menos bueno constituye el 4º cuartil. Para cada una de las preguntas, se puede calcular el puntaje promedio de los participantes del primer cuartil, y el puntaje promedio de los participantes del 4º cuartil. Luego se calcula la diferencia Qt1 – Qt4. Las preguntas se ordenan por diferencia creciente. La diferencia entre cuartiles es una medida de coherencia de las preguntas, de la misma naturaleza que el coeficiente de correlación.

La matriz de correlación y los clusters de preguntas

En la parte inferior de la página, encontrará la matriz de correlación completa, que presenta, en forma de pequeños cuadrados de colores, la correlación entre cada par de preguntas de la base.

Las casillas de color verde, más o menos intenso, representan un par de preguntas que tienen una correlación positiva. Esto significa que si las personas responden correctamente a la primera pregunta, es probable que también respondan correctamente a la segunda. Cuanto más intenso es el color verde, más fuerte es la correlación.

Recíprocamente, las casillas de color rojo representan un par de preguntas que tienen una correlación negativa: cuando se responde correctamente a la primera pregunta, es probable que se falle en la segunda.

Basándose en estas correlaciones, se pueden construir grupos de preguntas que están correlacionadas entre sí, clusters. Cuando una persona responde correctamente a una de las preguntas del cluster, es probable (muy probable o un poco probable) que también responda correctamente a las otras preguntas del cluster.

Esto no debe llevar a pensar que las preguntas del cluster son iguales y que una sola podría ser suficiente. Primero, la correlación no prueba que el conocimiento medido sea el mismo, y además siempre es bueno abordar un concepto desde diferentes ángulos, con preguntas variadas.

Los botones de acción

En la parte superior de esta página de calidad, tiene dos botones de acción. Solo están activos si la muestra incluye suficientes participantes para permitir análisis satisfactorios.

el botón ASIGNAR INFORMACIÓN DE CALIDAD: este botón asocia la información calculada aquí a cada una de las preguntas de la base. Esta información puede luego ser visualizada en la lista de preguntas de la base, eligiendo la “vista de calidad”. Así, tendrá para cada pregunta su tasa de éxito promedio, su correlación con el conjunto de la base, la diferencia de los primeros y cuarto cuartiles.

el botón REPARTIR LOS NIVELES: este botón permite redefinir el nivel de dificultad de cada una de las preguntas de la base. Las preguntas están ordenadas de la más fácil (mayor tasa de éxito) a la más difícil (menor tasa de éxito), el 20% de preguntas más fáciles recibe el valor 1 para su nivel. El siguiente 20% tendrá el valor 2. Y así sucesivamente hasta el 20% más difícil, que tendrá el valor 5.

Es una herramienta muy útil para asignar un nivel de dificultad fiable. De hecho, los contribuyentes no pueden determinar con certeza si una pregunta es de dificultad 2 o 3. Con esta función, tiene una medida de la dificultad basada en las respuestas de sus usuarios.

Navegación del artículo

Artículo anterior: Datos personales específicos

Artículo siguiente: Exportación de informes