Menú Cerrar

Sección de Confiabilidad

La confiabilidad, en el contexto de una sola evaluación local, es una medida de consistencia interna. «¿Qué tan confiable es esta prueba?» es otra forma de decir «¿Qué tan bien miden una sola cosa cada uno de los ítems de esta prueba?». 

Nota importante: «confiabilidad» a menudo se intercambia y se confunde con «validez». En el contexto de la evaluación local, la validez responde a la pregunta: «¿Es esta la evaluación correcta para nuestros propósitos?» La validez se trata de sacar conclusiones y evaluar con un propósito.

2019-01-08_14-37-52.png

Inclinación y forma (sesgo y curtosis)

Estas dos métricas están más estrechamente relacionadas con la distribución de puntajes que con la confiabilidad. Si todos los resultados de una prueba se grafican juntos, la forma del gráfico se parecerá a una especie de forma de campana. En una distribución normal de datos, la campana es igual en los lados izquierdo y derecho. Para la mayoría (probablemente todas) las evaluaciones locales en Aware, la campana en realidad se inclinará más hacia la derecha o hacia la izquierda y se deformará a una forma más plana o más puntiaguda.

La mayoría de los usuarios de Aware no necesitarán estos números y pueden ignorarse. Mire el gráfico de distribución de puntaje bruto para un uso más accesible de esta información en forma gráfica.

Fiabilidad

Utilizamos el Alfa de Cronbach (α) como medida de consistencia interna. Este número representa cómo se relaciona el rendimiento de cada elemento de la prueba entre sí, el número total de elementos de la prueba y la puntuación total. Básicamente, cada artículo hace su parte para medir la misma «cosa».

Una «cosa» podría ser «Fracciones, decimales y porcentajes», «Eventos significativos de la Guerra Civil», «Fases lunares» o cualquier otro tema sobre el que el autor de la prueba quisiera sacar conclusiones.

Cuanto más cerca esté α del valor «1» (no será «1»), más fiable será la prueba. Menos elementos de prueba pueden dificultar la determinación de rangos aceptables, pero >0.8 generalmente se considera bueno. Para las evaluaciones locales, especialmente cuando los autores de la prueba incluyen deliberadamente elementos estructurados que evalúan fuera del alcance principal de la prueba, los rangos tan bajos como 0,7 o 0,6 están bien.  

Error estándar de medición (SEM)

Dado que todas las evaluaciones son defectuosas, no hay forma de saber un «puntaje real» para el aprendizaje de los estudiantes. SEM es una forma de estimar cómo un estudiante, si tuviera que tomar la misma prueba varias veces, podría variar en sus resultados.

SEM es una función de confiabilidad, por lo que las evaluaciones más confiables tendrán SEM más pequeños.