Quantoid

No, correlacionar tu prueba con otra prueba no es validez de criterio

No, correlacionar tu prueba con otra prueba no es validez de criterio


Hace unos días, mientras calificaba exámenes sobre medición y validación de instrumentos, me encontré con una confusión bastante frecuente entre mis estudiantes. Varios identificaban como “validez de criterio” aquellos ejemplos en los que un nuevo cuestionario se correlacionaba con otro instrumento previamente validado. Es decir, si alguien construía una nueva escala de ansiedad y luego la correlacionaba con el Inventario de Ansiedad de Beck, asumían que eso era evidencia de validez de criterio.

Pues bien, no. Eso no es validez de criterio.

Y no lo digo como una precisión menor o como un tecnicismo sin importancia. En realidad, esta confusión revela un problema más profundo: muchas veces usamos los nombres de las evidencias de validez sin detenernos a pensar qué tipo de comparación estamos haciendo, qué significa el dato con el que comparamos nuestro instrumento y qué tan “externo” o “real” es ese supuesto criterio.

El problema, creo, está en que solemos enseñar la validez de criterio de una forma demasiado rápida. Decimos que consiste en correlacionar las puntuaciones de un instrumento con “algo externo”, y ahí empieza el malentendido. Porque para muchos estudiantes, y también para muchos investigadores, “algo externo” termina significando simplemente “otro instrumento”. Pero no es así. Que una medida sea diferente a la nuestra no significa que automáticamente sea un criterio.

La validez de criterio se refiere al grado en que las puntuaciones de un instrumento se relacionan con un criterio externo que se considera una medida relevante, independiente y más cercana al fenómeno que queremos predecir o clasificar. En otras palabras, el criterio no debería ser solo otra forma indirecta de medir el mismo constructo, sino un indicador externo del desempeño, diagnóstico, conducta o resultado que se considera importante.

Por ejemplo, si diseñamos una prueba de aptitudes mecánicas para seleccionar personal técnico, una evidencia de validez de criterio podría ser que las puntuaciones en esa prueba predigan el desempeño real de los trabajadores durante su primer año laboral. Aquí el criterio no es otra prueba de aptitudes mecánicas. El criterio es el desempeño observado en el trabajo: productividad, evaluación del supervisor, cumplimiento de tareas, errores cometidos o algún otro indicador laboral relevante.

Lo mismo ocurre en el ámbito clínico. Si elaboramos un instrumento breve para detectar depresión, una evidencia de validez de criterio no sería necesariamente correlacionarlo con otro cuestionario de depresión. Una evidencia más fuerte sería compararlo con un diagnóstico clínico realizado mediante entrevista estructurada, evaluación profesional y seguimiento. En ese caso, el criterio externo no es otra escala, sino una clasificación clínica establecida mediante un procedimiento independiente.

También podemos verlo en educación. Si se desarrolla una prueba para identificar riesgo de abandono escolar, una evidencia de validez de criterio sería que las puntuaciones del instrumento predigan quiénes abandonan efectivamente sus estudios durante el siguiente ciclo escolar. De nuevo, el criterio no es otro cuestionario sobre riesgo académico. El criterio es el abandono escolar real, observado posteriormente.

Por eso es importante distinguir dos tipos clásicos de validez de criterio: la concurrente y la predictiva. En la validez concurrente, el instrumento y el criterio se miden aproximadamente al mismo tiempo. Por ejemplo, aplicar una prueba de tamizaje psicológico y compararla con un diagnóstico clínico realizado en ese mismo periodo. En la validez predictiva, el instrumento se aplica primero y el criterio se observa después. Por ejemplo, aplicar una escala de riesgo de reincidencia y analizar si predice nuevas conductas delictivas meses o años después.

La clave, en ambos casos, no es el tiempo en sí mismo, sino la naturaleza del criterio. El criterio debe ser externo, independiente y sustantivamente relevante. Debe representar un resultado, diagnóstico, conducta o desempeño que tenga sentido más allá del propio instrumento.

Aquí es donde entra la validez de constructo.

La validez de constructo se refiere al grado en que las puntuaciones de un instrumento pueden interpretarse como una medida adecuada del constructo teórico que se pretende evaluar. Hablamos de constructos como ansiedad, depresión, inteligencia, personalidad, apoyo social, clima escolar, autoeficacia, victimización, bienestar psicológico, actitudes o cualquier otra variable que no podemos observar de manera directa.

Y este punto es fundamental: en psicología y ciencias sociales, muchas veces no tenemos un criterio externo perfecto. No existe una medida “real” y universalmente aceptada de ansiedad, autoestima o motivación. Lo que tenemos son aproximaciones teóricas, indicadores indirectos, modelos conceptuales y una acumulación progresiva de evidencias.

Por eso la validez de constructo no se demuestra con un solo análisis. Se construye mediante una red de evidencias. Podemos buscar evidencia de estructura interna mediante análisis factorial; evidencia convergente al correlacionar nuestro instrumento con otros instrumentos que miden constructos similares; evidencia discriminante al mostrar que no se relaciona demasiado con constructos distintos; evidencia de grupos conocidos al comparar grupos que teóricamente deberían diferir; o evidencia de sensibilidad al cambio cuando esperamos que una intervención modifique el constructo evaluado.

Entonces, si elaboro una nueva escala de depresión y la correlaciono con el BDI-II, eso no es validez de criterio. Eso es evidencia convergente dentro de la validez de constructo.

¿Por qué? Porque el BDI-II, aunque sea un instrumento ampliamente utilizado y validado, sigue siendo una medida indirecta del constructo. No es la depresión “real”. No es un diagnóstico clínico independiente. No es una conducta observable. No es un desenlace externo. Es otro instrumento psicométrico que, como el nuestro, intenta medir el mismo constructo a través de respuestas a reactivos.

Y eso no lo hace inútil. Al contrario, puede ser una evidencia muy importante. Si mi nueva escala de depresión no se correlaciona con instrumentos reconocidos de depresión, probablemente tendría un problema serio. Pero debemos nombrar correctamente esa evidencia: es validez convergente, no validez de criterio.

La diferencia puede resumirse así:

Aspecto Validez de criterio Validez de constructo
Qué evalúa La relación entre el instrumento y un criterio externo relevante. Qué tan bien el instrumento representa el constructo teórico.
Tipo de comparación Con un resultado, diagnóstico, conducta o desempeño externo. Con una red de evidencias teóricas y empíricas.
Criterio o estándar Debe ser externo e independiente del instrumento. No requiere un criterio externo único.
Uso de otro instrumento validado No debería tratarse como criterio. Puede utilizarse como evidencia convergente.
Ejemplo típico Una prueba predice el rendimiento laboral real. Una escala de ansiedad correlaciona con otra escala de ansiedad.
Interpretación El instrumento sirve para predecir o clasificar respecto a un criterio. El instrumento se comporta como se espera según la teoría del constructo.

Esto tiene consecuencias prácticas importantes. Si estamos validando un instrumento y contamos con un criterio externo fuerte, conviene aprovecharlo. Por ejemplo, diagnósticos clínicos realizados por profesionales, desempeño académico real, productividad laboral, reincidencia delictiva, recaídas en consumo de sustancias, graduación, abandono escolar o cualquier otra conducta observable y relevante. En esos casos, podemos hablar con mayor propiedad de evidencia basada en criterio.

Pero si no contamos con ese criterio externo, lo cual es bastante común en psicología, educación y ciencias sociales, entonces no debemos forzar el lenguaje. No pasa nada si nuestro estudio no tiene validez de criterio. No todos los instrumentos pueden ni deben validarse de esa manera. Lo que corresponde es construir una buena red de evidencias de validez de constructo.

El error está en creer que la validez de criterio es una especie de requisito obligatorio y que, para cumplirlo, basta con correlacionar nuestro instrumento con otro cuestionario famoso. Eso genera una validación débil en términos conceptuales, no porque el análisis sea inútil, sino porque se está interpretando de forma incorrecta.

En realidad, muchas investigaciones podrían mejorar simplemente nombrando bien lo que hacen. Si aplicaron dos instrumentos que miden constructos similares y encontraron una correlación positiva, entonces reporten evidencia convergente. Si mostraron que su escala no se relaciona fuertemente con una variable teóricamente distinta, reporten evidencia discriminante. Si hicieron un análisis factorial y la estructura coincide con el modelo teórico, reporten evidencia de estructura interna. Si compararon grupos que deberían diferir, reporten evidencia de grupos conocidos. Pero no llamen validez de criterio a cualquier correlación con otra escala.

Para concluir, creo que vale la pena quedarse con una idea sencilla: no todo dato externo es un criterio. Y no todo instrumento validado funciona como gold standard.

Si el dato con el que comparamos nuestra prueba es otra medida indirecta del mismo constructo, probablemente estamos hablando de validez convergente. Si el dato es un resultado externo, independiente y sustantivamente relevante, entonces sí podemos estar frente a evidencia de validez de criterio.

La diferencia parece pequeña, pero no lo es. En medición psicológica, educativa y social, nombrar correctamente las evidencias no solo mejora la redacción metodológica de un estudio; también mejora nuestra forma de pensar qué estamos midiendo, cómo lo estamos midiendo y qué tan fuertes son las inferencias que hacemos a partir de las puntuaciones.

Referencias:

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.

Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81–105.

Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281–302.

Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50(9), 741–749.

Comentarios