Evaluar la comprensión del sentido común en IAs: Winograd y PIQA

Una de las tareas más desafiantes para la inteligencia artificial es la comprensión del sentido común: ese conocimiento implícito, cotidiano y compartido que los seres humanos aplicamos sin esfuerzo para razonar sobre el mundo. A diferencia de los datos explícitos, el sentido común es difícil de formalizar y, por tanto, complicado de enseñar a una máquina.

Para evaluar si una IA es capaz de utilizar este tipo de conocimiento, han surgido pruebas específicas. Entre las más representativas están el Winograd Schema Challenge y PIQA. En este artículo analizamos en qué consisten estos benchmarks, qué miden exactamente y cuáles son sus implicaciones para el desarrollo de sistemas inteligentes.

El Winograd Schema Challenge (WSC)

1.1. Origen y propósito

El Winograd Schema Challenge fue propuesto por Hector Levesque en 2011 como una alternativa más exigente al Test de Turing. Su objetivo es evaluar si una máquina puede resolver ambigüedades semánticas usando sentido común.

1.2. Ejemplo típico

«El trofeo no cabía en la maleta porque era demasiado grande. ¿Qué era demasiado grande?»

Para responder correctamente, el sistema debe inferir que «era demasiado grande» se refiere al trofeo. No basta con el conocimiento gramatical; hace falta razonar sobre el mundo físico.

1.3. Características clave

Todas las respuestas son binarias: una de las dos opciones es correcta.
La modificación de una sola palabra puede cambiar completamente la respuesta.
Está diseñado para ser resistente al aprendizaje superficial y forzar el uso de conocimientos contextuales.

1.4. Dificultad para los modelos

Durante años, los sistemas automáticos obtuvieron resultados apenas superiores al azar. Con la llegada de modelos como GPT-3 o T5, se ha mejorado el rendimiento, pero la interpretabilidad de las respuestas sigue siendo un reto.

PIQA: Physical Interaction QA

2.1. ¿Qué es PIQA?

PIQA (Physical Interaction: Question Answering) es un benchmark propuesto en 2020 por investigadores de AI2 para evaluar el conocimiento práctico del mundo físico por parte de modelos de lenguaje.

2.2. Ejemplo típico

«¿Cómo deberías apagar una vela de forma segura?»

Opciones:
A) Soplas suavemente sobre la llama.
B) La cubres con un trapo.

La opción correcta (A) requiere sentido común sobre interacciones físicas básicas. No es solo una cuestión de lenguaje, sino de conocimiento de la realidad cotidiana.

2.3. Características

Las preguntas requieren razonamiento causal y conocimiento del mundo.
Las respuestas correctas suelen ser intuitivas para los humanos, pero no triviales para modelos.
Se basa en una amplia base de datos con miles de ejemplos anotados.

Comparativa entre WSC y PIQA

Aspecto	Winograd Schema Challenge	PIQA
Tipo de conocimiento	Sentido común semántico	Sentido común práctico/físico
Formato	Resolución de referencia	Opcion múltiple (2 opciones)
Complejidad sintáctica	Alta	Media
Uso en benchmarks	Presente en SuperGLUE	Independiente y complementario

Importancia para la evaluación de IA

Tanto WSC como PIQA se utilizan para evaluar más allá de la sintaxis. No basta con predecir palabras: los modelos deben demostrar comprensión real del contexto y del mundo. Esto es clave para aplicaciones como:

Chatbots y asistentes virtuales más fiables.
IA para robótica y manipulación física.
Filtrado de contenidos y toma de decisiones automatizada.

Evaluar el sentido común en modelos de inteligencia artificial es uno de los retos más complejos y relevantes del campo. Tanto el Winograd Schema Challenge como PIQA ofrecen formas complementarias de medir si una IA es capaz de razonar más allá de patrones estadísticos.

Aunque los avances en modelos generativos han mejorado el rendimiento en estas pruebas, la comprensión del sentido común sigue siendo un territorio crítico y no resuelto en la IA moderna. Estos benchmarks seguirán siendo fundamentales para evaluar la madurez de los sistemas que aspiran a interactuar inteligentemente con los humanos y su entorno.

Sección: Inteligencia Artificial

Autor:

Carlos Bouza

Publi

CARLOS BOUZA

DESARROLLADOR SENIOR PHP