Expertos declaran obsoleto el test de Turing y abren debate sobre como medir la inteligencia artificial en la era moderna
A 75 años de su creación, científicos y especialistas coinciden en que el clásico test de Turing ya no refleja los avances actuales de la inteligencia artificial. Proponen enfocar las evaluaciones en la seguridad, la utilidad y la capacidad de adaptación de los sistemas, más que en su habilidad para imitar el comportamiento humano.
Durante un encuentro celebrado en la Royal Society de Londres, destacados investigadores en neurociencia e inteligencia artificial debatieron el futuro del test de Turing, creado en 1950 por el matemático británico Alan Turing como una forma de determinar si una máquina podía “pensar” como un ser humano.
En la actualidad, los expertos coinciden en que la prueba ha perdido vigencia, especialmente tras los avances en modelos de lenguaje como ChatGPT, que superan con facilidad este desafío.
Anil Seth, neurocientífico de la Universidad de Sussex, sostuvo que “ha llegado el momento de decidir qué tipo de inteligencia artificial queremos realmente y evaluar esos atributos, en lugar de perseguir el concepto ambiguo de una inteligencia general artificial”. En esa misma línea, varios investigadores llamaron a establecer nuevos criterios centrados en la seguridad y la utilidad social de la tecnología.
El evento, que coincidió con el 75° aniversario de la publicación original de Turing, sirvió para reflexionar sobre el valor simbólico y práctico del test. Originalmente, este consistía en una conversación escrita entre una persona y una máquina, donde el objetivo era que el sistema lograra engañar al juez haciéndose pasar por humano. Sin embargo, hoy los modelos avanzados de IA pueden generar respuestas coherentes y naturales sin dificultad, aunque aún carecen de comprensión profunda y razonamiento contextual.
Gary Marcus, neurocientífico de la Universidad de Nueva York, destacó que “no todos los modelos de IA buscan la inteligencia general”. Citó como ejemplo a AlphaFold, el sistema desarrollado por DeepMind para predecir estructuras de proteínas, que representa un tipo de inteligencia artificial especializada y de gran impacto científico.
Por su parte, Sarah Dillon, académica de la Universidad de Cambridge y especialista en la obra de Turing, recordó que el test fue concebido más como un experimento filosófico que como una evaluación técnica definitiva. “Hoy debemos reconocer que imitar el lenguaje humano no equivale a comprenderlo”, señaló.
En una prueba reciente con cuatro chatbots, los sistemas más avanzados lograron engañar a los jueces en una versión modernizada del test. Sin embargo, los expertos advirtieron que reproducir patrones lingüísticos no significa alcanzar la flexibilidad cognitiva del ser humano.
Marcus ejemplificó los límites actuales al señalar que muchos modelos aún fallan al identificar correctamente partes de un elefante o al dibujar relojes en posiciones no predefinidas.
Ante este panorama, algunos grupos de investigación desarrollan métricas alternativas como el ARC-AGI-2 (Abstract and Reasoning Corpus for AGI), diseñado para evaluar la capacidad de adaptación de los sistemas ante problemas inéditos. No obstante, todavía no existe consenso sobre cuál debería ser el nuevo estándar para medir el progreso de la inteligencia artificial.