LA NADA Y UNO

Estudio probaría que la Inteligencia Artificial no puede superar el raciocinio humano

Los actuales modelos lingüísticos gigantes (LLM) —esos que escriben con claridad, precisión y hasta cierto ingenio— no están “razonando” como lo haría un ser humano. Lo que vemos como “pensamiento” es en realidad una habilidad muy refinada para imitar el razonamiento.

¿La IA nunca superará la mente humana?Créditos: Especial
Por
Escrito en TENDENCIAS el

En los últimos años la inteligencia artificial (IA) ha avanzado a pasos agigantados. Hoy, herramientas como ChatGPT, Gemini o Claude pueden mantener conversaciones, escribir ensayos, resolver problemas matemáticos e incluso ayudarle a redactar un mensaje de correo electrónico con una claridad sorprendente.

Para muchos, esto parece una señal inequívoca de que las máquinas han comenzado a “pensar”. Pero ¿y si todo eso fuera una ilusión?

Un artículo de Apple recién publicado, titulado “The Illusion of Thinking” (La ilusión del pensamiento) propone una idea disruptiva: que estas tecnologías no piensan realmente, sino que fingen hacerlo. Aunque parezca que razonan paso por paso como lo haría una persona, en realidad están repitiendo patrones aprendidos, sin entender verdaderamente lo que hacen.

Esta afirmación no proviene de un grupo de críticos o escépticos del progreso tecnológico. Viene directamente de una de las empresas más poderosas y avanzadas del mundo en temas de IA. Y merece ser tomada en serio.

Pensar no es lo mismo que hablar bonito

El punto central del estudio de Apple es sencillo: los actuales modelos lingüísticos gigantes (LLM) —esos que escriben con claridad, precisión y hasta cierto ingenio— no están “razonando” como lo haría un ser humano. Lo que hacen es generar textos que suenan bien porque han sido creados después de un entrenamiento que involucró cantidades inmensas de ejemplos tomados de Internet, libros, artículos y otros documentos.

Gracias a eso, pueden construir frases lógicas, hacer suposiciones plausibles e incluso simular un razonamiento creado por etapas; es decir, crear una cadena de pensamiento. Y aunque esta técnica ha permitido grandes avances en el rendimiento de los modelos, Apple sostiene que nos están engañando.

La razón es simple: lo que vemos como “pensamiento” es en realidad una habilidad muy refinada para imitar el razonamiento. Los modelos IA no comprenden lo que están diciendo, ni tienen una intención que justifique sus respuestas. Solo predicen qué palabra debería venir después, basándose en patrones estadísticos.

El experimento de Apple: poner a prueba la mente de las máquinas

Para probar su hipótesis, Apple diseñó una serie de pruebas muy especiales. En lugar de evaluar a los modelos con tareas comunes —como resolver ecuaciones, responder preguntas o programar—, utilizaron acertijos lógicos clásicos cuya complejidad se puede ajustar y con los que los modelos (LLMs) probablemente nunca se habían topado antes.

Entre estos acertijos se encontraban el famoso problema de las Torres de Hanoi, el proceso de cruce del río (donde hay que llevar a varios personajes de un lado a otro sin que unos se coman a otros), rompecabezas hechos de fichas y problemas consistentes en apilar diversas piezas. Lo interesante es que estas pruebas no solo permiten verificar si el modelo da la respuesta correcta, sino también pueden valorar la forma en que el LLM llegó a esa respuesta.

Los investigadores probaron varios tipos de modelos, incluyendo aquellos que están diseñados para “pensar” en voz alta —los llamados modelos razonadores, que muestran al usuario los pasos que van siguiendo al atender una consulta, como Claude 3 y GPT-4o— y compararon su desempeño con modelos más simples. El resultado fue inesperado.

Torres de Hanoi, imagen ilustrativa Foto: Freepik

Cuanto más difícil el problema, más rápido se rinden. En problemas sencillos, los modelos “razonadores” mostraron peor desempeño que los modelos más sencillos. Esto se debe a que, al intentar razonar paso a paso, terminaban complicando más las cosas. Es decir, pensaban de más.

En problemas de complejidad media, los modelos razonadores sí mostraron ciertas ventajas. Eran capaces de estructurar sus respuestas, analizar las opciones y llegar a una solución correcta con relativa frecuencia. Pero en los problemas realmente complejos, todos los modelos —incluso los más avanzados— fallaban.

No solo daban respuestas incorrectas, sino que además ejecutaban menos pasos, como si se rindieran antes de intentar resolver un problema por completo.

Este hallazgo es especialmente interesante: cuando se enfrentan a un reto de mayor complejidad, las inteligencias artificiales actuales parecen “tirar la toalla” y limitan la cantidad de esfuerzo que dedican a resolver el problema, incluso si tienen suficiente espacio (tokens) para hacerlo. Como si una persona, al enfrentarse a un examen difícil, simplemente se rindiera y dejara de escribir.

Ese comportamiento revela que no hay un “impulso interno” para resolver el problema. No hay conciencia de la dificultad planteada ni voluntad de perseverar para salir adelante. Hay solo un sistema que trata de adivinar, con base en lo que ha visto antes, qué es lo que debería decir para continuar con la plática, ni siquiera con instrucciones claras

Apple fue un paso más allá: les brindó a los modelos las instrucciones exactas para resolver algunos de los problemas. Es decir, no se les pidió que inventaran una solución, sino que les indicó que siguieran una receta paso a paso. Aun así, muchos modelos fracasaron.

Esto sugiere que el problema no está solo en la falta de creatividad o en el desconocimiento del tema, sino en la incapacidad para aplicar reglas de forma consistente. Incluso cuando el camino está totalmente trazado, estos sistemas se traban. Ello no ocurre por pereza ni desinterés —como ocurriría en un ser humano—, sino porque no tienen comprensión real del proceso que están siguiendo.

Cuando resolver un problema depende de que haya sido visto antes

Otro hallazgo interesante fue que algunos modelos podían resolver con éxito acertijos muy complejos —como mover correctamente 10 discos en las Torres de Hanói, una tarea que requiere de la ejecución de más de mil pasos—, pero fallaban terriblemente en problemas más sencillos, como el de cruzar un río con tres personajes.

Esto refuerza la idea de que no estamos ante máquinas que piensan de manera general, sino ante sistemas que funcionan mejor cuando el problema se parece mucho a algo que ya han experimentado durante sus fases de entrenamiento. En otras palabras, son imitadores extraordinarios, pero no razonadores universales. ¿Y si estamos midiendo mal?

Uno de los mensajes más importantes del estudio de Apple es una crítica a la forma en que medimos el éxito de la IA. Actualmente, muchos exámenes y pruebas se basan en una métrica dualista, es decir, ¿el modelo dio la respuesta correcta, sí o no?

Pero Apple propone que esto no es suficiente. Hay que evaluar también el camino que recorrió el modelo para llegar a su respuesta. Porque, como ocurre con los estudiantes, no basta con el resultado final: importa cómo lo pensaron, qué errores cometieron, si entendieron la lógica detrás de la pregunta.

Evaluar solo la respuesta es como premiar a quien acierta por “churro” o porque memorizó la fórmula, sin saber realmente de qué se trata. ¿Por qué es esto importante?  Para muchos, este estudio puede parecer una curiosidad académica. Pero tiene implicaciones profundas e inmediatas.

Hoy estamos integrando sistemas de IA a la toma de decisiones importantes: diagnósticos médicos, análisis jurídicos, procesos financieros, provisión de educación. Y lo hacemos confiando en que su capacidad para razonar es auténtica.

Si esa confianza está basada en una ilusión, estamos corriendo enormes riesgos. Porque un modelo que aparenta pensar pero que en realidad solo está repitiendo patrones, puede fallar sin avisar, puede dar una respuesta convincente, pero completamente equivocada. Y lo más peligroso: lo hará con la misma seguridad con la que da una respuesta correcta.

¿Entonces estamos perdidos? No, el estudio de Apple no es una condena al fracaso, sino una llamada de atención. Nos dice que los sistemas actuales son impresionantes, pero limitados. Que el verdadero “pensamiento artificial” —el que razona con lógica, que aprende de manera estructurada, que sabe cuándo no sabe— aún se encuentra lejos de nuestro alcance.

También nos invita a imaginar nuevas formas de construir y evaluar la IA. A diseñar modelos que no solo imiten, sino que entiendan. Que no solo hablen bien, sino que razonen bien. La conclusión: menos espectáculo, más realidad. Vivimos una época en la que la IA nos deslumbra.

Y es fácil dejarse llevar por sus habilidades. Pero también es tiempo de mirar con ojos críticos, de hacer preguntas incómodas y de no confundir la apariencia con la esencia. Porque, como nos recuerda Apple firmemente, lo que hoy parece pensamiento racional... puede ser solo una ilusión muy bien lograda.

Precio de Bitcoin de hoy

Puede ver el precio de hoy de Bitcoin aquí, así como también el precio de hoy de Ethereum y de las principales criptomonedas. Por Emilio Carrillo Peñafiel, abogado especializado en temas de financiamiento, tecnología y M&A. X: @ecarrillop; página web: pcga.mx. Las opiniones expresadas son personales del autor y no constituyen recomendaciones de inversión; las inversiones en tecnologías novedosas son de muy alto riesgo y cabe la posibilidad de que todos los recursos destinados a ellas podrían perderse.