Tecnología

Chatgpt acaba de pasar la prueba de Turing, pero eso no significa que AI ahora sea tan inteligente como los humanos

Crédito: imagen generada por IA

Ha habido varios titulares durante la semana pasada sobre un chatbot de IA que pasa oficialmente la prueba de Turing.

Estos informes de noticias se basan en un reciente estudio de preimpresión realizado por dos investigadores de la Universidad de California en San Diego en el que cuatro modelos de idiomas grandes (LLM) fueron atacados a través de la prueba de Turing. Un modelo, el GPT-4.5 de Openai, se consideró indistinguible de un humano más del 70% del tiempo.

La prueba de Turing se ha popularizado como el último indicador de inteligencia artificial. Sin embargo, hay desacuerdo sobre la validez de esta prueba. De hecho, tiene un historial contencioso que cuestiona cuán efectivo es realmente para medir la inteligencia de la máquina.

Entonces, ¿qué significa esto para la importancia de este nuevo estudio?

¿Qué encontró el estudio?

El estudio de preimpresión de los científicos cognitivos Cameron Jones y Benjamin Bergen se publicó en marzo, pero aún no ha sido revisado por pares. Probó 4 LLM: Eliza, GPT-4O, LLAMA-3.1-405B y GPT-4.5.

Las pruebas consistieron en participantes que completaron ocho rondas de conversaciones en las que actuaron como interrogador intercambiando mensajes de texto con dos testigos simultáneamente. Un testigo era un humano y el otro un LLM. Unos 284 participantes fueron asignados al azar para ser el interrogador o el testigo.

Los participantes debían interactuar con ambos testigos simultáneamente a través de una pantalla dividida durante cinco minutos, con la interfaz de prueba imitando la de una interfaz de mensajería convencional. Después de esta interacción, decidieron qué testigo era un humano y cuál era un chatbot de IA.

Los participantes consideraron que GPT-4.5 es el humano el 73% del tiempo, y LLAMA-3.1-405B como el humano el 56% del tiempo. Los otros dos modelos (Eliza y GPT-4O) solo engañaron a los participantes el 23% y el 21% del tiempo, respectivamente.

¿Cuál es exactamente la prueba de Turing?

La primera iteración de la prueba de Turing fue presentada por el matemático e informático inglés Alan Turing en un artículo de 1948 titulado “Maquinaria inteligente”. Originalmente se propuso como un experimento que involucra a tres personas que juegan al ajedrez con una máquina teórica denominada máquina de papel, dos son jugadores y uno siendo un operador.

En la publicación de 1950 “Computing Machinery e Inteligence”, Turing reintrodujo el experimento como el “juego de imitación” y afirmó que era un medio para determinar la capacidad de una máquina para exhibir un comportamiento inteligente equivalente a un humano. Involucró a tres participantes: el participante A era una mujer, participante B un hombre y participante C de cualquier género.

A través de una serie de preguntas, se requiere el participante C para determinar si “X es A e Y es B” o “X es B e Y A”, con X e Y representando los dos géneros.

Luego se plantea una propuesta: “¿Qué sucederá cuando una máquina tome el papel de un en este juego? ¿El interrogador decidirá mal con tanta frecuencia cuando el juego se juegue así como lo hace cuando el juego se juega entre un hombre y una mujer?”

Estas preguntas estaban destinadas a reemplazar la pregunta ambigua “¿pueden pensar las máquinas?”. Turing afirmó que esta pregunta era ambigua porque requería una comprensión de los términos “máquina” y “pensar”, de los cuales los usos “normales” de las palabras harían una respuesta a la pregunta inadecuada.

Con los años, este experimento se popularizó como la prueba de Turing. Mientras que el tema varió, la prueba siguió siendo una deliberación sobre si “X es A e Y es B” o “X es B e Y es A.”

¿Por qué es polémico?

Si bien se populariza como un medio para probar la inteligencia de la máquina, la prueba de Turing no se acepta por unanimidad como un medio preciso para hacerlo. De hecho, la prueba es frecuentemente desafiada.

Hay cuatro objeciones principales a la prueba de Turing:

Comportamiento vs. Pensar. Algunos investigadores argumentan que la capacidad de “pasar” la prueba es una cuestión de comportamiento, no de inteligencia. Por lo tanto, no sería contradictorio decir que una máquina puede pasar el juego de imitación, pero no puede pensar. Los cerebros no son máquinas. Turing hace afirmaciones que el cerebro es una máquina, alegando que puede explicarse en términos puramente mecánicos. Muchos académicos refutan esta afirmación y cuestionan la validez de la prueba sobre esta base. Operaciones internas. Como las computadoras no son humanos, su proceso para llegar a una conclusión puede no ser comparable a la de una persona, lo que hace que la prueba sea inadecuada porque una comparación directa no puede funcionar. Alcance de la prueba. Algunos investigadores creen que solo probar un comportamiento no es suficiente para determinar la inteligencia.

Entonces, ¿un LLM es tan inteligente como un humano?

Si bien el artículo de preimpresión afirma que GPT-4.5 aprobó la prueba de Turing, también establece: “La prueba de Turing es una medida de sustituibilidad: si un sistema puede mantener una persona real sin (…) notar la diferencia”.

Esto implica que los investigadores no apoyan la idea de que la prueba de Turing sea una indicación legítima de la inteligencia humana. Más bien, es una indicación de la imitación de la inteligencia humana, una oda a los orígenes de la prueba.

También vale la pena señalar que las condiciones del estudio no estaban exenta de problemas. Por ejemplo, una ventana de prueba de cinco minutos es relativamente corta.

Además, cada uno de los LLM se solicitó a adoptar una persona en particular, pero no está claro cuáles son los detalles y el impacto de las “personas” en la prueba.

Por ahora, es seguro decir que GPT-4.5 no es tan inteligente como los humanos, aunque puede hacer un trabajo razonable para convencer a algunas personas de otra manera.

Más información: Cameron R. Jones et al, los modelos de lenguaje grande pasan la prueba de Turing, ARXIV (2025). Doi: 10.48550/arxiv.2503.23674

Proporcionado por la conversación

Este artículo se vuelve a publicar de la conversación bajo una licencia Creative Commons. Lea el artículo original.

Cita: ChatGPT acaba de pasar la prueba de Turing, pero eso no significa que la IA ahora sea tan inteligente como los humanos (2025, 9 de abril) recuperado el 9 de abril de 2025 de https://techxplore.com/news/2025-04-chatgpt-turing-doesnt-ai-smart.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button