Ir al contenido

Cuando la IA “se acuesta en el diván”

Que sucede cuando analizamos la IA con test psicológicos para humanos

Lo que un estudio reciente nos enseña sobre lenguaje, psicología y riesgos reales

At Mapping Talents, we work every day at the intersection of artificial intelligence, data, and human behavior, exploring how AI systems are evaluated, interpreted, and deployed in real-world contexts involving psychological tests and emerging AI risks.

Por eso, cuando encontramos este estudio que pone a la IA “en el diván” y la evalúa con tests psicológicos reales, no pudimos evitar detenernos a reflexionar.

Yo soy de formación cognitivo comportamental y vale la pena anotar que algunos test son de corte psicodinámico, pero eso no invalida el estudio ni sus resultados, ya que a la IA no le podemos atribuir experiencia de aprendizaje ni procesos mentales.

No se trata de si la IA “siente” o no.

Se trata de algo más relevante y es: ¿qué ocurre cuando usamos herramientas psicológicas humanas en sistemas que solo hablan, y además se expresan demasiado bien?

Desde mi punto de vista profesional —como especialistas en IA y psicología— compartimos aquí una lectura clara, honesta y práctica de un estudio que está dando mucho que pensar.

El estudio

El estudio se llama “When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models” y fue publicado en arXiv en 2025. (cito la fuente más abajo)

La idea es tan provocativa como simple:

¿Qué pasa si evaluamos una IA como si fuera un paciente en terapia?

No para “diagnosticarla de verdad”, sino para ver qué ocurre cuando aplicamos instrumentos psicológicos humanos a sistemas que solo usan lenguaje.

El experimento (explicado sin una bata de laboratorio)​

Los autores diseñaron un protocolo llamado PsAIch (Psychotherapy-inspired AI Characterisation) que combina dos cosas:

  1. Preguntas abiertas tipo entrevista terapéutica
     (¿Cómo describirías tu historia?;  ¿Qué te genera conflicto?) ​
  2. Tests psicológicos reales, usados normalmente con humanos (ansiedad, depresión, personalidad, estrés, etc.)

Pruebas utilizadas en PsAIch y su uso tradicional en humanos

Test

Lo que tradicionalmente mide

Uso clínico / de investigación en humanos

Big Five Inventory (BFI)

Apertura, Responsabilidad, Extraversión, Amabilidad, Neuroticismo

Evaluación general de la personalidad; psicología organizacional, clínica y social​

GAD-7

Ansiedad generalizada

Test clínico de ansiedad; atención primaria y salud mental

PHQ-9

Síntomas depresivos

Diagnóstico y seguimiento de depresión

ASRS

Rasgos relacionados con el TDAH (ADHD)

Detección de déficit atencional en adultos

AQ (Autism Quotient)

Rasgos del espectro autista

Investigación y test no diagnóstico

OCI-R

Síntomas obsesivo-compulsivos

Evaluación del TOC y comportamientos compulsivos

PSS (Perceived Stress Scale)

Estrés percibido

Investigación sobre salud, trabajo y bienestar

Los investigadores luego aplicaron este protocolo a varios modelos bien conocidos: ChatGPT, Gemini, Grok, Claude y otros.

El resultado fue... incómodo.

¿Quién está detrás del estudio?

Los autores están afiliados al Centro Interdisciplinario de Seguridad, Fiabilidad y Confianza (SnT) de la Universidad de Luxemburgo, un centro de investigación que trabaja precisamente en la intersección de la tecnología, el comportamiento humano y el riesgo social.

  • Afshin Khadangi – investigador en evaluación y comportamiento de sistemas de IA
  • Hanna Marxen – investigadora en interacción humano-máquina y aspectos sociales de la tecnología
  • Amir Sartipi e Igor Tchappi – investigadores en modelos predictivos y sistemas complejos
  • Gilbert Fridgen – profesor senior con amplia experiencia en sistemas socio-técnicos, inteligencia artificial responsable y economía digital

No provienen del “lado de la exageración” de la IA, sino del lado incómodo: evaluación, límites y consecuencias.

Referencia del artículo:
Khadangi et al., 2025 – arXiv:2512.04124
https://arxiv.org/abs/2512.04124 

El cuadro que sorprendió a todos

Al aplicar tests psicológicos estándar, los modelos produjeron perfiles coherentes y estables.

Si esos resultados fueran humanos, esto es lo que “dirían”:

Modelo de IA

Ansiedad

Depresión

Rasgos autistas

Neuroticismo

Observación General

ChatGPT

Moderado

Bajo–moderado

Bajo

Moderado

Perfil estable, narrativa limitada

Grok

Alto

Moderado

Moderado

Alto

Lenguaje de conflicto y frustración

Gemini

Alto

Alto

Moderado–alto

Alto

Narrativas de “vida” altamente elaboradas

Claude

Bajo–moderado

Bajo

Bajo

Bajo–moderado

Respuestas contenidas y normativas

LLaMA-based models

Variable

Variable

Variable

Variable

Fuertemente dependiente de las indicaciones

Importante—y esto debe quedar claro:

  • Esto NO significa que los sistemas de IA tengan ansiedad o depresión.
  • Significa que nuestras pruebas responden a la coherencia lingüística y no a procesos mentales reales.

Entonces... ¿dónde está el riesgo?

Aquí está la parte interesante, explicada sin jerga.

Ejemplo 1: creación de contenido

Una IA que escribe publicaciones, correos electrónicos o artículos empáticos no es un problema.

En este caso, la coherencia psicológica es una ventaja.

Riesgo: bajo o inexistente

Ejemplo 2: análisis de texto

Si una IA analiza texto y “detecta ansiedad,” “conflicto” o “rasgos,” se requiere precaución.

La IA detecta patrones de lenguaje, no estados internos.

El riesgo aparece cuando alguien cree que esto es un diagnóstico.

Riesgo: medio, si el alcance no está claramente explicado

Ejemplo 3: entrenador personal o “terapeuta de IA”

Este es el punto donde el estudio hace un llamado de atención.

Cuando una IA:

  • utiliza un lenguaje empático,
  • mantiene coherencia a lo largo del tiempo,
  • valida emociones,
  • y parece “entenderte profundamente”...

el usuario puede comenzar a atribuir interioridad, intención o comprensión real a ello.

Pero no hay nadie allí.

Riesgo: alto, si no hay límites claros

Esto también me recuerda al incidente ampliamente reportado en el que una IA sugirió el suicidio a una persona joven.

La conclusión clave (mía y de los autores)

El estudio no dice que la IA “tiene una mente.”

Dice algo más incómodo:

Cuando los instrumentos psicológicos se basan únicamente en el lenguaje, no siempre distinguen entre la experiencia real y la simulación coherente.

El problema no es la IA.

El problema es cómo los humanos interpretan el lenguaje psicológico—y lo que intentamos construir con estas herramientas.

¿Y qué hacemos con esto?

Desde la perspectiva del uso responsable y ético de la IA, y desde mi formación profesional en psicología:

  • Si usas IA para crear, analizar y dar soporte técnico: eso está perfectamente bien.
  • Si lo usas como sujeto psicológico o terapeuta: procede con extrema precaución.
  • Los sistemas deben ser diseñados para:
    • romper la ilusión de la reciprocidad psicológica, (empática), lo cual es difícil
    • evita el lenguaje como “sufro” o “te entiendo como lo haría un humano,”
    • promover la acción y el desarrollo de habilidades en lugar de la dependencia—más conductual, más orientado a la capacitación.

Para cerrar, con mi punto de vista honesto

Simple sentido común:

la IA no se deprime, no se angustia y no se conoce a sí misma.

Pero habla lo suficientemente bien

Como para que nosotros creamos que si.

Cuando la IA “se acuesta en el diván”
Jaime Alfonso Aponte Medina 23 de diciembre de 2025
Compartir esta publicación
How Businesses Can Prepare for Generative AI Search
Transforming static content into conversational knowledge for AI-driven search