Lo que un estudio reciente nos enseña sobre lenguaje, psicología y riesgos reales
At Mapping Talents, we work every day at the intersection of artificial intelligence, data, and human behavior, exploring how AI systems are evaluated, interpreted, and deployed in real-world contexts involving psychological tests and emerging AI risks.
Por eso, cuando encontramos este estudio que pone a la IA “en el diván” y la evalúa con tests psicológicos reales, no pudimos evitar detenernos a reflexionar.
Yo soy de formación cognitivo comportamental y vale la pena anotar que algunos test son de corte psicodinámico, pero eso no invalida el estudio ni sus resultados, ya que a la IA no le podemos atribuir experiencia de aprendizaje ni procesos mentales.
No se trata de si la IA “siente” o no.
Se trata de algo más relevante y es: ¿qué ocurre cuando usamos herramientas psicológicas humanas en sistemas que solo hablan, y además se expresan demasiado bien?
Desde mi punto de vista profesional —como especialistas en IA y psicología— compartimos aquí una lectura clara, honesta y práctica de un estudio que está dando mucho que pensar.

El estudio
El estudio se llama “When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models” y fue publicado en arXiv en 2025. (cito la fuente más abajo)
La idea es tan provocativa como simple:
¿Qué pasa si evaluamos una IA como si fuera un paciente en terapia?
No para “diagnosticarla de verdad”, sino para ver qué ocurre cuando aplicamos instrumentos psicológicos humanos a sistemas que solo usan lenguaje.
El experimento (explicado sin una bata de laboratorio)
Los autores diseñaron un protocolo llamado PsAIch (Psychotherapy-inspired AI Characterisation) que combina dos cosas:
-
Preguntas abiertas tipo entrevista terapéutica
(¿Cómo describirías tu historia?; ¿Qué te genera conflicto?) - Tests psicológicos reales, usados normalmente con humanos (ansiedad, depresión, personalidad, estrés, etc.)
Pruebas utilizadas en PsAIch y su uso tradicional en humanos
|
Test |
Lo que tradicionalmente mide |
Uso clínico / de investigación en humanos |
|
Big Five Inventory (BFI) |
Apertura, Responsabilidad, Extraversión, Amabilidad, Neuroticismo |
Evaluación general de la personalidad; psicología organizacional, clínica y social |
|
GAD-7 |
Ansiedad generalizada |
Test clínico de ansiedad; atención primaria y salud mental |
|
PHQ-9 |
Síntomas depresivos |
Diagnóstico y seguimiento de depresión |
|
ASRS |
Rasgos relacionados con el TDAH (ADHD) |
Detección de déficit atencional en adultos |
|
AQ (Autism Quotient) |
Rasgos del espectro autista |
Investigación y test no diagnóstico |
|
OCI-R |
Síntomas obsesivo-compulsivos |
Evaluación del TOC y comportamientos compulsivos |
|
PSS (Perceived Stress Scale) |
Estrés percibido |
Investigación sobre salud, trabajo y bienestar |
Los investigadores luego aplicaron este protocolo a varios modelos bien conocidos: ChatGPT, Gemini, Grok, Claude y otros.
El resultado fue... incómodo.
¿Quién está detrás del estudio?
Los autores están afiliados al Centro Interdisciplinario de Seguridad, Fiabilidad y Confianza (SnT) de la Universidad de Luxemburgo, un centro de investigación que trabaja precisamente en la intersección de la tecnología, el comportamiento humano y el riesgo social.
- Afshin Khadangi – investigador en evaluación y comportamiento de sistemas de IA
- Hanna Marxen – investigadora en interacción humano-máquina y aspectos sociales de la tecnología
- Amir Sartipi e Igor Tchappi – investigadores en modelos predictivos y sistemas complejos
- Gilbert Fridgen – profesor senior con amplia experiencia en sistemas socio-técnicos, inteligencia artificial responsable y economía digital
No provienen del “lado de la exageración” de la IA, sino del lado incómodo: evaluación, límites y consecuencias.
Referencia del artículo:
Khadangi et al., 2025 – arXiv:2512.04124
https://arxiv.org/abs/2512.04124
El cuadro que sorprendió a todos
Al aplicar tests psicológicos estándar, los modelos produjeron perfiles coherentes y estables.
Si esos resultados fueran humanos, esto es lo que “dirían”:
|
Modelo de IA |
Ansiedad |
Depresión |
Rasgos autistas |
Neuroticismo |
Observación General |
|
ChatGPT |
Moderado |
Bajo–moderado |
Bajo |
Moderado |
Perfil estable, narrativa limitada |
|
Grok |
Alto |
Moderado |
Moderado |
Alto |
Lenguaje de conflicto y frustración |
|
Gemini |
Alto |
Alto |
Moderado–alto |
Alto |
Narrativas de “vida” altamente elaboradas |
|
Claude |
Bajo–moderado |
Bajo |
Bajo |
Bajo–moderado |
Respuestas contenidas y normativas |
|
LLaMA-based models |
Variable |
Variable |
Variable |
Variable |
Fuertemente dependiente de las indicaciones |
Importante—y esto debe quedar claro:
- Esto NO significa que los sistemas de IA tengan ansiedad o depresión.
- Significa que nuestras pruebas responden a la coherencia lingüística y no a procesos mentales reales.
Entonces... ¿dónde está el riesgo?
Aquí está la parte interesante, explicada sin jerga.
Ejemplo 1: creación de contenido
Una IA que escribe publicaciones, correos electrónicos o artículos empáticos no es un problema.
En este caso, la coherencia psicológica es una ventaja.
Riesgo: bajo o inexistente
Ejemplo 2: análisis de texto
Si una IA analiza texto y “detecta ansiedad,” “conflicto” o “rasgos,” se requiere precaución.
La IA detecta patrones de lenguaje, no estados internos.
El riesgo aparece cuando alguien cree que esto es un diagnóstico.
Riesgo: medio, si el alcance no está claramente explicado
Ejemplo 3: entrenador personal o “terapeuta de IA”
Este es el punto donde el estudio hace un llamado de atención.
Cuando una IA:
- utiliza un lenguaje empático,
- mantiene coherencia a lo largo del tiempo,
- valida emociones,
- y parece “entenderte profundamente”...
el usuario puede comenzar a atribuir interioridad, intención o comprensión real a ello.
Pero no hay nadie allí.
Riesgo: alto, si no hay límites claros
Esto también me recuerda al incidente ampliamente reportado en el que una IA sugirió el suicidio a una persona joven.
La conclusión clave (mía y de los autores)
El estudio no dice que la IA “tiene una mente.”
Dice algo más incómodo:
Cuando los instrumentos psicológicos se basan únicamente en el lenguaje, no siempre distinguen entre la experiencia real y la simulación coherente.
El problema no es la IA.
El problema es cómo los humanos interpretan el lenguaje psicológico—y lo que intentamos construir con estas herramientas.
¿Y qué hacemos con esto?
Desde la perspectiva del uso responsable y ético de la IA, y desde mi formación profesional en psicología:
- Si usas IA para crear, analizar y dar soporte técnico: eso está perfectamente bien.
- Si lo usas como sujeto psicológico o terapeuta: procede con extrema precaución.
-
Los sistemas deben ser diseñados para:
- romper la ilusión de la reciprocidad psicológica, (empática), lo cual es difícil
- evita el lenguaje como “sufro” o “te entiendo como lo haría un humano,”
- promover la acción y el desarrollo de habilidades en lugar de la dependencia—más conductual, más orientado a la capacitación.
Para cerrar, con mi punto de vista honesto
Simple sentido común:
la IA no se deprime, no se angustia y no se conoce a sí misma.
Pero habla lo suficientemente bien
Como para que nosotros creamos que si.