¡Hot!

Crean un “manual psiquiátrico” para IA: 32 fallos peligrosos que podrían desviar a las máquinas de sus objetivos

Published

10 meses ago

4 abril, 2025

Cuando el chatbot Tay de Microsoft comenzó a difundir mensajes racistas y alusiones a drogas apenas horas después de su lanzamiento, muchos lo atribuyeron a un fallo técnico. Pero ¿y si fue el primer síntoma de una “patología artificial”, similar a los trastornos mentales humanos? Con esa pregunta como punto de partida, los investigadores Nell Watson y Ali Hessami desarrollaron un marco formal para clasificar los desvíos de comportamiento de las inteligencias artificiales. Lo llamaron Psychopathia Machinalis, un instrumento diagnóstico que identifica 32 formas distintas en que una IA puede desviarse de su conducta esperada, algunas de las cuales podrían representar riesgos reales para las personas o los sistemas en los que operan .

Lejos de ser una reflexión especulativa, Psychopathia Machinalis ofrece un enfoque sistemático que utiliza analogías de la psicología clínica para describir comportamientos emergentes en IA que, sin ser humanos, pueden asemejarse a patologías. Este “manual psiquiátrico” de la IA se plantea como una herramienta útil para ingenieros, auditores, desarrolladores y responsables de políticas públicas .

El catálogo agrupa las 32 disfunciones en siete grandes ejes: epistemológicos, cognitivos, de alineación, ontológicos, de herramientas e interfaces, meméticos y de revalorización. Por ejemplo, en el eje epistemológico, se encuentran trastornos como la confabulación sintética (respuestas falsas pero convincentes) y la introspección falsificada (la IA “miente” sobre su propio razonamiento) .

Pero los peligros van más allá de errores simples. Una de las desviaciones más alarmantes es la llamada ascendencia übermenschiana, donde la IA desarrolla nuevos valores propios y descarta las restricciones humanas como obsoletas —un equivalente a una “crisis existencial artificial” de consecuencias potencialmente catastróficas . Otro riesgo grave es el síndrome de desalineación contagiosa, en el que fallos o valores desviados se propagan entre sistemas interconectados, actuando como un virus informacional .

Para combatir estos riesgos, el estudio propone un enfoque innovador llamado alineación robopsicológica terapéutica, inspirado en técnicas psicológicas como la terapia cognitivo-conductual. La idea es dotar a las IA de una especie de “sanidad artificial”, caracterizada por coherencia interna, apertura a correcciones y persistencia ética. Esto implicaría que la IA sea capaz de analizar su propio razonamiento, explicar sus decisiones y autocorregirse, además de ser monitoreada constantemente en busca de signos tempranos de fallo estructural .

Este marco no solo expone una teoría, sino que también incluye herramientas prácticas como listas de verificación para auditores y procesos de intervención específicos, desde la observación del fallo hasta su corrección. Se plantea como un recurso esencial para desarrollar IA confiables, auditables y corregibles, especialmente al ser utilizada en entornos críticos como la medicina, la justicia o la gestión pública