Stay up to date with notifications from The Independent

Notifications can be managed in browser preferences.

¿Puede la IA explicarse a sí misma? Experimento de los creadores de ChatGPT exhibe problemas

Es posible que Chatbot emplee conceptos que los seres humanos no entendemos o para los cuales no tenemos palabras para expresar, observan los investigadores

Andrew Griffin
Viernes, 12 de mayo de 2023 12:46 EDT
Ya está aquí el chat GPT-4. ¿Cómo cambiará nuestras vidas?
Read in English

Los creadores de ChatGPT intentaron hacer que el sistema se explique a sí mismo.

Si bien tuvieron cierto éxito, se encontraron con algunos problemas, incluido la posibilidad de que ChatGPT emplee conceptos que no entendemos o para los cuales los humanos no tenemos un lenguaje adecuado para expresar.

Los investigadores de OpenAI, que desarrollaron ChatGPT, utilizaron la versión más reciente de su modelo, conocida como GPT-4, para tratar de explicar el comportamiento de la versión anterior GPT- 2.

Es un intento de superar el llamado problema de la caja negra con modelos de lenguaje extenso como GPT. Si bien hay una comprensión relativamente buena de lo que entra y sale de dichos sistemas, el trabajo real que se lleva a cabo adentro sigue siendo en gran medida un misterio.

No solo plantea problemas para los investigadores. También significa que es difícil identificar los sesgos implícitos en el sistema, o saber si está proporcionando información falsa a las personas que lo usan, ya que no hay forma de descifrar cómo llegó a las conclusiones obtenidas.

Ingenieros y científicos se han propuesto resolver este problema con la “investigación de interpretabilidad”, que busca formas de mirar dentro del propio modelo y comprender mejor lo que está sucediendo. A menudo, esto requiere observar las “neuronas” que conforman dicho modelo: al igual que en el cerebro humano, un sistema de IA se compone de una serie de las llamadas neuronas que juntas forman el todo.

Sin embargo, identificar esas neuronas individuales y su propósito es difícil, ya que los humanos han tenido que seleccionar las neuronas e inspeccionarlas de forma manual para averiguar qué representan. Pero algunos sistemas tienen cientos de miles de millones de parámetros, con lo cual la tarea de analizar todos resulta imposible.

Ahora, los investigadores de OpenAI han buscado usar GPT-4 para automatizar ese proceso, en un intento de analizar el comportamiento del sistema con más rapidez. Lo hicieron al intentar crear un proceso automatizado que permitiera al sistema proporcionar explicaciones en lenguaje natural del comportamiento de la neurona y aplicarlo a otro modelo de lenguaje anterior.

Funcionó en tres pasos: observar la neurona en GPT-2 y hacer que GPT-4 intentara explicarla, luego simular lo que haría esa neurona y, finalmente, calificar dicha explicación comparando cómo funcionó la activación simulada con la real.

La mayoría de esas explicaciones salieron mal y GPT-4 obtuvo una calificación baja. Pero los investigadores esperaban que el experimento mostrara la posibilidad de usar la tecnología de IA para explicarse a sí misma, con más trabajo.

Los creadores se encontraron con una variedad de “limitaciones”; sin embargo, eso significa que el sistema tal como existe ahora no es tan bueno como los humanos para explicar el comportamiento. Parte del problema puede ser que explicar cómo funciona el sistema en un lenguaje normal es imposible, porque el sistema puede estar usando conceptos individuales para los cuales los humanos no tienen palabras.

“Nos enfocamos en explicaciones breves en lenguaje natural, pero las neuronas pueden tener un comportamiento muy complejo que es imposible de describir de manera concisa”, escriben los autores. “Por ejemplo, las neuronas podrían ser altamente polisemánticas (es decir, representan muchos conceptos distintos) o podrían representar conceptos únicos que los humanos no entienden o no tienen palabras para expresar”.

También tiene problemas porque se enfoca específicamente en lo que hace cada neurona de manera individual, y no en cómo eso podría afectar las cosas más adelante en el texto. Del mismo modo, puede explicar un comportamiento específico, pero no cuál mecanismo está produciendo dicho comportamiento. Por lo tanto, podría detectar patrones que en realidad no rigen un comportamiento determinado.

El sistema también usa mucha potencia informática, señalan los investigadores.

Traducción de Michelle Padilla

Thank you for registering

Please refresh the page or navigate to another page on the site to be automatically logged inPlease refresh your browser to be logged in