Efecto boomerang de la IA: el futuro de la tecnología está en riesgo por entrenamiento con datos propios
El “colapso de modelos” podría restar utilidad a sistemas como ChatGPT, advierten los investigadores
Investigadores advierten que, a medida que proliferen en Internet los contenidos creados por la inteligencia artificial, los sistemas de la misma IA podrían colapsar.
En los últimos años, ha aumentado el interés por los sistemas de procesamiento y generación de texto, como ChatGPT de OpenAI. El entusiasmo ha llevado a muchos a publicar entradas de blog y otros contenidos creados por esos sistemas, y cada vez más parte de Internet ha sido producida por la IA.
Sin embargo, muchas de las empresas que producen tales sistemas utilizan textos sacados de Internet para entrenarlos. La práctica puede dar lugar a un bucle en el que los mismos sistemas de IA que se utilizan para producir ese texto se entrenen con el mismo.
Por consiguiente, dichas herramientas de IA no tardarían en caer en galimatías y datos sin sentido, advirtieron los investigadores en un nuevo artículo. Sus advertencias llegan en medio de una preocupación más general por la “teoría de la Internet muerta”, que sugiere un círculo vicioso en el que cada vez más parte de la web se está automatizando.
Según la investigación, bastan unos pocos ciclos de generación de contenidos y de aprendizaje de los mismos para que estos sistemas produzcan tonterías.
Por ejemplo, hicieron pruebas en un sistema con un texto sobre arquitectura medieval y descubrieron que solo necesitaba nueve procesos de generación de texto antes de que el resultado fuera una lista repetitiva de conectores.
El concepto de que la IA se entrene en conjuntos de datos creados también por la IA y luego contamine sus resultados se ha denominado “colapso del modelo”. Los investigadores advierten que podría ser cada vez más frecuente a medida que los sistemas de IA se utilicen más en Internet.
El fenómeno sucede porque, a medida que esos sistemas producen datos y luego se entrenan con ellos, las partes menos comunes de los datos tienden a quedar fuera. La investigadora Emily Wenger, que no trabajó en el estudio, puso el ejemplo de un sistema entrenado con fotos de distintas razas de perros: si hay más golden retrievers en los datos originales, los seleccionará y, a medida que el proceso avanza, los demás perros quedarán totalmente excluidos, antes de que el sistema colapse y genere datos sin sentido.
Según los investigadores, el mismo efecto se produce con modelos lingüísticos de gran tamaño, como los de ChatGPT y Gemini de Google.
El meollo del asunto no es solo que los sistemas acaben siendo inútiles, sino también que poco a poco se pierda la diversidad en sus resultados. A medida que se producen y reciclan los datos, es posible que los sistemas no reflejen toda la variedad del mundo, y que se borren por completo grupos o puntos de vista más pequeños.
El problema “debe tomarse en serio si queremos mantener los beneficios del entrenamiento a partir de datos a gran escala extraídos de la web”, escriben los investigadores en su artículo. También podría significar que las empresas que ya habían extraído datos para entrenar sus sistemas podrían estar en una posición beneficiosa, ya que los datos tomados antes abarcarán más producción humana genuina.
Hay varias soluciones para el problema. Por ejemplo, se podrían marcar los resultados con una marca de agua para que los sistemas automatizados los detecten y se filtren de los conjuntos de entrenamiento. Pero es fácil eliminar esas marcas de agua y las empresas de IA se han resistido a colaborar para utilizarla, entre otras cuestiones.
El estudio, ‘AI models collapse when trained on recursively generated data’ (que en español sería Los modelos de inteligencia artificial colapsan cuando se entrenan con datos generados de manera recursiva), se publicó en Nature.
Traducción de Michelle Padilla