Investigadores advierten sobre el colapso del modelo de IA entrenada con el contenido de internet

About
Share

Published On Nov 2, 2023

La era de la IA generativa está aquí: solo seis meses después de que ChatGPT de OpenAI irrumpiera en escena, casi la mitad de los empleados de algunas de las principales empresas mundiales ya utilizan este tipo de tecnología en sus flujos de trabajo, y muchas otras empresas se apresuran a hacerlo.

Pero, como sabéis, los datos utilizados para entrenar los modelos de lenguaje extenso (LLM) y otros modelos transformadores que sustentan productos como ChatGPT, Stable Diffusion y Midjourney provienen inicialmente de fuentes humanas: libros, artículos, fotografías, etc., que se crearon sin la ayuda de la inteligencia artificial.

Ahora, a medida que más personas usan IA para producir y publicar contenido, surge una pregunta obvia: ¿Qué sucede cuando el contenido generado por IA prolifera en Internet y los modelos de IA comienzan a entrenarse en él, en lugar de en contenido generado principalmente por humanos?

Un grupo de investigadores del Reino Unido y Canadá ha analizado este mismo problema y recientemente publicó un artículo sobre su trabajo en la revista arXiv. Lo que encontraron es preocupante para la tecnología de IA generativa actual y su futuro: "Descubrimos que el uso de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes".

Los investigadores concluyeron que "aprender de los datos producidos por otros modelos provoca el colapso del modelo, un proceso degenerativo por el cual, con el tiempo, los modelos olvidan el verdadero subyacente"

Ilia Shumailov, en un correo electrónico a VentureBeat comentó: "Nos sorprendió observar lo rápido que ocurre el colapso del modelo: los modelos pueden olvidar rápidamente la mayoría de los datos originales de los que aprendieron inicialmente".

En otras palabras: A medida que un modelo de entrenamiento de IA está expuesto a más datos generados por IA, se desempeña peor con el tiempo, produce más errores en las respuestas y el contenido que genera, y produce mucha menos variedad no errónea en sus respuestas.

Como otro de los autores del artículo, Ross Anderson, profesor de ingeniería de seguridad en la Universidad de Cambridge y la Universidad de Edimburgo, escribió en una publicación de blog sobre el artículo: “Así como hemos esparcido los océanos con basura plástica y llenado la atmósfera con carbono dióxido, por lo que estamos a punto de llenar Internet con basura. Esto hará que sea más difícil entrenar modelos más nuevos scrapeando la web, dando una ventaja a las empresas que ya lo hicieron, o que controlan el acceso a las interfaces humanas a escala. De hecho, ya vemos empresas emergentes de IA que utilizan Internet Archive para obtener datos de capacitación”.

Ted Chiang, aclamado autor de ciencia ficción publicó recientemente un artículo en The New Yorker que postula que las copias de copias de IA darían como resultado una calidad degradante, comparando el problema con el aumento de artefactos visibles cuando uno copia una imagen JPEG repetidamente.

Otra forma de pensar en el problema es como la película de comedia de ciencia ficción de 1996 Multiplicity Mis dobles, mi mujer y yo, protagonizada por Michael Keaton, en la que un hombre humilde se clona a sí mismo y luego clona a los clones, cada uno de los cuales resulta en una disminución exponencial de los niveles de inteligencia y una creciente estupidez.

Cómo ocurre el 'colapso del modelo'

En esencia, el colapso del modelo ocurre cuando los datos que generan los modelos de IA terminan contaminando el conjunto de entrenamiento para los modelos posteriores.

“Los datos originales generados por humanos representan el mundo de manera más justa, es decir, también contienen datos improbables”, explicó Shumailov. “Los modelos generativos, por otro lado, tienden a sobreajustarse a los datos populares y, a menudo, malinterpretan o tergiversan los datos menos populares”.

🔴 Suscríbete:
https://www.youtube.com/c/ResilienteD...

🔵 Resiliente Digital - Sociedad Tecnológica
https://resilientedigital.com

Si tienes claro que la tecnología está cambiando el mundo y quieres participar en algo inolvidable, empieza a crear tu propio Negocio de Futuro hoy mismo.
📌 Inscríbete aquí → https://negociosdefuturo.com

También puedes seguirme en:
🖥️ Web Oficial → https://resilientedigital.com
📷 Instagram →   / resilientedigital
🐦 Twitter →   / resilientedigit
👤 Facebook →   / aguerreronet
📽️ Youtube →    / resilientedigital
💬 Telegram https://t.me/resilientedigital
💬 Discord   / discord

🔴 Link al canal personal de Alejandro Guerrero, director de Resiliente Digital, con más vídeos y contenidos sobre Negocios y Tecnología:
   / @alejandroguerrero

Published On Nov 2, 2023

Share/Embed

Video Link