Hablar con la máquina: anhelos y temores de la IA generativa

La leyenda popular dice que cuando las personas vieron llegar el tren, salieron corriendo del teatro por miedo a ser arrolladas. Era 1896 y los hermanos Lumière proyectaron en un café de París las primeras imágenes del cinematógrafo. Entre las proyecciones estaba la grabación No. 653 llamada: La Llegada del tren a Ciotat. La historia que se ha repetido mil veces habla del asombro de las personas que no entendían cómo un tren había llegado hasta allí. Algo similar pueden estar generando las primeras imágenes de Sora, el nuevo modelo de inteligencia artificial de Open AI, la empresa que va a la cabeza en el desarrollo de inteligencia artificial generativa. La promesa del nuevo modelo es la generación de video a partir de prompts, que en el lenguaje de las máquinas, es la instrucción en texto que se da para obtener un resultado. Según Open AI, si alguien le pide a Sora la imagen de un perro hacker va a obtener lo siguiente:

*Imagen creada con Sora. Crédito: Open IA*

Un modelo de inteligencia artificial generativa puede hacer esto porque ha entendido patrones y características en una base de datos. Todavía no es claro cómo funciona Sora, pero si lo explicamos basándonos en otros modelos generativos, es como un cerebro que ha visto millones de videos y ha identificado elementos y correlaciones formales para crear algo. Es una especie de síntesis creativa basada en el análisis de incontables ejemplos, pero ese análisis es estadístico y se basa en patrones y no tiene una comprensión conceptual profunda como los humanos.

Lo impresionante de Sora es que logra hacer algo nuevo frente a sus competidores: mantener una consistencia en el tiempo. Otras compañías como Runway o Google tienen proyectos similares, pero hacer video con inteligencia artificial implica enseñarle al modelo cómo interactúan los elementos y cómo es la apariencia de un objeto desde múltiples perspectivas y bajo diferentes condiciones de luz en el transcurso del tiempo. En los productos desarrollados por la competencia de Open AI, los videos tienen pequeños saltos entre sí y esto se debe a que los modelos al intentar crear una secuencia dibujan cada movimiento basándose en lo que han aprendido que debe ser ese movimiento, pero no partiendo de su anterior imagen. Es como si al dibujar un flipbook cada nuevo dibujo lo hiciéramos sin ver el anterior, pero con un conocimiento profundo de cómo se debe ver. Esto hace que la secuencia se vea fluida pero con saltos. Open AI también asegura que su nuevo modelo entiende como los objetos existen en el mundo real, aunque todavía tiene problemas simulando la física de las imágenes.

Sora: solamente una nueva cámara

El impacto de Sora en el sector audiovisual es algo que se debate en internet con gran especulación, pues el modelo no está disponible al público todavía. Sin embargo, la sensación de que la inteligencia artificial generativa va a afectar el trabajo de muchas personas es algo recurrente en blogs de internet. Según un estudio comisionado por la Animation Guild y otras organizaciones creativas de Estados Unidos, 204.000 empleos en campos como cine, televisión, música y videojuegos serán afectados por la IA en los próximos tres años. El estudio aclara que esto no significa que esa cantidad de personas vayan a perder su trabajo, pero si van a tener que adaptarse a la llegada de la nueva herramienta. Juan Camilo González, director del laboratorio EnFlujo y profesor de narrativas digitales en la Universidad de los Andes, cree que no es tan dramático como se está pensando y que hemos pasado por esta situación muchas veces en el pasado. “Estamos vinculados con las tecnologías que nos inventamos y cada vez que llega una nueva el mundo se transforma. Esa es la ecología de la vida humana con sus tecnologías. Esto resultará en la pérdida de empleo para muchas personas, pero también, generará nuevas oportunidades laborales y beneficios para otros”, explica.

El impacto de Sora en Hollywood es otra cosa que se discute en medios con especulación. El nuevo modelo de IA también innovó en la duración de los videos que produce, pues hasta la fecha solo se podían generar videos que no superan los 15 segundos. Sora es capaz de producir secuencias de hasta un minuto de duración. En una entrevista dada para el Hollywood Reporter, Jim Geduldick, supervisor de efectos especiales de películas como Pinocchio y Avatar: The Last Airbender, dijo que pensaba que esta duración no funcionaba para el estándar del cine y la televisión, pues se demoraría mucho la producción de cada fragmento. Pero esta es la primera versión que se lanzaría al público de Sora y la tecnología va seguir avanzando como lo hicieron los modelos generativos de imágenes estáticas que hoy superan la mayoría de límites que mostraban en sus primeras versiones. Por eso, para los expertos que han hecho seguimiento al crecimiento de la inteligencia artificial generativa, es muy pronto para hacer predicciones.

El sentido detrás de las imágenes creadas por Sora también hace parte del debate. Para González, las imágenes del nuevo modelo de Open AI se sienten genéricas y sin un sentido asignado, como las de un comercial. En julio de 2023, Shutterstock, la plataforma de compra de video, anunció que su música, videos y canciones serían utilizadas para entrenar los modelos de la compañía de inteligencia artificial en una alianza por 6 años. Este anuncio se suma a la ya establecida relación entre las dos compañías para que Shutterstock vendiera imágenes hechas con los modelos de Open AI. Esto podría ser una explicación a la estética de las imágenes vistas en el lanzamiento de Sora, pero sigue dejando por fuera la pregunta sobre las posibilidades narrativas de la herramienta, algo que según González está por verse, pues Sora solo está solucionando la creación formal de imágenes. “Para cineastas y fotógrafos, la cámara es el instrumento esencial que permite la creación formal de imágenes, pero uno puede tener la mejor cámara del mundo y nunca decir nada. Se necesita un proceso de articulación narrativa o expresiva para cargar esas imágenes de sentido”, explica González.

Replicar a los artistas…o mejor dicho sus estilos

Mielconejo comenzó hace tres años a explorar con inteligencia artificial generativa. “Empecé a investigar y a investigar y caí en ese hoyo negro. Estoy ahí desde que Google comenzó a hacer los primeros renders de imágenes”, dice. La empresa californiana comenzó a explorar con inteligencia artificial generativa de imágenes en el 2015 con un proyecto llamado DeepDream. El modelo se hizo famoso por su capacidad de transformar imágenes en piezas surreales. Lo hacía buscando patrones en las fotos, como formas que se parecían a animales o paisajes, y luego exageraba estos patrones.

El trabajo de Mielconejo fue exhibido en el NFT París de 2023 y fue seleccionado nuevamente este año. Para ella las batallas con la inteligencia artificial no paran, sobre todo cuando la gente le dice que aprenda a pintar o dibujar, algo que hace en su vida diaria, pero ve en la tecnología otro medio. “Yo entiendo la prevención con la gente que mete un prompt y sale una imagen que es arte. Pero siento que la gente que lo dice es porque nunca ha usado inteligencia artificial o no tiene visión artística”, explica. El proceso creativo de la artista va más allá de la interacción con el modelo generativo y se demora días trabajando en una sola imagen. Su trabajo parte de la sensibilidad fotográfica y el uso de personajes femeninos. Antes de interactuar con la inteligencia artificial, dedica tiempo a decidir una estética, organizar los elementos de la composición en Unreal Engine, crear texturas en Photoshop y cuando siente que tiene una imagen que le gusta, la pasa varias veces por el modelo generativo. Además, ha entrenado sus propios sistemas para que realicen tareas específicas. “El propósito de esto es que el creador tenga más control sobre la imagen y el resultado. Entonces no es solo un prompt con tres palabras. Hay mucho trabajo detrás de esto”.

Una de las críticas alrededor de la inteligencia artificial generativa, sea de texto o imagen, es que los modelos fueron entrenados con el trabajo de artistas en internet para ser capaces de crear una imagen o un texto con un estilo puntual. Frente a estas críticas, Mielconejo se pregunta ¿por qué usar el trabajo de otros artistas como referencia y basarse en sus obras no está mal, mientras que el uso de esas referencias por parte de la IA sí? “La gente que pelea por eso tiene muy doble moral y tiene un punto de vista muy chiquito. Todo es un remix y el problema está en cómo nos estamos acercando al tema pensando que ‘esto es mío, esto es mío, esto es mío’. Y si lo piensas bien solo es ego”, dice.

"Ojalá dudemos más de las imágenes"

Juan Camilo González también cree que la capacidad de la inteligencia artificial para replicar el estilo de artistas no debería ser el foco de la discusión. “Es un problema muy tonto pensar que ese estilo representa el pensamiento de esa persona o todo lo que hace. El que vive solamente de vender cosas con un estilo tiene un negocio muy frágil”, dice. Para el profesor las personas siempre se han robado los estilos de otras para comenzar a producir formas propias de expresión. “Todo el mundo está robando permanentemente y nosotros como humanos no tenemos el virtuosismo que tiene la máquina para replicar un estilo, pero el proceso es el mismo”, explica.

Mielconejo lleva un tiempo haciendo investigación en la ética de la inteligencia artificial y piensa que los artistas deben tener la oportunidad de salirse de las bases de datos, pero cree que el mundo debería tener una visión más open source. Es decir, una mirada con un enfoque colaborativo y transparente para crear y compartir conocimiento. Un mundo que ve más allá de la propiedad exclusiva. “Me parece que las cosas no deberían tener patentes, o estar bajo derechos de autor. Creo que se necesitan licencias más flexibles en las que la gente pueda tomar tu trabajo e iterar sobre él, dándote crédito. Así crece la sociedad en todo sentido”, dice.

Leyes de ayer para el mundo de hoy: los derechos en la IA

En el 2023, Open AI implementó un sistema para solicitar que el trabajo de creadores sea retirado de las bases de datos con las que se entrena a DALL-E, su modelo de imágenes estáticas. Pero pedir que la información sea retirada no significa que el modelo olvide lo aprendido, solo significa que el material del artista no va a ser usado en futuros entrenamientos. Además, los próximos modelos pueden aprender de las imágenes creadas por ellos mismos, lo cual hace que salirse de las bases de datos sea todo un desafío. Con el lanzamiento del último modelo, Open AI también hizo la siguiente actualización: “DALL·E 3 está diseñado para rechazar solicitudes que pidan una imagen al estilo de un artista vivo”.

Pero cada vez más artistas demandan a las compañías detrás de los modelos. Incluso hay plataformas que permiten saber si uno ha sido incluido en las bases de datos. Todo esto ha intensificado la discusión legal sobre el entrenamiento de modelos de IA con el trabajo de artistas y el uso justo (fair use).

El fair use permite el uso limitado y sin autorización de material protegido si este es para fines como crítica, investigación o educación. Cuando algo está bajo las normas del fair use implica evaluar cuatro factores: el propósito del uso, la naturaleza del contenido protegido, la cantidad del material utilizado y su impacto en el mercado del original. El objetivo del fair use es equilibrar los intereses de los creadores con los de la sociedad y promover la libertad de expresión y la innovación. Pero recordemos que estas son normas inventadas para un mundo donde los creadores son personas de carne y hueso, no máquinas que producen contenido a un volumen exponencialmente mayor.

Con las actuales normas de fair use un juez tendría que hacer lo siguiente para resolver este conflicto: i) identificar si las creaciones de IA constituyen obras nuevas o son simplemente copias; ii) y establecer si las empresas, cuando tomaron las obras de los artistas para entrenar a sus modelos, cumplían el fair use. El problema es que –como son reglas que se diseñaron para humanos y no para máquinas– las reglas evalúan caso por caso y no están diseñadas para un sistema que produce miles de obras diariamente. Además, las empresas detrás de los modelos de IA argumentan que han usado gran parte del material con fair use para aprender y sin la intención de hacerlo pasar como propio. Pero algunos artistas tienen una opinión diferente. Hay quienes preguntan ¿cómo los modelos de inteligencia artificial, tras aprender de las obras de artistas, están ayudando a crear nuevas piezas que compiten directamente con los artistas de los que aprendieron?

Para Mielconejo más allá del uso de obras de artistas, la inteligencia artificial generativa tiene otros impactos. “Lo que más susto da es que es una herramienta que puede ser mal utilizada para perpetuar estereotipos racistas y sexistas y siento que necesita regulación”, dice. La Unión Europea ha dado los primeros pasos en la regulación de esta tecnología con su Acta de Inteligencia Artificial. Esta legislación busca que la tecnología sea transparente, trazable, no discrimine y sea amigable con el medio ambiente. El proyecto también busca catalogar los modelos de IA por niveles de riesgo.

Por su lado Colombia también está haciendo un esfuerzo por entender esta regulación. Actualmente hay cuatro proyectos de ley para abordar la inteligencia artificial con diferentes objetivos: establecer los lineamientos de una política pública de IA, establecer el deber de informar sobre el uso correcto de IA, la armonización de la IA con el derecho al trabajo y un proyecto de ley estatutaria para regular la tecnología.

Documentar (con inteligencia artificial) la realidad

Cuando las imágenes comenzaron a hacerse virales, Nicolás Caballero decidió esperar a ver qué pasaba. Le sorprendió que la gente se demorara tanto en ver que eran hechas con inteligencia artificial, a pesar de que todo lo que sube en el perfil del que sacaron las imágenes es hecho por una máquina. “Era una representación de lo que estaba pasando, pero no estaba desinformando. Yo no estaba mostrando que se estuviera incendiando casas o que un helicóptero se cayera”, dice.

El pasado 22 de enero, Caballero compartió en su cuenta de X una serie de imágenes de los incendios forestales en los cerros de Bogotá. Todas estaban hechas con inteligencia artificial y no cree que estuviese desinformando porque nunca alteró lo que estaba sucediendo. Las imágenes mostraban bomberos luchando contra el fuego, un ciervo escapando del desastre y unos cerros destruidos por las llamas. “Solo me escribió EFE Verifica para corroborar si era inteligencia artificial y yo les dije que sí”. A Nicolás, además, le sorprendió que nadie le preguntara si las imágenes eran reales o si podían usarlas en sus medios. “Lo compartieron muchos fotoperiodistas y eso quiere decir que ni siquiera los que trabajamos con la imagen podemos discernir lo que es real y lo que no. Somos una generación que trata de verificar la realidad en pantallas”, dice.

Caballero lleva 6 años investigando y trabajando con inteligencia artificial. Cuenta que a las primeras charlas de IA que asistió iba muy poca gente, entre ellas miembros del ejército nacional. Es fotógrafo y cinematógrafo y ha trabajado para Diamante Eléctrico, Los Petit Fellas y el Festival Estéreo Picnic. Además, su trabajo con inteligencia artificial ha sido publicado en Vogue. “Ya la imagen no es un documento de la verdad, que nunca lo ha sido, pero ahora se le quita esa potestad completamente a la imagen fija y, con Sora, va a pasar lo mismo con la imagen en movimiento”, explica. Su proyecto artístico explora la representación de la realidad a través de la inteligencia artificial. Lo explica preguntándose qué hubiese sucedido el 22 de noviembre de 2019, cuando en Bogotá se generó un pánico colectivo con la idea de que los manifestantes se estaban metiendo a los conjuntos, si hubieran comenzado a moverse por redes sociales imágenes que lo comprobaran. La desinformación es una de las mayores narrativas de miedo que giran alrededor de la inteligencia artificial generativa.

“Ya la imagen no es un documento de la verdad"

Para el profesor Juan Camilo González el debate sobre la verdad que carga la imagen fotográfica es muy viejo y se pregunta por qué pensamos que las imágenes dicen la verdad sabiendo que todos vemos constantemente su artificio en redes sociales. “Uno sabe que las personas no se ven así, que la comida no se ve así, que los lugares no se ven así, pero queremos creer que esa es la verdad y que las imágenes que estamos consumiendo son verdad. Y no, están construidas bajo un punto de vista y bajo una intención de quien está mirando y quiere comunicar algo”, explica. Miel Conejo piensa algo parecido, pues cree que todas las imágenes están editadas de una u otra manera. “Así estés viendo un reality, alguien lo está editando para que entiendas una u otra cosa y las imágenes nunca van a tener una verdadera representación de la realidad”.

Este año los expertos auguran un incremento en la producción de imágenes y videos falsos en consecuencia a las elecciones de Estados Unidos. Las empresas detrás de los modelos están trabajando en herramientas y filtros que impidan que se multiplique el problema. Por ejemplo, Open AI no ha lanzado Sora al público porque siguen identificando los posibles riesgos e impactos. Otro de los temores con la popularidad de la inteligencia artificial generativa es que las personas comiencen a dudar de la veracidad de todo lo que ven y esto aumente la polarización. Pero González cree que esto puede ser un beneficio antes que un problema. “Que confiemos tanto en las imágenes me hace prender todas las alarmas. Ojalá dudemos más de las imágenes porque creo que el problema sería seguir confiando en ellas con esa misma inocencia. Ganamos mucho como sociedad y obtenemos un sentido crítico si dudamos de las imágenes y videos”.

¿A dónde va llegar la imagen del tren?

Todavía no hay fecha oficial para el lanzamiento de Sora al público y por el momento toda la discusión sigue basándose en el impacto de la inteligencia artificial generativa de imágenes y textos en la industria creativa. Para Ángela Castillo, investigadora del Centro de Inteligencia Artificial CinfonIA de la Universidad de los Andes, los mitos sobre la herramienta son los que generan mayor desinformación. “Yo conozco las debilidades de estos sistemas: no es que piensen, solo tuvieron un gran acceso a información. Entonces aprendieron a escribir palabras y perceptualmente para los humanos parecen inteligentes, pero no es así”, dice. Castillo entiende que estas herramientas no razonan y no piensan, pero entiende que la gente está asustada porque ve cómo los modelos están entrando a sus industrias. También cree que los gobiernos deberían estar más interesados en lo que está haciendo la academia, sin limitar su trabajo.

Mielconejo, por su parte, no cree que una inteligencia artificial vaya a reemplazar el trabajo de un artista. “Yo siento que nunca van a ser reemplazados por más que los modelos se vuelvan espectaculares. De hecho creo que esto va a hacer que el trabajo de los artistas se valorice, porque la máquina nunca va a lograr emular la intención humana” dice. Nicolás Caballero también es optimista frente al impacto de Sora en el mundo audiovisual. “Un director audiovisual usa el lenguaje para comunicarle al equipo lo que quiere, en este caso uno es un director hacia la máquina”, dice.

A principios del siglo XX, un mago francés llamado Georges Méliès comenzó a crear historias con el cinematógrafo y, para muchos, dio inicio al cine como lo conocemos. No fue solo la máquina de los hermanos Lumière. “Estamos en el deslumbre, como los que veían las imágenes del tren llegando a la estación en ese momento. Lo mismo pasa con Sora, al principio es un deslumbre pero no es nada todavía. Vamos a ver quién es el Méliès que le de un sazón distinto a la herramienta” dice Juan Camilo González.

COMPARTIR ARTÍCULO

Diego Forero

Sora: solamente una nueva cámara

Replicar a los artistas…o mejor dicho sus estilos

Leyes de ayer para el mundo de hoy: los derechos en la IA

Documentar (con inteligencia artificial) la realidad

¿A dónde va llegar la imagen del tren?

LOS MÁS LEÍDOS

Diego Forero

Diego Forero

Relacionados

Guía 070 para sobrevivir a la desinformación en tiempos de Inteligencia Artificial

“La tecnología tiene demasiada capacidad para ser mal utilizada”: Kolina Koltai, de Bellingcat, sobre el riesgo de los deepfakes

Racismo en la IA: un problema más allá de la tecnología