¿Qué sigue para la inteligencia artificial? El próximo salto estaría en los videos instantáneos
Con solo escribir unas palabras en una computadora, algunos sistemas son capaces de generar videos cortos. Una empresa emergente en Nueva York desarrolla esta capacidad.
Por Cade Metz
The New York Times
Cade Metz lleva más de una década escribiendo sobre los avances en inteligencia artificial.
14 abril 2023
Ian Sansavera, un arquitecto de software de una empresa emergente neoyorquina llamada Runway AI, tecleó una breve descripción de lo que quería ver en un video. Escribió: “Un río tranquilo en el bosque”.
Menos de dos minutos después, un servicio experimental de internet generó un video corto de un río tranquilo en un bosque. El agua corriente del río brillaba bajo el sol mientras se pasaba entre árboles y helechos, doblaba por un recodo y salpicaba suavemente sobre las rocas.
El Times Una selección semanal de historias en español que no encontrarás en ningún otro sitio, con eñes y acentos. Get it sent to your inbox.
Runway, la cual planea abrir su servicio a un pequeño grupo de probadores de software la semana pasada, es una de varias empresas que están creando tecnología de inteligencia artificial que pronto les permitirá a los usuarios generar videos solo con teclear unas cuantas palabras en un recuadro de la pantalla de una computadora.
Representan la siguiente etapa de una carrera industrial —en la que participan gigantes como Microsoft y Google, así como empresas emergentes mucho más pequeñas— para crear nuevos tipos de sistemas de inteligencia artificial que algunos creen podrían llegar a ser el siguiente gran avance tecnológico, tan importante como los navegadores web o el iPhone.
Los nuevos sistemas de generación de video podrían acelerar el trabajo de cineastas y otros artistas digitales, y al mismo tiempo convertirse en un nuevo y rápido mecanismo que crea desinformación en línea difícil de detectar, lo cual dificultaría todavía más saber qué es real en internet.
Los sistemas son ejemplos de lo que se conoce como inteligencia artificial generativa, la cual puede crear texto, imágenes y sonidos en un instante. Otro ejemplo es ChatGPT, el chatbot en línea creado por OpenAI, una empresa emergente de San Francisco, que sorprendió a la industria tecnológica con sus habilidades a finales del año pasado.
Los fundadores de Runway, Anastasis Germanidis (arriba), Alejandro Matamala Ortiz (izquierda) y Cristóbal Valenzuela, en su oficina de Manhattan.Credit…Justin J Wee para The New York Times
Google y Meta, la empresa matriz de Facebook, develaron los primeros sistemas de generación de video el año pasado, pero no los compartieron con el público porque les preocupaba que los sistemas se utilizaran para difundir desinformación con una rapidez y eficacia inéditas.
Sin embargo, para Cristóbal Valenzuela, director ejecutivo de Runway, la tecnología era demasiado importante como para mantenerla en un laboratorio de investigación, a pesar de sus riesgos. “Es una de las tecnologías más impresionantes que hemos construido en los últimos cien años”, afirmó. “De hecho, es necesario que la gente la utilice”.
Por supuesto, la capacidad de editar y manipular películas y videos no es nada nuevo. Los cineastas lo han hecho durante más de un siglo. En años recientes, investigadores y artistas digitales han utilizado diversas tecnologías de inteligencia artificial y programas de software para crear y editar videos que a menudo se denominan videos ultrafalsos (deepfakes).
No obstante, sistemas como el que ha creado Runway, con el tiempo, podrían remplazar las habilidades de edición con solo presionar un botón.
La tecnología de Runway genera videos a partir de cualquier descripción breve. Para empezar, solo basta teclear una descripción como si fuera una nota rápida.
A continuación, un video de IA generado por el software de Runway que muestra “un perro con un teléfono celular en el parque”.
A.I. video generated by Runway’s software that depicts “a dog with a cell phone in the park.”
Eso funciona mejor si la escena tiene algo de acción —pero no demasiada—, algo así como “un día lluvioso en la gran ciudad” o “un perro con un teléfono celular en el parque”. Al presionar “aceptar”, el sistema generará un video en uno o dos minutos.
La tecnología puede reproducir imágenes comunes, como un gato durmiendo sobre una alfombra. O puede combinar conceptos dispares para generar videos raros pero divertidos, como una vaca en una fiesta de cumpleaños.
“A tranquil river in the forest” in an A.I. video generated by Runway’s software.
Los videos tan solo duran cuatro segundos y el video luce entrecortado y borroso si lo observas con detenimiento. En ocasiones, las imágenes son extrañas, distorsionadas y perturbadoras. El sistema puede fusionar animales como perros y gatos con objetos inanimados como pelotas y teléfonos celulares. No obstante, si se le dan las indicaciones correctas, produce videos que muestran hacia dónde se dirige la tecnología.
“En este momento, si veo un video de alta resolución, probablemente confíe en que es verdadero”, opinó Phillip Isola, profesor del Instituto Tecnológico de Massachusetts (MIT, por su sigla en inglés) especializado en inteligencia artificial. “Pero eso cambiará bastante pronto”.
Al igual que otras tecnologías de inteligencia artificial generativa, el sistema de Runway aprende analizando datos digitales, en este caso fotos, videos y pies de fotos que describen el contenido de esas imágenes. Al entrenar este tipo de tecnología con cantidades cada vez mayores de datos, los investigadores están seguros de poder mejorar y ampliar rápidamente sus capacidades. Los expertos creen que pronto generarán minipelículas de aspecto profesional, con música y diálogos.
Es difícil definir lo que el sistema crea en la actualidad. No es una foto No es un dibujo animado. Es una colección de muchos píxeles combinados para crear un video realista. La compañía planea ofrecer su tecnología junto a otras herramientas que, esperan, acelerarán el trabajo de los artistas profesionales.
Varias empresas emergentes, incluida OpenAI, han lanzado tecnologías similares capaces de generar imágenes fijas a partir de indicaciones breves como “foto de un oso de peluche montando una patineta en Times Square”. El rápido avance de las fotos generadas por IA podría sugerir hacia dónde se dirige la nueva tecnología de video.
ImageThree men in dark shirts pose on a fire escape on the side of a brick building.
Los fundadores de Runway, Anastasis Germanidis (arriba), Alejandro Matamala Ortiz (izquierda) y Cristóbal Valenzuela, en su oficina de Manhattan.Credit…Justin J Wee para The New York Times
Los fundadores de Runway creen que, a pesar del riesgo de que la tecnología de generación de video ayude a difundir información errónea, su nueva IA puede ser una bendición para los cineastas.Credit…Justin J Wee para The New York Times
El mes pasado, las redes sociales estuvieron repletas de imágenes del papa Francisco con un abrigo acolchado blanco de Balenciaga, un atuendo sorprendentemente moderno para un pontífice de 86 años. Pero las imágenes no eran reales. Un obrero de construcción de 31 años de Chicago había creado la sensación viral utilizando una popular herramienta de IA llamada Midjourney.
Isola ha pasado años construyendo y probando este tipo de tecnología, primero como investigador en la Universidad de California, campus Berkeley, luego en OpenAI, y luego como profesor en el MIT. Aún así, se dejó engañar por las imágenes nítidas y de alta resolución pero completamente falsas del papa Francisco.
“Hubo un tiempo en el que la gente publicaba deepfakes y no me engañaban, porque eran muy extravagantes o no eran muy realistas”, dijo. “Ahora no podemos dar por sentado la veracidad de ninguna de las imágenes que vemos en internet”.
Midjourney es uno de los muchos servicios que pueden generar imágenes fijas realistas a partir de una breve indicación. Entre los otros servicios se encuentran Stable Diffusion y DALL-E, una tecnología de OpenAI que inició esta ola de fotogeneradores cuando fue presentada hace un año.
Midjourney se basa en una red neuronal, que aprende sus habilidades analizando enormes cantidades de datos. Busca patrones mientras revisa millones de imágenes digitales, así como el texto que describe las imágenes representadas.
Cuando alguien describe una imagen para el sistema, genera una lista de características que la imagen podría incluir. Una característica podría ser la curva en la parte superior de la oreja de un perro. Otro podría ser el borde de un teléfono celular. Luego, una segunda red neuronal, llamada modelo de difusión, crea la imagen y genera los píxeles necesarios para las características. Al final transforma los píxeles en una imagen coherente.
Fuente The New York Times