Es capaz de general vídeos de hasta 60 segundos cumpliendo las indicaciones de un prompt
OpenAI ha presentado su primer modelo de generación de vídeos. Se trata de Sora, una herramienta que, en su actual versión experimental, permite generar vídeos de hasta 60 segundos a partir de instrucciones de texto. La compañía liderada por Sam Altman asegura que el modelo es capaz de generar escenas realistas siguiendo las indicaciones de los usuarios. Todo esto, manteniendo la calidad de los fotogramas.
"Sora es capaz de generar un minuto de vídeo de alta fidelidad. Estamos enseñando a la inteligencia artificial a entender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real", ha indicado OpenAI en el informe en el que presenta su nueva herramienta.
Sora funciona básicamente con la misma mecánica que los generadores de texto e imagen. Puede generar vídeos de hasta un minuto de duración manteniendo calidad visual y cumpliendo con las indicaciones del prompt del usuario.
Según ha informado OpenAI, Sora está comenzando a estar disponible para los equipos de evaluación de riesgos para que evalúen áreas críticas en busca de daños o riesgos. También se está probando con "un número de artistas visuales, diseñadores y cineastas para obtener retroalimentación sobre cómo mejorar el modelo para que sea más útil para los profesionales creativos".
"Compartimos nuestro progreso de investigación temprano para comenzar a colaborar y obtener comentarios de personas fuera de OpenAI y para dar al público una idea de cuáles son las capacidades de la IA que están en el horizonte", ha dicho la compañía.
Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario ha solicitado en el texto de entrada, sino también cómo esas cosas existen en el mundo físico.
El modelo tiene un profundo entendimiento del lenguaje, ha señalado OpenAI, lo que le permite "interpretar de manera precisa las indicaciones y generar personajes cautivadores que expresan emociones vibrantes". Sora también puede crear múltiples tomas dentro de un solo vídeo generado que reflejen de manera precisa los personajes y el estilo visual.
OpenAI ha explicado que el modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y puede que no comprenda instancias específicas de causa y efecto. Por ejemplo, ha indicado, una persona podría morder una galleta, pero después, la galleta podría no tener una marca de la mordida.
El modelo también puede confundir detalles espaciales de una indicación, por ejemplo, mezclar izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que ocurren a lo largo del tiempo, como seguir una trayectoria de cámara específica.
OpenAI ha remarcado que tomarán varias medidas importantes de seguridad antes de hacer que Sora esté disponible entre los productos de OpenAI. "Estamos trabajando con equipos de evaluación de riesgos, expertos en áreas como desinformación, contenido odioso y sesgo, que probarán el modelo".
También están desarrollando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede identificar cuándo un vídeo fue generado por Sora.
Además de desarrollar nuevas técnicas para la preparación del despliegue, OpenAI está aprovechando los métodos de seguridad existentes que construyó para sus productos que utilizan DALL·E 3, que también son aplicables a Sora.
"Nos comprometeremos con legisladores, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología. A pesar de una extensa investigación y pruebas, no podemos predecir todas las formas beneficiosas en que las personas usarán nuestra tecnología, ni todas las formas en que abusarán de ella. Por eso creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo".