Après Chat-GPT et DALL-E, OpenAI a dévoilé en février 2024 Sora, un modèle d’IA générative capable de créer de toute pièce une vidéo à partir de texte. Et ce que l’on peut dire, c’est que cette annonce a fait beaucoup de bruit et a suscité pas mal de réactions de la part de tout le secteur de la vidéo. Mais la question que l’on se pose aujourd’hui, c’est : comment Sora a réussi son introduction dans ce domaine de l’IA vidéo générative ? Comment fonctionne-t-il et quel est son plus dans ce registre ?
Qu’est-ce que Sora et comment il fonctionne ?
Sora, comme nous l’avons déjà mentionné précédemment, est un modèle d’IA vidéo générative permettant de créer des séquences vidéo de qualité d’une durée d’une minute. Il peut également compléter des scènes manquantes d’une vidéo existante, ce qui permet ainsi de découvrir la génération vidéo après la numérisation de vos cassettes VHS par exemple.
Pour ce faire, il effectue ce que l’on appelle du text-to-video, c’est-à-dire qu’on lui fournit du texte que l’on appelle des prompts et l’outil produit à partir de cela des scènes détaillées selon le texte fourni. Il peut ainsi reproduire des mouvements, des effets, des personnages réalistes ou non ou même des expressions.
Si l’on regarde du côté technique, OpenAI se base sur l’architecture de Transformers, une technologie inventée pour l’analyse et la génération de texte. Cette dernière s’appuie sur des patchs ou des morceaux visuels spatio-temporels et utilise la diffusion latente pour constituer des images, puis une vidéo cohérente. L’outil est ensuite entraîné sur une énorme quantité de données pour améliorer sa précision et sa qualité. En gros, OpenAI a utilisé et amélioré des technologies existantes comme VideoGPT ou encore Diffusion Transformers, créées respectivement en 2021 et 2022.
Pour l’heure, Sora n’est pas encore disponible pour le grand public, mais seulement auprès d’une poignée de développeurs et autres testeurs sélectionnés par la firme.
Quelles évolutions apporte-t-il dans l’IA vidéo ?
Sora n’est pas la première IA vidéo générative, puisque Meta, Google ainsi que d’autres start-up ont déjà développé ce genre d’outil avant OpenAI. Par contre, ce dernier a scotché tout le monde de par les démonstrations qu’il a réalisées lors de la présentation de Sora. En effet, la qualité et le réalisme de ce qu’ils ont proposé ont dépassé les autres de bien des façons.
Tout d’abord, une vidéo produite avec Sora dure une minute, ce qui est bien plus que celle réalisée avec les autres outils existants. Les aberrations sont maîtrisées, même si elles restent présentes, et ce, avec une haute résolution. Les sujets sont stables et peuvent être nombreux sur une même scène, tout comme les détails sur chaque scène. Les mouvements sont réalistes et cohérents, les émotions sont bien retranscrites, si bien qu’on pourrait facilement croire qu’il s’agit d’une vidéo réelle. Selon son créateur, Sora serait apte à comprendre le contexte d’une vidéo et de modifier l’environnement autour en fonction de cela. D’ailleurs, ils ambitionnent de faire de Sora un simulateur de monde.
Bref, Sora promet une grande révolution dans le domaine de l’IA vidéo générative qui pourrait potentiellement profiter à toutes les personnes travaillant dans ce secteur ou, au contraire, les inquiéter.
Quels sont les risques d’une telle technologie ?
Cependant, de telles technologies suscitent toujours des interrogations, même si OpenAI la présente comme un modèle de simulation du monde physique, mais pas un système de remplacement quelconque. Le risque se situe toujours au niveau des données d’entraînement utilisées par l’intelligence artificielle, mais aussi au niveau de la finalité d’utilisation de la vidéo une fois créée.
En effet, une intelligence artificielle se base sur des données existantes qui peuvent appartenir à des gens. La question de la protection de la vie privée et des données personnelles revient ainsi sur la table. De même, les deep fake et les fausses informations peuvent davantage circuler, ce qui peut être hautement nuisible.
D’un côté, des dispositions à l’instar de l’IA Act adopté par l’Union européenne, visent à prévenir ce genre de situation. Et d’un autre côté, OpenAI se dit être prudent et pense déjà à renforcer la sécurité de Sora contre les potentielles utilisations abusives.