L’intelligence artificielle a occupé une place centrale lors de la conférence annuelle Google I/O, qui s’adresse aux développeurs. Entre autres, Google a présenté des mises à jour pour son intelligence artificielle Gemini et pour la recherche sur Internet. Cependant, l’entreprise a aussi souligné l’importance de la création visuelle : de nouveaux modèles pour générer des images et des vidéos ont été introduits, ainsi qu’une interface de création vidéo nommée Flow. Revue des diverses annonces.
Vo3 : générateur AI de vidéos avec son
Google, à contre-courant des pratiques courantes en Intelligence Artificielle, a récemment dévoilé une innovation originale qui ne puise pas ses inspirations dans le travail d’OpenAI. Le nouveau modèle de génération vidéo, Veo 3, intègre maintenant la prise en charge du son, offrant la possibilité de produire des bandes sonores personnalisées pour vos vidéos, en plus de créer des effets sonores et même des dialogues. Bien que la qualité de la fonctionnalité soit encore à prouver, les premiers cas d’utilisation divulgués lors de la conférence s’avèrent particulièrement encourageants. Ce développement pourrait constituer un jalon crucial dans le secteur de la génération vidéo, qui était jusqu’à présent restreint aux productions sans son.
Veo 3 excelle dans tous les domaines, qu’il s’agisse de texte ou d’image, de physique réelle ou de synchronisation labiale précise. Il est excellent pour la compréhension ; vous pouvez raconter une courte histoire dans votre message, et le modèle vous renvoie un clip qui lui donne vie.
Imagen 4 : nouveau generateur d'images AI
Avec l’introduction du modèle Imagen 4, la génération d’images de Google subit également une transformation. Parmi les améliorations :
- Un perfectionnement de la clarté, en particulier sur les détails subtils tels que les textures,
- Le modèle a la capacité de générer des images dans une diversité accrue de styles,
- Une option pour obtenir des images avec une résolution allant jusqu’à 2K,
- Des améliorations pour la typographie et l’orthographe,
Aujourd’hui, Imagen 4 est accessible via l’application Gemini, Whisk, Vertex AI ainsi que dans l’univers Workspace. Une version « 10 fois plus rapide » qu’Imagen 3 est aussi en cours de développement.









Flow : Un instrument de réalisation cinématographique basé sur l'IA, conçu pour Veo 3
Google a développé une nouvelle plateforme nommée Flow pour combiner les fonctionnalités de ses divers modèles, se présentant comme l’évolution de VideoFX. Destinée à la production cinématographique, cette solution est soutenue par Veo 3, Imagen 4 et Gemini. En pratique, Flow permet de spécifier des instructions précises pour la caméra (mouvements, angles, perspectives), d’ajuster ou d’élargir une scène du point de vue narratif et d’agencer ses requêtes dans l’interface. Un segment Flow TV sera dédié à l’exploration de contenu produit avec Veo par d’autres utilisateurs, comprenant les précisions sur les prompts, dont l’utilisateur pourra se servir comme source d’inspiration.
Grâce à l’association de divers modèles, Flow offre la possibilité de créer des extraits précis. On peut, par exemple, importer des images et entrer une invite pour les animer (voir l’image principale).
Toutefois, Google avertit que son outil en est encore à ses débuts. Afin de maximiser l’utilisation de Flow, l’entreprise a fait intervenir des vidéastes experts en intelligence artificielle. Les divers courts métrages exposés donnent un aperçu des possibilités de la plateforme, tout en mettant en évidence de multiples distorsions propres aux créations par intelligence artificielle.