World models : Alibaba, Li Fei-Fei et Tencent accélèrent la nouvelle vague IA

La bataille pour les world models s’intensifie. Alibaba dévoile Happy Oyster, un modèle capable de générer des mondes virtuels en temps réel. Li Fei-Fei et World Labs lancent Spark 2.0, un moteur de rendu 3D open source conçu pour fonctionner sur smartphone. Tencent avance avec HY-World 2.0, orienté création d’actifs 3D pour le jeu vidéo. Derrière ces annonces, un même mouvement : l’IA sort du texte pour s’attaquer à la compréhension du monde physique.

World models : de quoi parle-t-on ?

Les world models cherchent à étendre l’IA au-delà du langage. L’idée : apprendre à partir de la réalité visuelle et sonore, la comprendre, l’anticiper. Une ambition différente de celle des modèles centrés sur le texte, qui dominent encore largement la recherche et les usages.

Yann LeCun a prédit que les world models deviendraient le prochain grand axe de l’IA. Plusieurs entreprises se positionnent déjà pour capter cet avantage, tant sur le plan technique que commercial.

Chiffres clés

Happy Oyster : génération de vidéos jusqu’à 3 minutes en continu
Spark 2.0 : diffusion de plus de 100 millions de splats sur n’importe quel appareil
Happy Oyster traite quatre modalités : texte, image, vidéo et audio
Happy Oyster propose deux modes de création : direction et errance
World Labs cofondée début 2024 par Li Fei-Fei

Contexte

Les modèles de langage dominent l’IA aujourd’hui, mais leurs limites face au monde physique deviennent de plus en plus visibles.
Les world models représentent le prochain front de l’innovation : ils apprennent à partir d’images, de sons et de vidéos, pas seulement de texte.
Alibaba, Tencent et World Labs misent sur la 3D en temps réel comme terrain d’application prioritaire.

Smartphone affichant une scène 3D détaillée en streaming — Spark 2.0 vise un rendu 3D massif jusque sur smartphone. *(image générée avec IA Gemini)*

Happy Oyster d’Alibaba : des mondes virtuels qui évoluent en continu

Alibaba a présenté Happy Oyster, un world model ouvert conçu pour créer et faire évoluer des mondes virtuels sans interruption. Là où un outil vidéo classique produit un clip fixe de quelques secondes, Happy Oyster génère des séquences allant jusqu’à trois minutes, tout en restant réactif aux consignes pendant la génération.

Le modèle propose deux façons de travailler. Un mode « direction », pour construire un monde à partir d’instructions texte et image. Un mode « errance », pour l’explorer librement. Dans une démonstration, l’utilisateur tape « black crows fly past » et voit aussitôt un vol de corbeaux apparaître. Il peut aussi demander à des personnages de se parler.

Techniquement, Happy Oyster repose sur une architecture multimodale native : il traite et génère du texte, de l’image, de la vidéo et de l’audio. Alibaba cible en priorité la production audiovisuelle en temps réel. Le modèle est pour l’instant accessible en accès limité sur invitation via Alibaba Token Hub, la plateforme qui regroupe ses initiatives IA.

Spark 2.0 de Li Fei-Fei : le rendu 3D à portée de smartphone

World Labs, cofondée par Li Fei-Fei début 2024 à San Francisco, publie Spark 2.0, un moteur de rendu open source basé sur le 3D Gaussian splatting. Cette technique reconstruit des scènes à partir d’images en les décomposant en petits éléments lumineux – ce qui permet une visualisation réaliste en temps réel sans calcul massif.

World Labs affirme que Spark 2.0 consomme nettement moins de puissance de calcul que les rendus Gaussian splat traditionnels. Des appareils grand public, smartphones inclus, peuvent ainsi afficher de vastes scènes 3D très détaillées. Li Fei-Fei indique que « Spark 2.0 peut désormais diffuser plus de 100 millions de splats sur n’importe quel appareil ». Elle se dit fière de contribuer à l’open source pour le rendu 3D sur le web.

Tencent HY-World 2.0 : des actifs 3D générés depuis une ligne de texte

Tencent a présenté HY-World 2.0, un modèle 3D open source centré sur la production d’actifs pour le jeu vidéo. Sa promesse : générer des éléments 3D directement exploitables dans les pipelines de création, à partir de simples instructions textuelles. L’objectif est double – raccourcir la chaîne de production et élargir l’accès à des outils de conception avancés.

Un virage stratégique pour l’écosystème chinois

Pris ensemble, ces lancements racontent la même histoire. Les acteurs chinois et World Labs déplacent le curseur de l’IA : de la prédiction de texte vers la modélisation d’environnements complexes et l’interaction avec eux. Les gains visés sont concrets – création plus fluide de mondes virtuels, réduction de la puissance de calcul nécessaire, accès élargi à la 3D sur appareils ordinaires.

Pour Alibaba, Happy Oyster ouvre la voie à la production audiovisuelle en temps réel. Pour Tencent, HY-World 2.0 promet d’accélérer la création de contenu 3D dans le jeu. Du côté de Li Fei-Fei, Spark 2.0 fait entrer le rendu 3D massif dans la poche de l’utilisateur, sans matériel haut de gamme. Des angles différents, une même trajectoire : rapprocher l’IA du monde physique.

Studio de création générant des actifs 3D à partir de texte — Avec HY-World 2.0, Tencent cible la création d’actifs 3D par texte. *(image générée avec IA Gemini)*

Ce que cela change pour les usages

La génération vidéo en continu permet d’enrichir un univers à la volée, sans relancer un rendu complet. Une consigne textuelle suffit pour faire évoluer la scène. Dans le jeu vidéo, obtenir des actifs 3D depuis une simple description accélère le prototypage. Et le rendu peu gourmand en calcul ouvre des expériences 3D sur mobile, jusqu’ici réservées aux PC et stations de travail.

À court terme, ces outils restent des briques technologiques. Happy Oyster n’est disponible qu’en accès limité. Mais leur combinaison esquisse une chaîne de valeur cohérente : création guidée, bibliothèque d’actifs génératifs, diffusion 3D performante sur appareils grand public.

Ce qu’il faut retenir

Happy Oyster génère des mondes vidéo jusqu’à 3 minutes, avec consignes modifiables en cours de génération.
Spark 2.0 diffuse plus de 100 millions de splats 3D, y compris sur smartphone.
HY-World 2.0 produit des actifs 3D pour le jeu vidéo à partir d’instructions textuelles.
Ces trois modèles illustrent un même virage : l’IA s’attaque désormais à la représentation du monde réel, pas seulement au traitement du langage.

Une nouvelle façon de représenter le réel

Les annonces d’Alibaba, de Li Fei-Fei et de Tencent pointent dans la même direction : générer, rendre et déployer des mondes virtuels denses sur des appareils ordinaires devient possible. La question qui suit est moins technique qu’économique – quels produits grand public naîtront de ces briques, et qui paiera pour la 3D en temps réel quand elle deviendra un usage quotidien ?

Et vous, quel usage concret imaginez-vous pour ces world models dans votre métier ou vos loisirs ? Partagez vos idées en commentaire.

Sources : South China Morning Post

(Les illustrations de cet article ont été générées avec Gemini)

Qu'est-ce qu'un world model en IA ?

Un world model apprend à représenter le monde physique au-delà du texte. Il traite et génère des informations visuelles et sonores, ce qui lui permet de comprendre et d’anticiper des environnements réels ou virtuels.

Que propose Happy Oyster d'Alibaba ?

Happy Oyster génère des mondes virtuels en continu, avec deux modes de création. Il accepte des consignes tout au long de la génération et produit des vidéos jusqu’à 3 minutes, en traitant texte, image, vidéo et audio.

Qu'apporte Spark 2.0 de Li Fei-Fei ?

Spark 2.0 est un moteur 3D open source basé sur le Gaussian splatting. Il consomme peu de ressources et peut diffuser plus de 100 millions de splats, y compris sur smartphone.

Que prépare Tencent avec HY-World 2.0 ?

HY-World 2.0 est un modèle 3D open source qui génère des actifs 3D pour la production de jeux vidéo à partir de simples instructions textuelles.

Intelligence artificielle