Gemini : l’intelligence artificielle de Google pourrait aussi conduire des véhicules à votre place
Les modèles d’IA Gemini de Google peuvent déjà répondre à nos questions, nous aider à nous organiser, à rédiger des documents ou encore à coder des applications. Mais dans un avenir qui n’est pas si lointain, Gemini pourrait aussi… conduire des véhicules. En tout cas, c’est la nouvelle piste qui est explorée par Waymo, la filiale d’Alphabet (maison-mère de Google) spécialisée dans les véhicules autonomes et les robotaxis.
Aujourd’hui, Waymo est leader dans son domaine. La filiale d’Alphabet propose déjà un concurrent d’Uber qui exploite des voitures autonomes dans quelques villes américaines, et qui réalise plus de 150 000 courses par semaine. Et si Waymo est satisfait des technologies qu’il utilise actuellement, celui-ci explore désormais la possibilité d’améliorer ses véhicules autonomes en ayant recours à l’intelligence de Gemini.
Dans une récente publication, Waymo présente un article scientifique dans lequel il décrit une nouvelle technologie baptisée End-to-End Multimodal Model for Autonomous Driving. “Propulsé par Gemini, un grand modèle de langage multimodal développé par Google, EMMA utilise un modèle formé unifié de bout en bout pour générer les trajectoires futures des véhicules autonomes directement à partir des données des capteurs. Formée et optimisée spécifiquement pour la conduite autonome, EMMA exploite les vastes connaissances mondiales de Gemini pour mieux comprendre les scénarios complexes sur la route”, lit-on dans le communiqué de Waymo.
Pourquoi utiliser Gemini ?
L’approche actuelle de Waymo s’appuie sur plusieurs modules indépendants pour réaliser les différentes tâches de la conduite autonome. L’avantage de ce système est qu’il facilite le débogage et l’optimisation de chaque module séparément. Cependant, celui-ci a un problème d’évolutivité. Et ce système aurait du mal à s’adapter à de nouveaux environnements, car il est optimisé pour des scénarios ciblés.
L’utilisation des grands modèles de langage multimodaux (qui comprennent aussi bien les textes que les images) pourrait résoudre ce problème d’évolutivité. “En effet, les MLLM, en tant que modèles de base généralistes, excellent dans deux domaines clés : (1) ils sont formés sur de vastes ensembles de données à l’échelle d’Internet qui fournissent une riche « connaissance du monde » au-delà de ce qui est contenu dans les journaux de conduite courants, et (2) ils démontrent des capacités de raisonnement supérieures grâce à des techniques telles que le raisonnement en chaîne de pensée”, lit-on dans l’article de Waymo.
Des défis à relever
Mais pour le moment, bien que l’utilisation de l’intelligence artificielle générative sur les voitures autonomes a un énorme potentiel, Waymo estime qu’il y a encore d’importants défis à relever. Par exemple, le système EMMA imaginé par Waymo a encore des limitations au niveau de sa capacité à traiter les vidéos. De plus, celui-ci ne comprend encore que les images, mais pas les données provenant de capteurs plus complexes, comme les capteurs LiDAR.
“Bien qu’EMMA démontre des résultats prometteurs, elle en est encore à ses débuts avec des défis et des limites en matière de déploiement embarqué, de capacité de raisonnement spatial, d’interprétabilité et de simulation en boucle fermée. Malgré cela, nous pensons que nos découvertes EMMA inspireront de nouvelles recherches et progrès dans ce domaine”, indique l’article de Waymo.
- Gemini peut déjà résumer des e-mails, répondre aux questions ou encore générer du code informatique
- Mais celui-ci pourrait, plus tard, être utilisé par les systèmes de conduite des voitures autonomes
- Waymo, le spécialiste des robotaxis, a imaginé un nouveau système basé sur Gemini pour gérer la conduite autonome
- Mais pour le moment, les travaux n’en sont qu’à leurs débuts, car, si ce système présente un énorme potentiel, il a aussi d’importantes limitations qu’il faudra d’abord éliminer
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.