Type Here to Get Search Results !

Grok : l'IA générative d'Elon Musk peut désormais comprendre et analyser les images

 Dans une récente annonce, la société xAI d'Elon Musk a révélé que son système d'intelligence artificielle générative, Grok, avait atteint une nouvelle capacité : la compréhension et l'analyse d'images.


Dans un article de blog publié le 12 avril 2024, xAI a déclaré que la version 1.5V de Grok était désormais capable de traiter une grande variété d'informations visuelles, allant des documents aux diagrammes, en passant par les graphiques, les captures d'écran et les photographies. Cette nouvelle fonctionnalité sera bientôt disponible pour les testeurs précoces et les utilisateurs existants. Elle transforme Grok en un modèle d'IA multimodal, capable de prendre en charge différents types de données, tels que le texte et l'image.


En termes de performances, les développeurs de xAI affirment que Grok 1.5V surpasse ses concurrents dans leur nouveau benchmark RealWorldQA, qui évalue la compréhension spatiale dans le monde réel. Ce benchmark teste différents modèles d'IA sur plus de 700 images en leur posant des questions dont la réponse est facilement vérifiable pour chaque image. Par exemple, Grok peut répondre à des questions telles que "Quel objet est le plus grand : le coupe-pizza ou les ciseaux ?" ou "Compte tenu de la vue de la caméra frontale de notre voiture, avons-nous suffisamment d'espace pour contourner la voiture grise qui nous précède ?".


Le tableau comparatif dévoile également les résultats supérieurs de Grok par rapport à la concurrence dans des tests tels que Mathivista, les mathématiques et TextVQA pour la lecture de texte.


Le billet de blog présente également divers exemples de la version 1.5V de Grok en action : transformer un diagramme en code Python, calculer les calories d'un produit en analysant l'étiquette nutritionnelle, créer une histoire basée sur un dessin d'enfant, expliquer un mème, convertir un tableau au format CSV, trouver une solution à une erreur dans du code Python, obtenir des informations sur l'état d'une terrasse, et bien plus encore.


Le billet de blog conclut en évoquant les prochaines avancées prévues par xAI pour le modèle d'IA Grok : l'amélioration de la compréhension multimodale et des capacités génératives. Dans les mois à venir, la société prévoit d'apporter des améliorations significatives à ces deux capacités, en exploitant diverses modalités telles que les images, l'audio et la vidéo.


Cette avancée de Grok dans la compréhension et l'analyse des images ouvre de nouvelles perspectives pour l'intelligence artificielle et pourrait avoir un impact significatif dans de nombreux domaines, tels que la reconnaissance d'objets, l'analyse d'images médicales, la détection de fraudes et bien d'autres encore. Le potentiel de Grok en tant qu'outil d'IA générative est prometteur et suscite de nombreuses attentes dans le domaine de l'intelligence artificielle.

Enregistrer un commentaire

0 Commentaires