NVIDIA, en collaboration avec Google, a lancé aujourd’hui des optimisations sur toutes les plateformes d’IA NVIDIA pour Gemma, le nouveau modèle de langage ouvert et léger de Google, doté de 2 à 7 milliards de paramètres, qui peut être exécuté n’importe où, réduisant ainsi les coûts et accélérant les travaux innovants pour des cas d’utilisation spécifiques à un domaine.
Les équipes des deux entreprises ont travaillé en étroite collaboration pour accélérer les performances de Gemma, construites à partir des mêmes recherches et technologies utilisées pour créer les modèles Gemini, avec NVIDIA TensorRT-LLM, une bibliothèque open source pour l’optimisation de l’inférence des grands modèles de langage, lorsqu’ils sont exécutés sur des GPU NVIDIA dans le centre de données, dans le cloud et localement sur des stations de travail avec des GPU NVIDIA RTX ou des PC avec des GPU GeForce RTX. Cela permet aux développeurs de cibler la base installée de plus de 100 millions de GPU NVIDIA RTX disponibles dans les PC AI haute performance à l’échelle mondiale.
Découvrez Gemma 2B et Gemma 7B directement depuis votre navigateur sur le NVIDIA AI Playground. Gemma arrive sur Chat With RTX. L’ajout du support pour Gemma est prévu prochainement sur Chat with RTX, une démo technologique de NVIDIA qui utilise la génération augmentée par récupération et le logiciel TensorRT-LLM pour offrir aux utilisateurs des capacités d’IA générative sur leurs PC Windows locaux alimentés par RTX.
Chat with RTX permet aux utilisateurs de personnaliser un chatbot avec leurs propres données en connectant facilement des fichiers locaux sur un PC RTX à un grand modèle de langage. Étant donné que le modèle s’exécute localement, il fournit des résultats rapidement et les données de l’utilisateur restent sur l’appareil. Au lieu de s’appuyer sur des services LLM basés sur le cloud, Chat with RTX permet aux utilisateurs de traiter des données sensibles sur un PC local sans avoir besoin de les partager avec un tiers ou d’avoir une connexion Internet.