Google DeepMind vient de franchir un cap historique dans le domaine des modèles open-weight. Le tout nouveau Gemma 4 12B s’affranchit des architectures traditionnelles en supprimant les encodeurs dédiés à la vision et à l’audio. Une prouesse technique qui permet d’exécuter une IA multimodale complète et ultra-rapide directement sur du matériel grand public.
Les points clé à retenir
- Architecture unifiée : Disparition complète des encodeurs de vision et d’audio au profit d’une projection directe dans l’espace de tokens du LLM.
- Optimisé pour le local : Ses 12 milliards de paramètres s’intègrent parfaitement dans 16 Go de VRAM ou de mémoire unifiée.
- Performances majeures : Le modèle talonne la version 26B MoE avec des scores de 77,2 % sur MMLU Pro et 78,8 % sur GPQA Diamond.
- Open-source et accessible : Publié sous licence permissive Apache 2.0 avec un support natif pour Ollama, vLLM et llama.cpp.
L’architecture « Unified » : Comment Google supprime les encodeurs
Dans un modèle multimodal classique, des modules d’encodage distincts analysent les images ou les sons avant de transmettre ces représentations complexes au cœur du modèle de langage. Google renverse ce paradigme avec Gemma 4 12B en introduisant une architecture entièrement unifiée.
Le traitement d’image réduit à une simple matrice
Le modèle élimine complètement l’encodeur visuel traditionnel, qui nécessite habituellement entre 15 et 27 couches de transformateurs (Vision Transformer). À la place, Google intègre un module d’embedding ultra-léger de seulement 35 millions de paramètres.
Ce composant projette directement les patchs de pixels bruts de l’image dans l’espace de tokens du LLM via une unique multiplication matricielle, combinée à des encodages de position 2D factorisés.
L’audio intégré directement dans l’espace de tokens
Le traitement sonore suit exactement la même logique d’optimisation. Les formes d’ondes brutes de 16 kHz, découpées en fenêtres temporelles de 40 millisecondes, sont projetées directement dans le même espace dimensionnel que les tokens textuels.
En contournant l’étape de l’encodeur de reconnaissance vocale (souvent basé sur une architecture Conformer), Gemma 4 12B réduit considérablement la latence globale. Le LLM commence à traiter l’entrée instantanément, sans attendre la fin du pipeline d’un encodeur tiers.
Des performances de haut vol pour une empreinte mémoire réduite
Ce choix architectural ne se fait pas au détriment de l’efficacité, bien au contraire. Google annonce que cette version 12B approche de très près les performances de la déclinaison plus massive Gemma 4 26B MoE (Mixture of Experts), tout en divisant l’empreinte mémoire par plus de deux.
Sur les benchmarks de référence, Gemma 4 12B affiche une grande robustesse intellectuelle :
- 77,2 % sur MMLU Pro
- 78,8 % sur GPQA Diamond
Au-delà de la vitesse d’inférence, cette unification simplifie drastiquement la phase de fine-tuning pour les développeurs. Une unique passe LoRA (Low-Rank Adaptation) suffit désormais pour mettre à jour simultanément les poids textuels, visuels et audio du réseau.
Une intégration locale immédiate et une licence Apache 2.0
Lancée en avril avec des variantes allant du traitement sur appareil mobile (E2B, E4B) aux configurations denses (31B Dense), la famille Gemma 4 trouve son équilibre parfait avec ce modèle 12B. Fidèle à sa politique d’ouverture initiée au printemps, Google propose ce modèle sous une licence commerciale Apache 2.0 totalement permissive.
Gemma Chat et l’écosystème Mac en première ligne
L’intégration dans l’écosystème open-source est immédiate. Dès le premier jour, Gemma 4 12B est supporté par les outils incontournables de la communauté : vLLM, llama.cpp, Ollama, LM Studio, Unsloth et le framework MLX d’Apple.
Cette sortie s’accompagne d’ailleurs du déploiement de Gemma Chat, une application de bureau open-source basée sur Electron. Conçue spécifiquement pour macOS, elle exécute Gemma 4 localement sur les puces Apple Silicon via MLX. L’application propose un mode agent de code ainsi qu’une interface conversationnelle vocale alimentée par un traitement de texte-par-parole 100 % local. Vos données et vos prompts restent ainsi confinés en toute sécurité sur votre machine.
Résumé des caractéristiques techniques
- Format : Modèle open-weight de 12 milliards de paramètres.
- Révolution technique : Première architecture intermédiaire « encoder-free » fusionnant le texte, l’image et le son.
- Accessibilité matérielle : Conçu pour tourner sur les configurations grand public disposant de 16 Go de VRAM.
- Efficacité : Latence d’inférence réduite et processus de fine-tuning unifié (LoRA unique).
- Licence : Apache 2.0, autorisant les modifications et l’exploitation commerciale.
- Disponibilité : Intégration native dans Ollama, llama.cpp, vLLM et l’application locale Gemma Chat pour Mac.
Sources
- Google Blog – Gemma 4: Byte for byte, the most capable open models
- vLLM Recipes – Gemma 4 Usage Guide
- Maarten Grootendorst – A Visual Guide to Gemma 4 12B
Questions Fréquentes (FAQ)
Qu’est-ce qu’un modèle IA sans encodeur (encoder-free) ?
Un modèle sans encodeur supprime les couches de traitement dédiées à la vision ou à l’audio (comme les Vision Transformers). Il projette directement les pixels ou les ondes sonores bruts dans l’espace de tokens du modèle de langage (LLM), ce qui réduit la latence et simplifie l’architecture.
Quelle configuration matérielle faut-il pour faire tourner Gemma 4 12B ?
Le modèle Gemma 4 12B a été conçu pour s’intégrer dans 16 Go de VRAM ou de mémoire unifiée. Il fonctionne donc parfaitement en local sur du matériel informatique grand public, comme les Mac dotés de puces Apple Silicon ou des PC équipés de cartes graphiques standard.
Peut-on utiliser Gemma 4 12B à des fins commerciales ?
Oui, Google a publié Gemma 4 12B sous la licence Apache 2.0. C’est une licence open-source très permissive qui autorise l’utilisation, la modification et la distribution du modèle à des fins commerciales sans redevance.

