Meta Llama 4 — Draft

L’intelligence artificielle open source franchit un cap décisif avec l’arrivée de Meta Llama 4. Dévoilé le 5 avril 2025, cette nouvelle génération de modèles de langage marque un tournant dans l’IA multimodale accessible à tous. Meta ne se contente plus de rivaliser avec les giants closes comme GPT-4o ou Gemini : elle les dépasse sur plusieurs benchmarks majeurs, tout en proposant ses poids ouverts au téléchargement gratuit.

Llama 4 se compose de trois modèles distincts : Llama 4 Scout, Llama 4 Maverick, et Llama 4 Behemoth (actuellement en phase de perfectionnement). Une architecture Mixture-of-Experts novatrice permet à chaque modèle de n’activer qu’une fraction de ses paramètres lors de l’inférence, garantissant une efficacité computationnelle sans précédent.

Architecture Mixture-of-Experts : la clé de l’efficacité

La grande innovation de Llama 4 réside dans son architecture MoE (Mixture-of-Experts). Contrairement aux modèles denses traditionnels où chaque token active l’ensemble des paramètres, les modèles MoE de Llama 4 n’en activent qu’une fraction à chaque calcul. Concrètement, Llama 4 Maverick dispose de 17 milliards de paramètres actifs et 400 milliards de paramètres totaux, avec 128 experts routés. Seuls deux experts sont activés par token : un expert partagé et un expert routé. Cette approche permet de diviser drastiquement les coûts d’inférence tout en maintenant une qualité de modélisation exceptionnelle.

Robot humanoïde utilisant une tablette — illustration IA multimodale

Llama 4 Scout : 10 millions de tokens de contexte

Llama 4 Scout est le modèle compact de la gamme. Avec ses 17 milliards de paramètres actifs (16 experts, 109 milliards au total), il se distingue par une fenêtre de contexte hallucinante de 10 millions de tokens. C’est près de 80 fois plus que la fenêtre de 128K proposée par Llama 3, et c’est la plus grande du marché toutes catégories confondues.

Cette capacité de contexte record permet des cas d’usage révolutionnaires : synthèse de centaines de documents simultanément, raisonnement sur des bases de code entières, ou encore analyse de longues conversations. Scout est pré-entraîné et post-entraîné avec un contexte de 256K tokens, ce qui lui confère une capacité de généralisation sur la longueur parmi les meilleures du marché.

Son architecture iRoPE (interleaved RoPE) combine des couches d’attention alternées sans encastrement positionnel et un scaling de température à l’inférence pour des performances optimales sur de très longues séquences. L’objectif affiché par Meta est clair : tendre vers un contexte infini.

Llama 4 Maverick : le rapport qualité-prix imbattable

Llama 4 Maverick est le modèle polyvalent de la gamme. Ses 17 milliards de paramètres actifs (128 experts, 400 milliards au total) lui permettent de rivaliser avec des modèles beaucoup plus volumineux comme DeepSeek v3. Sur le benchmark LMArena, Maverick atteint un score ELO de 1417, le meilleur ratio performance/coût du marché.

En benchmarks, Maverick surpasse GPT-4o et Gemini 2.0 Flash sur le raisonnement, le coding, le multilinguisme, le contexte long et la compréhension d’images. Il se positionne au même niveau que DeepSeek v3 sur le coding et le raisonnement, pour moins de la moitié des paramètres actifs. Le modèle est servi sur un unique serveur NVIDIA H100 DGX, simplifiant considérablement son déploiement.

Llama 4 Behemoth : le modèle teacher qui surpasse GPT-4.5

Llama 4 Behemoth reste en cours d’entraînement, mais Meta en révèle déjà les capacités extraordinaires. Avec 288 milliards de paramètres actifs (16 experts, près de 2 000 milliards au total), c’est l’un des modèles les plus puissants jamais entraînés. Il surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur plusieurs benchmarks STEM (MATH-500, GPQA Diamond).

C’est lui qui a servi de teacher model pour la distillation des versions plus petites. La technique de codistillation développée par Meta utilise une fonction de perte propriétaire qui pondère dynamiquement les targets soft et hard pendant l’entraînement.

Multimodalité native : texte, image et vidéo fusionnés

Llama 4 est le premier modèle Llama à bénéficier d’une multimodalité native grâce à la technique d’early fusion. Les tokens de texte, d’image et de vidéo sont intégrés directement dans le backbone unifié du modèle, ce qui permet un entraînement joint sur d’énormes volumes de données non labellisées. Le encodeur visuel a été amélioré en s’appuyant sur MetaCLIP, mais entraîné séparément conjointement avec un Llama modèle figé pour une meilleure adaptation au LLM.

Circuit imprimé technologique avec traces lumineuses et puces

Le modèle a été pré-entraîné sur 30 billions de tokens, soit plus du double du mélange d’entraînement de Llama 3, incluant des datasets diversifiés de texte, d’images et de vidéo. La multimodalité native permet aussi des interactions sophistiquées sur des entrées multi-images avec des prompts texte, pour du raisonnement et de la compréhension visuels.

Pipeline d’entraînement : SFT léger, RL en ligne, et DPO

Meta a complètement revampé son pipeline de post-entraînement. La recette précédente utilisait un SFT (Supervised Fine-Tuning) massif, mais Meta a découvert que cette approche sur-contraint le modèle et limite l’exploration lors du RL en ligne. Le nouveau pipeline adopte une approche en trois étapes : SFT léger, RL en ligne continu, puis DPO léger.

Une découverte clé : supprimer plus de 50% des données labellisées comme faciles (avec Llama comme juge) avant le SFT améliore significativement les performances. Le RL en ligne continu alterne entre entraînement du modèle et utilisation de celui-ci pour filtrer et ne conserver que les prompts de difficulté moyenne à élevée.

Benchmarks : Maverick surpasse GPT-4o et Gemini 2.0 Flash

Sur une gamme large de benchmarks rapportés, Llama 4 Maverick dépasse GPT-4o et Gemini 2.0 Flash en raisonnement, coding, multilinguisme, contexte long et benchmarks d’images. Il est compétitif avec DeepSeek v3 (bien plus gros) sur coding et raisonnement. Llama 4 Scout bat Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 dans sa catégorie, tout en surpassant tous les modèles Llama de génération précédente.

Sécurité et biais : les améliorations de Llama Guard 4

Meta a accordé une attention particulière à la sécurité et à la réduction des biais. Llama 4 refuse moins de 2% des prompts sur des sujets politiques et sociaux débattus, contre 7% pour Llama 3.3. La proportion de refus inégaux est désormais inférieure à 1% sur un ensemble de questions topicales débattues.

Llama Guard (input/output safety), Prompt Guard (détection de jailbreaks et injections), et CyberSecEval sont proposés en open source pour permettre aux développeurs de personnaliser les garde-fous selon leur application.

Conclusion : une nouvelle ère pour l’IA open source

Meta Llama 4 représente un tournant historique pour l’intelligence artificielle open source. Avec des performances qui égalent ou dépassent les meilleurs modèles propriétaires sur une myriade de benchmarks, et une accessibilité totale via llama.com et Hugging Face, Llama 4 démocratise l’accès à une IA de classe mondiale. L’architecture MoE, la multimodalité native, et le pipeline de post-entraînement RL innovant positionnent Meta comme le leader incontesté de l’IA open source en 2025.

FAQ — Meta Llama 4

Quand Llama 4 a-t-il été lancé ?
Llama 4 Scout et Maverick ont été annoncés le 5 avril 2025 par Meta AI.

Combien de paramètres ont les modèles Llama 4 ?
Llama 4 Scout : 17 milliards actifs / 109 milliards totaux. Maverick : 17 milliards actifs / 400 milliards totaux. Behemoth : 288 milliards actifs / près de 2 000 milliards totaux.

Quelle est la fenêtre de contexte de Llama 4 Scout ?
10 millions de tokens, la plus grande du marché toutes catégories confondues.

Llama 4 est-il multimodal ?
Oui, c’est le premier modèle Llama à supporter texte, image et vidéo en entrée de manière native via early fusion.

Combien coûte l’utilisation de Llama 4 ?
Llama 4 Scout et Maverick sont entièrement gratuits, avec leurs poids ouverts téléchargeables sur llama.com et Hugging Face.

Quelles sont les principales innovations par rapport à Llama 3 ?
Architecture MoE, multimodalité native, pipeline RL en ligne continu, fenêtre de contexte jusqu’à 10 millions de tokens, et architecture iRoPE.

Sur quels benchmarks Llama 4 Maverick dépasse-t-il GPT-4o ?
Raisonnement, coding, multilinguisme, longues contextes, et compréhension d’images — selon les benchmarks rapportés par Meta AI.

Peut-on héberger Llama 4 sur son propre serveur ?
Oui. Llama 4 Maverick fonctionne sur un unique serveur NVIDIA H100 DGX. Scout tient sur un H100 avec quantification Int4.

Qu’est-ce que la technologie iRoPE ?
iRoPE combine des couches d’attention alternées sans positional embeddings et un scaling de température à l’inférence pour une meilleure généralisation sur les longues séquences.

Quand sort Llama 4 Behemoth ?
Behemoth est encore en cours d’entraînement. Meta prévoit de le publier une fois finalisé.

Sources : Meta AI Blog — The Llama 4 Herd, TechCrunch, llama.com