Qu’est-ce que le NVIDIA B300 Blackwell Ultra ?
NVIDIA a officiellement lancé la gamme Blackwell Ultra (officiellement nommée série B300) en janvier 2026, marquant une nouvelle étape dans l’évolution des processeurs graphiques dédiés à l’intelligence artificielle. Le B300 constitue le cœur compute de cette architecture et représente le GPU monolithique le plus puissant jamais conçu par NVIDIA à ce jour.
Contrairement à son prédécesseur le B200 qui visait principalement l’entraînement des grands modèles de langage, le Blackwell Ultra B300 est spécifiquement optimisé pour l’inférence — c’est-à-dire la phase où un modèle d’IA déjà entraîné génère des réponses en production. Cette orientation vers le raisonnement (« reasoning ») reflète l’émergence d’une nouvelle classe de workloads : les modèles qui « réfléchissent » avant de répondre, comme OpenAI o3/o4 et DeepSeek R1.
Spécifications techniques du B300
Le GPU B300 repose sur le même process TSMC 4N que le B100, mais avec des améliorations substantielles qui justifient le suffixe « Ultra » :
- Compute FP4 dense : 15 pétaFLOPS (soit 50 % de plus que les 10 PFLOPS du B200)
- Mémoire HBM3e : 288 Go par GPU (contre 192 Go sur le B200), offrant une bande passante mémoire de 8 To/s
- Format NVFP4 : une nouvelle précision numérique réduite qui divise par 1,8x l’empreinte mémoire des modèles tout en conservant une qualité de sortie acceptable pour l’inférence
- Tensor Cores de 5e génération avec accélération 2× pour les couches d’attention des modèles de langage
- TDP : 1 200 watts (refroidissement liquide obligatoire)
Ces spécifications placent le B300 dans une catégorie à part : c’est le premier GPU grand public (pour les centres de données) à dépasser le cap des 10 PFLOPS en FP4, et le premier à intégrer plus de 200 Go de mémoire HBM sur une puce monolithique — un record historique pour un GPU unique.

Photo : Unsplash — Circuit board semiconductor (Libre de droits)
Le système NVIDIA DGX B300 et la configuration NVL72
NVIDIA ne commercialise pas le B300 en tant que carte graphique individuelle pour les centres de données. Le GPU est proposé via des systèmes intégrés.
Le DGX B300 est un système monoboîtier regroupant 8 GPU B300 interconnectés via NVLink-C2C (900 Go/s de bande passante entre GPU). Chaque système délivre 120 PFLOPS FP4 et totalise 2,3 To de mémoire HBM3e partagée. C’est l’unité de base pour les laboratoires de Recherche et les grandes entreprises qui hébergent des modèles open source comme Llama 4 ou Mistral.
Pour les déploiements à très grande échelle, NVIDIA propose le GB300 NVL72 : une armoire complète intégrant 72 GPU B300 et 36 CPU NVIDIA Grace, le tout refroidi par liquide. Ce système rack-scale délivre 1 exaFLOPS FP4 — l’équivalent de 1 000 pétaFLOPS — dans un seul rack. Selon NVIDIA, ce niveau de performance permet de faire tourner des modèles de 100 billions de paramètres entièrement en mémoire, sans aucun swapping.

Photo : Unsplash — Data center server room (Libre de droits)
L’ère du raisonnement IA : pourquoi le B300 change la donne
La différence fondamentale entre le B200 et le B300 ne réside pas uniquement dans les chiffres bruts — elle se situe dans le changement de paradigme qu’il permet. Avec l’émergence des modèles de raisonnement (chain-of-thought étendu, test-time compute scaling), les workloads d’inférence sont devenus considérablement plus coûteux en calcul qu’avant.
Un modèle comme OpenAI o3, qui peut « penser » pendant plusieurs minutes avant de produire une réponse finale, consomme 10 à 100× plus de compute qu’une requête classique de type GPT-4. Le B300, avec sa mémoire massive et son format NVFP4 ultra-efficace, est conçu précisément pour absorber cette explosion des coûts d’inférence.
NVIDIA a identifié trois marchés cibles pour le B300 :
- Agents IA autonomes : des systèmes comme OpenAI Operator ou Claude Agent qui enchaînent des centaines d’étapes de raisonnement
- Reasoning models : DeepSeek R1, OpenAI o3/o4-mini, Gemini Flash Thinking
- Multimodaux temps réel : vidéo en continu, robotique, réalité augmentée via des modèles de vision-langage
Comparatif B300 vs B200 vs H200
| Spécification | B300 (Blackwell Ultra) | B200 | H200 |
|---|---|---|---|
| Date de lancement | Janvier 2026 | 2024 | 2024 |
| Compute FP4 dense | 15 PFLOPS | 10 PFLOPS | — |
| Mémoire HBM | 288 Go HBM3e | 192 Go HBM3e | 80 Go HBM3e |
| Bande passante mémoire | 8 To/s | 8 To/s | 4,8 To/s |
| TDP | 1 200 W | 1 000 W | 700 W |
| Refroidissement | Liquide obligatoire | Liquide | Air |
| Focus principal | Inférence raisonnement | Entraînement | Inférence |
Prix et disponibilité
Les systèmes DGX B300 sont disponibles à la commande depuis mars 2026, avec des livraisons débutées en avril 2026 pour les clients enterprise. Les prix ne sont pas publiquement dévoilés — ils se situent probablement dans la fourchette de 300 000 à 500 000 dollars par système DGX B300, et plusieurs millions pour une configuration NVL72 complète.
Les grands cloud providers (AWS, Microsoft Azure, Google Cloud) ont déjà annoncé des instances basées sur le B300 pour le deuxième trimestre 2026, avec des tarifs horaires probablement similaires à ceux des instances H100/H200 actuelles — soit environ 30 à 40 $/heure pour un accès GPU partagé.
Quel impact sur le marché des GPU IA grand public ?
Pour le grand public et les passionnés de technologie, le B300 peut sembler lointain — il ne sera jamais disponible dans un PC gamer. Cependant, son impact sera perceptible indirectement :
- Les modèles open source comme Llama 4, Mistral ou QwQ deviendront plus capables, car leur entraînement profitera des avancées du B300
- Les services IA cloud (ChatGPT, Claude, Gemini) gagneraient en performance grâce à l’infrastructure B300 sous-jacente
- Le marché du GPU gaming RTX 50 reste séparé — le B300 ne concerne que les centres de données

Photo : Unsplash — Semiconductor circuit board (Libre de droits)
Conclusion
Le NVIDIA B300 Blackwell Ultra ne se contente pas d’améliorer les performances de son prédécesseur — il redéfinit le cahier des charges pour l’inférence des modèles de raisonnement. Avec 15 PFLOPS FP4, 288 Go de mémoire HBM3e et une architecture pensée pour le test-time compute, le B300 est le GPU le mieux adapté à la nouvelle génération de workloads IA qui « réfléchissent » avant de répondre.
Dans un contexte où l’intelligence artificielle évolue des modèles statiques vers des agents autonomes capables d’enchaîner des tâches complexes, le B300 arrive au bon moment pour démocratiser — en centres de données — des capacités qui semblaient réservées à la science-fiction il y a encore deux ans.
Questions fréquentes
Quelle est la différence entre le B300 et le B200 ?
Le B300 (Blackwell Ultra) apporte 50 % de compute FP4 supplémentaire (15 vs 10 PFLOPS), 288 Go de mémoire HBM3e contre 192 Go, et le nouveau format NVFP4 qui réduit l’empreinte mémoire des modèles. Il est aussi spécifiquement optimisé pour l’inférence de modèles de raisonnement.
Le B300 est-il disponible pour les particuliers ?
Non. Le B300 est exclusif aux systèmes centre de données NVIDIA (DGX B300, GB300 NVL72). Il n’existe pas de version grand public type RTX. Les passionnés peuvent accéder à cette puissance via les cloud providers (AWS, Azure, GCP) au second trimestre 2026.
Qu’est-ce que le format NVFP4 ?
Le NVFP4 est un nouveau format de précision numérique développé par NVIDIA. En utilisant uniquement 4 bits pour représenter les nombres à virgule flottante (au lieu de 16 ou 32), il divise par 1,8× la mémoire nécessaire pour stocker les poids d’un modèle, tout en maintenant une précision suffisante pour l’inférence. C’est la clé qui permet au B300 d’héberger des modèles de 100B+ paramètres entièrement en mémoire.
Combien coûte un système DGX B300 ?
Les prix ne sont pas publics. Sur la base des grilles tarifaires H100/H200, un système DGX B300 (8 GPU) se situe probablement entre 300 000 et 500 000 $. Une configuration NVL72 complète (72 GPU) dépasse probablement les 2 millions de dollars.
Quand les instances cloud B300 seront-elles disponibles ?
AWS, Microsoft Azure et Google Cloud ont annoncé des instances B300 pour le deuxième trimestre 2026. Les tarifs horaires seront similaires à ceux des instances H100/H200 actuelles, soit environ 30-40 $/heure pour un accès GPU partagé.
