En 2026, Les nouvelles puces TPU de Google sont optimisées pour le raisonnement et l'IA agentique, permettant une inférence rapide et une réduction du TCO grâce à l'OCS.
L'industrie de l'IA traverse une phase de cristallisation matérielle. Si 2023 et 2024 ont été les années de l'omniprésence du GPU (Graphics Processing Unit), 2026 marque le retour triomphal de l'ASIC (Application-Specific Integrated Circuit) au sommet de la pile technologique. Pour nous, ce n'est pas une surprise. Dès 2019, avec notre prototype Warhol, nous expérimentions déjà les limites et les vertus de ces puces dédiées.
▶️ Project Warhol: The Ultimate Edge Computing AI Prototype for Cooking & Wine Pairing
La spécialisation: une voie logique, mais non linéaire
Il serait tentant de voir l'ASIC comme l'aboutissement inéluctable de toute technologie de calcul. L'analogie avec le minage de Bitcoin est frappante : le passage du CPU au GPU, puis à l'ASIC, a permis des gains d'efficacité de l'ordre de 103 en termes de hash/watt.
Cependant, contrairement au Bitcoin où l'algorithme (SHA-256) est immuable, l'IA est une cible mouvante. Le passage au silicium spécialisé comporte des risques majeurs :
- La rigidité architecturale : Un TPU est optimisé pour les multiplications de matrices à grande échelle. Si demain une architecture radicalement différente des Transformers (comme les State Space Models ou les Liquid Neural Networks) s'impose, une partie de l'avantage matériel pourrait s'évaporer.
- Le fossé logiciel : Là où NVIDIA a bâti un fossé infranchissable avec CUDA, les puces spécialisées imposent souvent des chaînes de compilation plus complexes (XLA, MLIR).
Flashback 2019: quand Smile misait sur l’Edge TPU
Quand nous avons conçu Warhol en 2019, le choix du Google Coral Edge TPU n'était pas dicté par une simple question de coût. Il répondait à deux impératifs stratégiques qui, sept ans plus tard, restent au cœur des préoccupations industrielles :
- Le dogme de la confidentialité (Edge-First) : Notre volonté était de traiter l'intégralité du flux vidéo et audio en local. À une époque où "l'IA Cloud" était la norme, Warhol prouvait qu'on pouvait offrir une expérience fluide sans jamais exfiltrer de données biométriques ou comportementales vers des serveurs tiers.
- La résilience opérationnelle en "milieu hostile" : Warhol était destiné à des salons professionnels et à une utilisation sur le terrain. Quiconque a tenté de faire une démo d'IA gourmande en bande passante sur le Wi-Fi d'un salon sait que c'est une recette pour l'échec. L'inférence locale garantie par le TPU Coral nous offrait une latence sub-20ms, indépendamment de toute infrastructure réseau.
Le paysage 2026: NVIDIA Vera Rubin vs Google Ironwood
Le CES 2026 vient de confirmer la nouvelle donne. NVIDIA, avec sa plateforme Vera Rubin, ne se contente plus de vendre des puces, mais des "supercalculateurs en rack" (NVL72) capables d'une inférence 10x moins coûteuse que la génération Blackwell. NVIDIA pivote massivement vers la "Physical AI" (robotique et simulation) avec son modèle Cosmos.
Face à cela, Google ne cherche pas à battre NVIDIA sur le terrain de la polyvalence, mais sur celui de l'Hypercomputing vertical.
- Trillium (TPU v6) et Ironwood (TPU v7) : Ces puces sont les premières à intégrer nativement des optimisations pour l'IA Agentique. Contrairement aux puces classiques, elles sont conçues pour gérer des boucles de rétroaction rapides et des capacités de raisonnement multi-étapes.
- L'avantage TCO : Pour des acteurs comme Anthropic, le coût total de possession (TCO) d'un cluster TPU v7 est estimé à 30 % de moins qu'une infrastructure équivalente sous NVIDIA, grâce à l'utilisation de l'Optical Circuit Switch (OCS) qui permet une topologie réseau ultra-flexible.
Durabilité: Google a‑t‑il anticipé l’e‑waste?
Le risque de transformer des millions de puces en briques électroniques est réel. Pour 2025/2026, Google infléchi sa stratégie:
- Circularité des datacenters: plus de 8,8 millions de composants récupérés en 2024 via la reverse supply chain pour réutilisation ou revente.
- Coral NPU et RISC‑V: la nouvelle Coral NPU (successeur de l’Edge TPU) repose sur RISC‑V. L’ouverture des spécifications accroît la modularité: le silicium n’est plus une boîte noire jetable, mais un bloc réintégrable par d’autres fondeurs.
Expérience de pensée: Warhol v2.0
Si nous devions mettre à jour Warhol aujourd'hui, le "re-use" serait notre maître-mot. Notre clé Coral de 2019 n'est d'ailleurs pas un déchet : elle fonctionne toujours parfaitement pour des tâches de vision "bas niveau" (détection de présence, segmentation d'objets).
En 2026, nous imaginerions une architecture asymétrique:
- La Coral 2019 conserverait son rôle de sentinelle (basse consommation, réveil du système).
- Une nouvelle Coral NPU basée sur RISC-V gérerait un modèle de langage local (type Gemini Nano) pour transformer la borne en un véritable agent capable de raisonner : "Je vois que tu as des tomates et du basilic, mais ton fromage est périmé de deux jours, devrais-je ajuster la recette ?"
- Gemini Nano remplace feu Snips (racheté par Sonos puis retiré), pour une voix plus fluide et contextuelle.
Conclusion: maturité de l'efficacité
Le retour des TPU n’est pas un cycle marketing. Il signale la transition de l’IA hors de l’ère expérimentale vers l’ingénierie de précision. Warhol, en 2019, était précurseur. En 2026, la spécialisation du silicium s’impose comme un chemin viable pour une IA performante, souveraine et enfin économiquement responsable.