By Vince Liu
24 SEP 2025
近期,Google開始將其TPU用不同的方式釋放到市場上。
Google和Fluidstack、Terawulf簽了一個三方協議,將會將其TPU直接租用給Fluidstack 。
這樣從雲端服務到直供客戶的改變,是否表示以NVIDIA GPU為主導的AI晶片市場,將會開始受到TPU的強力挑戰?
一直以來,Google的TPU (ASIC設計) 都是其內部使用,或是透過Google Cloud租用給用戶,沒有在賣硬體給客戶。但是,近期Google和Fluidstack、Terawulf簽了一個三方協議,將會將其TPU直接租用給Fluidstack (只差沒有賣斷)。
這是否表示Google延伸了其很大部分自用的TPU,開始提供終端客戶TPU硬體?而Google的TPU,是少數在算力效能上能和NVIDIA GPU競爭的AI晶片。這樣的策略變化,是否表示以NVIDIA GPU為主導的AI晶片市場,將會開始受到TPU的強力挑戰?
Google TPU進入市場後,接下來幾年,AI晶片的市場會有什麼樣的變化?GPU的地位會不會受到挑戰?
圖1. Google供應 TPU給Fluidstack
首先,先來聊一下TPU是怎麼來的。
在2012年後,深度學習快速起飛,模型越來越大、計算量暴增。傳統 CPU 擅長通用運算、但在神經網路這種「大量矩陣乘法與向量加法」的重複任務上效率不高;GPU 雖然平行度高,但其設計仍需兼顧圖形與廣泛應用。Google 為了讓搜尋、語音、翻譯等服務在「成本、能效、延遲」三者間取得更好平衡,選擇自研一款專做機器學習的加速器——這就是 TPU(Tensor Processing Unit)。
TPU v1(推論優先):第一代 TPU 鎖定「推論」場景,把大量算力堆在定點/低精度矩陣運算上,追求低延遲、低功耗,讓已訓練好的模型在產品線上跑得快、跑得省。
TPU v2 - v7(走向訓練&雲端規模):後續世代加入「訓練」能力,支援更彈性的數值格式與更高的記憶體/頻寬,我們可以從並透過高速互連把許多 TPU 晶片串成Pod/超級電腦,讓大型模型能在分散式環境下協同訓練。(見圖2~圖7)
系統化思維:TPU 不只是一顆晶片,而是軟硬整合:包含為矩陣運算最佳化的核心(如 systolic array)、高帶寬記憶體、低延遲互連、疊代升級的機櫃與資料中心網路,以及 XLA 等編譯器與 TensorFlow/JAX 的軟體棧,形成「從模型到矽晶」一路暢通的交付鏈。
精度與效率共進:隨應用多元,TPU 逐步支援多種數值型別(如 bfloat16 等),在準確度與能效間取得實務最佳點;同時強化容錯與排程,讓大規模集群更穩定。
圖2. TPU的演進
圖3. TPU v1
圖4. TPU v2/v3
圖5. TPU Interconnect
圖6. TPU v4
圖7. TPU v7
TPU 原本只是 Google 內部為自家產品提效的工具;但當大語言模型、生成式 AI 成為新基礎設施,「可預期、可擴展、可負擔」的算力就變成關鍵門檻。TPU 以雲端規模、軟硬協同與高能效見長,使 Google 能在自家服務與雲端客戶上同步釋放算力,並透過世代升級建立長期競爭力。如今,誰掌握到足夠可靠且高效的加速器與資料中心能力,誰就能更快訓練、更快上線、更快迭代模型——TPU 因而從內部應用,升級為 AI 經濟中的戰略級算力資產。
相對於通用型、為各種工作設計的 GPU,Google TPU是「為深度學習而生」的專用晶片。
它把最常用的矩陣乘加做成一整座「硬體流水線」(systolic array),搭配貼身的大容量快取與 HBM,資料走更短、效率更高;再用bfloat16/FP8等適合訓練與推論的精度,做到「同樣效果、用更少電」。
同時,TPU 的XLA 編譯器會自動把模型切分與排程,讓上千顆 TPU 在Pod內像一台大電腦一樣穩定擴充、可預期地提速。
簡單說:TPU 在大模型訓練與高併發推論上更省電、更穩定、擴充更順;GPU 功能更廣,但在這些特定工作上,TPU 常能以更高的效率取勝。
如果你仔細比較GPU和TPU,你會發現,GPU的發展,完全是一個不一樣的路徑。
GPU的發展,是從圖形運算延伸到平行運算。因此,GPU一開始是為了圖形運算而設計,而為了增加效能,開始平行運算技術的演進。
但如果你仔細比較GPU和TPU的結構,你會發現,GPU在2017年加入Tensor Core的結構,和Google TPU的矩陣運算單元是類似的結構 (以Systolic Array的形態實現在晶片裡)。不過,GPU的矩陣運算單元較小。
所以,在特性上,GPU也擁有像TPU一樣的矩陣運算加速能力,但是,GPU選擇性的讓其運算更有彈性,可以符合更多場景,但是,相對TPU來說,犧牲的就是更強的矩陣運算能力。
不過,這樣的特性,你知我知,Jensen Huang也知。因此,NVIDIA策略性的用軟體來彌補硬體運算速度上的不足 (CUDA & Dynamo),使得GPU變得有高算力,同時可以彈性的符合各種不同運算場景。
因此,兩種晶片各擅勝場。GPU更擅長處理運算和記憶體需求變化比較大的場景,而 TPU更適合大規模、穩定、固定類型的矩陣運算。
圖8. Google TPU vs. NVIDIA GPU
圖9. Systolic Array
一、從內部使用到外部販售:由「賣算力」走向「(準)賣硬體」
1) 內部自用階段(2016 起)
TPU v1 問世時,完全用於 Google 內部工作負載(如 Search、Photos、Maps 與早期的 Transformer 模型),不對外提供;對外僅見學術/技術論述。此時 不販售算力、不販售硬體。
2) 雲端算力商品化(2018–2024)
Google 逐步把 TPU 納入 Google Cloud(託管型超算/超級電腦架構),對外以 「租用算力」 為核心商業模式;客戶透過 Cloud API、Kubernetes 等取得 TPU Pod(v3/v4/v5e/v5p)資源。2024-05 公告第六代 Trillium(俗稱 TPU v6),並於 2024-10 開放 Preview、2024-12 陸續 GA,仍是以 雲端付費使用(賣算力) 為主。
3) 「外部部署」與「第三方資料中心」階段(2025)
2025 年下半年多家媒體與研究機構報導:Google 正 在第三方資料中心/較小型雲商部署 TPU,並對 其他雲服務供應商(CSP) 釋出使用權,傳出個案包含 Fluidstack 等;此舉使供應模式從純粹的「雲端租用算力」擴張為 「由 Google 供裝、第三方代管或合作銷售的外部部署」。雖然 「直接賣裸晶/卡/機櫃」的傳統硬體銷售 仍未見 Google 正式公開對外價目,但外電普遍以「對外提供/外部上架」描述,實務上已接近 「準硬體供應」(提供整櫃/整 Pod 能力、長約保證、資本性承諾),本質上是 由賣算力 → 擴張到賣(或準賣)硬體能力 的過渡。
4) 產品線與場景延伸:推進至推論型與大規模叢集
2025-04 Google公開 Ironwood(第七代 TPU),主打推論效率與超大規模叢集(單 Pod 可到 9,216 顆);這種以推論/服務為核心的設計,更適合在 合作的第三方節點 大量鋪設,提高外部採用的可行性(機櫃化、整機櫃交付/代管)
二、以擴大市場為主,不以「與對手硬拼」為主策略
1) 擴大可服務市場(TAM)的邏輯
Google 的對外訊號並非要「正面取代 GPU 生態」,而是透過 把 TPU 帶到更多雲商與第三方機房,降低改用/混用 TPU 的摩擦(地理覆蓋、供應彈性、財務條件),先擴大 TPU 的可近用性與開發者基數。有報導指稱 Google 為推動採用,提供 規模化承諾/保證額度 與合作誘因,以降低夥伴的建置風險。
2) 合作式擴散,而非零和競逐
多篇報導把 2025 年的動作定調為:
- 讓其他 CSP 也上 TPU(非只限於 Google 自家雲),形成 多點布建/多邊合作;
- 與大型 AI 客戶/競品並存(例如市場所傳與 OpenAI 的雲端租用測試與澄清動態),反映策略是 擴散與滲透,而非單一戰場的正面對決。
3) 產品與商務策略相互呼應
Trillium 與 Ironwood 分別強化 訓練/推論效能與能效,同時維持 雲端可用、API 相容、叢集化 的供應方式;當 Google 把同一套技術「搬到他人機房/雲商」時,客戶轉移成本更低,促進 擴市(而不是要求客戶「棄用 GPU」)。
圖10. Google TPU的運算量增長
所以總結來說,TPU經過十年的發展,已經從服務Google內部應用運算誕生的特殊硬體,發展成能夠讓外部AI開發商使用的「算力引擎」。
TPU因為有基於矩陣運算優化的大Systolic Array設計,而在超大 LLM 預訓練、大規模推薦系統推理......等需要大規模矩陣運算的場景下具有優勢。
從Google內部的數據來看,透過Google服務產生的Inference Tokens數量在1年內暴增50倍,而這些應該都是由Google TPU來服務的。
雖然我們沒有辦法確認Google目前TPU確切的數量,但是我們可以很肯定這個數量是在大幅增加的。
因此,加上前面的資訊,我們現在已經可以看到TPU在大幅拓展,可以透過Google Cloud,甚至是直接部屬在客戶資料中心的方式,來提供AI算力。
雖然說主流AI資料中心運算大部分還是以GPU為主,不過,TPU的外溢效應已經出現,在前述某些較適合TPU運算的場景,有機會在一定的比例上導入TPU。
GPU仍然是適合用來作快速開發,而且NVIDIA大量投入下一代晶片的研發&CUDA軟體加速優勢,仍然讓GPU會主導很大一塊的市場。並且,NVIDIA的生態系策略 (開發者社群、投資Coreweave、Intel & OpenAI……) 也讓GPU能綁定很大的生態系。但是,在特性上更適合使用TPU的應用,加上Google Cloud和市場合作的生態系擴張策略,有機會讓Google TPU吃下一定比例的市場。
所以總結來說,Google TPU的發展,象徵AI晶片市場已經進入了下一個階段,在GPU幾乎獨佔的市場格局下,ASIC晶片有機會挑戰GPU達成一定比例的市場佔比。而這象徵著,是接下來的市場格局,會是幾種不同特性的AI晶片,依據其特性而各自服務一部分市場的「混合生態系」格局。