一個GPU總需要一個CPU,但 CPU 的選擇已經不再單一,GPU 的功能也不再“簡單”,曾經穩固的關系,不再是單純的合作。
四月份,英偉達發布了采用 Arm 架構的首款數據中心 CPU Grace 引發廣泛關注。本月,外媒 Tomshardware 報道,像 CPU 一樣總需要一個 CPU 的谷歌自研視頻編解碼處理單元 Argos VCU,預計可以替換3000-4000萬個英特爾CPU。
依賴 CPU 的 GPU 和 VCU 為什么會有替代 CPU 的勢頭?芯片巨頭與互聯網巨頭間的競合關系,是如何加深的?
CPU 市場的雙重變化
回答 CPU 與其它依賴 CPU 處理器關系變化之前,不妨先了解 CPU 市場本身的變化。在很長一段時間,由于 CPU 的性能已經足夠滿足包括 PC 在內的各種應用需求,再加上內存和帶寬成為 CPU 性能提升的瓶頸。CPU 王者英特爾在提升 CPU 性能動力不足,以及先進制程工藝進展不如預期的情況下,連續多代 CPU 性能提升幅度不大,被稱作“擠牙膏”。
英特爾在領先位置緩慢前進的幾年間,AMD憑借 Zen 架構的迅速迭代以及臺積電先進制造工藝的加持,性能迅速接近甚至超越英特爾酷睿和至強 CPU 的性能。“AMD Yes”表達了消費者對于 AMD 產品迅速提升的認可。
英特爾和 AMD 的 x86 CPU 是 PC 時代的標志,然而在性能提升陷入瓶頸,以及先進半導體制程提升難度越來越大的背景下,兩家最具代表性的 CPU 公司表現相差甚遠,并且開始在市場份額上有所體現。
依舊有領先優勢的英特爾感受到了老對手帶來的競爭壓力,因此無論是產品性能提升還是市場策略都更加積極。然而,英特爾在服務器 CPU 市場除了要面臨同為 x86陣營 AMD 的競爭,Arm 陣營的公司也來勢洶洶。
Ampere 董事長兼首席執行官 Renee James 說:“我們知道未來將與過去不同,因為軟件環境變了,不再是關于 PC 和 PC 服務器的業務,而是圍繞云和云邊緣。現在,需要另一種不同的微處理器。”
Ampere 基于 Arm Neoverse N1內核,推出了80核的 Altra CPU 和128核 Altra Max CPU,持續刷新服務器 CPU 核心數的紀錄,突出與 x86 CPU 相比更高的核數以及在云原生市場的優勢。
同樣是強調差異化優勢,英偉達的 Grace 主要是面向數據密集型 HPC 和 AI 應用。英偉達首席執行官黃仁勛稱基于 Grace 的系統與英偉達 GPU 緊密結合,性能將比目前最先進的 NVIDIA DGX 系統(在 x86 CPU 上運行)高出10倍。
無論是 Ampere 還是英偉達,其差異化高性能 CPU 的基礎都是 Arm。而 Arm 也在今年三月推出了面向未來十年的新一代架構 Armv9,Arm 希望將其架構在智能終端的成功擴展到高性能計算市場,包括邊緣、云端及5G 等。基于 Armv9架構的 Neoverse N2正是 Arm 向高性能市場拓展的關鍵產品。
整體看來,已經在 PC 和服務器 CPU 市場大獲成功的 x86陣營正開始一場激烈的競爭。此時,面向云計算、AI 的 Arm 架構 CPU 迅速發展,要在新興市場分一杯羹。未來,RISC-V CPU 會以怎樣的方式參與到 CPU 市場的競爭,也讓人充滿期待。
異構時代,定制 CPU 優勢突顯
CPU 市場發生雙重變化的一個關鍵因素是市場需求,在市場的驅動下,CPU 的價值也更多體現在異構系統中。英偉達在今年四月發布 Grace CPU 的時候,也同時將其數據中心產品路線圖升級為 GPU+CPU+DPU 的三類芯片,逐年飛躍,一個架構的策略。在這個新的策略中,GPU 和 DPU 性能的充分發揮依舊需要有 CPU 強大的性能,也就是說,CPU 計算和控制的基礎和核心作用沒有改變。
變的是新興應用對于算力的大幅快速增長,異構系統的性能是更重要的關注點。“目前市場上每年交付的3000萬臺數據中心服務器中,有1/3用于運行軟件定義的數據中心堆棧,其負載的增長速度遠遠快于摩爾定律。除非我們找到加速的辦法,否則用于運行應用的算力將會越來越少。”黃仁勛說,“新時代的計算機需要新的芯片、新的系統架構、新的網絡、新的軟件和工具。”
這也是英偉達推出 DPU,并且將 DPU 歸入其數據中心產品路線圖的原因。“現代超大規模云技術推動數據中心從基礎上走向了新的架構,利用一種專門針對數據中心基礎架構軟件而設計的新型處理器,來卸載和加速由虛擬化、網絡、存儲、安全和其它云原生 AI 服務產生的巨大計算負荷。BlueField DPU 正是為此而生。”黃仁勛此前表示。
異構組合才能更好滿足未來市場的需求,這也已經是業界共識,從英特爾擁有 CPU+GPU+FPGA+AI 加速器的完整芯片組合,到英偉達宣布收購 Arm,再到 AMD 宣布收購賽靈思,芯片巨頭們都希望通過不同類型的芯片組合滿足云計算、AI 等計算更加密集應用的需求。
在這種變化中,CPU 的選擇也會更加多樣。Computex 21上,黃仁勛在回答提問時表示:“未來的世界非常多樣,當然也會有不同的 CPU,包括 x86架構和 Arm 架構,大型 CPU 和小型 CPU,面向邊緣、數據中心、超算等 CPU,我們的策略是在我們服務的市場,選擇最合適的 CPU,我們會繼續支持 x86 CPU。”
面向特定的市場,并非所有 CPU 都合適。因此在不同的市場需要不同的 CPU,比如在筆記本電腦市場,英特爾的 x86 CPU 是不錯的選擇,在 DGX 系統中,AMD 的 CPU 表現非常好。在5G 基站中,基于 Arm 的 Marvell CPU 是一個理想選擇。在云計算市場,Ampere 的 CPU 性能出色。英偉達的 CPU 為的是解決 AI 推薦系統和自然語言理解這樣大型 AI 模型的計算挑戰。
“我相信未來既需要通用 CPU,也需要定制 CPU。支持 Arm 和 x86對我們來說都是很好的戰略。”黃仁勛表示。
CPU 與 GPU、VCU 更加微妙的競合關系
既有自研的 Arm CPU,也支持 x86 CPU,讓英偉達與 CPU 巨頭間的競合關系中競爭的成分更高。在 PC 時代,芯片巨頭間的競爭,是 CPU 公司或者 GPU 公司之間的競爭,CPU 與 GPU 公司以合作為主旋律。
邁入 AI 時代,英偉達憑借其 GPU 硬件加上通用的軟件,成為了 AI 芯片公司的代表,在 AI 市場成為了英特爾強大的競爭對手。面向市場空間巨大的云計算和5G 市場,英偉達的 GPU 依舊離不開英特爾和 AMD 的 CPU,但同時英偉達會更加注重 Arm 架構 CPU 的開發,芯片巨頭間的競合關系進一步加深。
這種關系變化更明顯的轉變在芯片巨頭與互聯網巨頭之間。比如文章開頭提到的谷歌 Argos VCU,多年來谷歌都使用英特爾 CPU 中的視頻編解碼引擎,但隨著視頻內容越來越多,以及分辨率越來越高,谷歌需要性能更強但是功耗和成本更低的芯片。
定制的專用芯片性能往往會比通用芯片更強,通過自研核心功能加上集成第三方 IP,能在規模應用中實現優勢。谷歌表示,與英特爾 Skylake 驅動的服務器系統相比,其基于 VCU 的設備在性能、TCO(總體擁有成本)、計算效率方面實現了7倍(H.264)和高達33倍(VP9)的提升。
CPU、GPU 和配備 VCU 的系統離線雙通道單輸出 (SOT) 吞吐量
除了 VPU,谷歌也已經通過自研的 TPU 減少了購買 CPU 和 GPU。谷歌與芯片巨頭們的關系,不再單純是緊密的合作伙伴,在特定市場也成為了競爭對手。
對于這種轉變,英特爾公司副總裁兼中國區總經理王銳此前表示,“競爭對手可以在某一參數或者是在制程上縮短與我們的差距。但要打造整個架構,在計算和 AI 的各個方面都要能夠趕超英特爾,不是那么容易的事情。”
這是芯片巨頭應對技術、市場變化的自信和底氣,當然,芯片巨頭們也需要更多地考慮與自研芯片的互聯網巨頭們的關系。
不要忽略,無論是芯片巨頭們之間的競爭,還是芯片巨頭與互聯網巨頭們之間關系的變化,本質上除了市場和應用變化的驅動,還有成熟的芯片產業鏈,包括成熟的設計工具、IP、代工廠和封裝,很大程度降低了 GPU 公司設計 CPU,以及互聯網巨頭設計定制芯片的門檻。
芯片行業的門檻還在進一步降低,這還會帶來怎樣的變化?