HBM內存:韓國人的游戲
編者按:本文來自微信公眾號硅基研習社(ID:gh_8448ad119f2e),作者:何律衡,創業邦經授權發布。
2020年5月,一年兩度的英偉達GTC大會由于疫情原因無法舉辦,英偉達官方索性連線上直播都懶得走形式,發布會改為播放CEO黃仁勛在自家廚房拍攝的視頻。
(相關資料圖)
視頻中,老黃從灶臺里掏出了當晚的主角:基于7nm工藝的A100 GPU。
黃仁勛“預熱”A100 GPU
這顆芯片和今年3月發布的H100 GPU一起,成為了大煉AI的入場券,直接把英偉達送上了萬億美元市值。伴隨單價25萬人民幣的H100 GPU供不應求,背后的另一個大贏家也慢慢浮出水面:韓國內存廠商。
A100和H100的顯存模塊并沒有采用常用的DDR/GDDR內存,而是HBM內存。目前,能夠穩定量產HBM的廠家,只有韓國的三星和SK海力士。
相比DDR/GDDR等路線,HBM大幅度提高了內存帶寬,完美貼合了AI訓練對數據傳輸效率近乎病態的追求。
所謂帶寬,可以簡單理解為內存讀取/寫入數據的效率,一般帶寬越高,數據的吞吐能力就越強。英偉達針對美國禁令專門推出的特供版A800、H800 GPU中,主要縮水的部分就是帶寬,只有原版GPU的3/4左右。
包括內存在內的存儲芯片是當之無愧的“半導體石油”,市場規模長期占據整個半導體市場近三分之一。廣義的存儲包括內存、硬盤、閃存等門類。
不過由于產品高度標準化,每隔幾年就要來一次價格戰,上演大魚吃小魚的戲碼。在市場規模較大的內存和閃存兩個門類,經過多次價格周期,主流玩家已經所剩無幾。
這兩年原本是存儲市場的冬天,DRAM和NAND芯片價格持續下探,SK海力士連續虧損兩個季度,三星一季度凈利潤更是暴跌86.1%。原本大家都在節衣縮食過日子,但AI訓練的熱潮讓原本不溫不火的HBM內存逆勢增長,成了全村的希望。
在消費電子時代大殺四方的韓國內存,似乎又成了AI時代的第一個贏家。
日本人先動的手HBM內存的前身3D DRAM內存,誕生在韓國芯片產業的死對頭日本。
2009年9月,日本存儲大廠爾必達宣布,成功開發了業內首款3D DRAM。爾必達成立于世紀初日本半導體產業風雨飄搖的年代,由日立、NEC和三菱三家企業的存儲部門組合而來,肩負著重振日本半導體產業的使命。
結果金融危機期間,由于需求萎縮疊加三星逆勢擴產,爾必達積累了天量的虧損和債務,命懸一線。
作為公司掌舵者,坂本幸雄深知爾必達難以在大規模生產能力上戰勝三星,于是選擇與日本官方合作,加快鮮有廠商涉足的3D DRAM的研究,從技術上反攻韓國人。同一時期,東芝在技術路線上類似的閃存門類,成功量產了全球首款3D NAND閃存,無疑大大增強了爾必達的信心。
所謂3D DRAM/3D NAND,可以簡單理解為將很多塊DRAM/NAND芯片像蓋房子一樣垂直堆疊起來。東芝的第一塊3D NAND就通過自研的BiCS技術,垂直堆疊了8塊NAND芯片。
從2D DRAM到3D DRAM;圖源:Business Korea
3D堆疊的優勢在于,可以在不增加芯片面積的情況下,盡可能做大容量和帶寬,而且不需要先進制程。另一個思路則是用更先進的工藝制程,可以做到同樣的效果,但成本會大幅增加。這在成本決定輸贏的存儲領域,無異于飲鴆止渴。
(具體原因涉及比較復雜的DRAM運行原理,感興趣的讀者可以移步文末“注1”瀏覽)
爾必達的另一個算盤在于,為當時方興未艾的移動終端市場做準備,實現彎道超車:
作為iPhone的內存供應商,坂本幸雄深知智能手機、平板、超級本這類便攜設備的市場潛力,3D DRAM封裝體積小、功耗低的特點,與移動設備便攜省電的訴求,幾乎是天作之合。
2011年6月,爾必達宣布,由4片DRAM堆疊而成的8G內存顆粒已經進入送樣階段。爾必達通過直通硅晶穿孔(Through Silicon Vias;TSV) 技術,在堆疊芯片的同時大幅度提高了內存帶寬,相比傳統的8G DRAM,芯片面積縮小了70%,預計一年后就可以量產。
但人算不如天算,一年之后,爾必達沒等來3D DRAM的訂單,反而等來了公司的破產。
金融危機后,三星依靠體量優勢在內存價格低谷期瘋狂擴產,頂住虧損進一步拉低價格,將競爭對手擠壓出去。同在韓國的海力士半導體就因為債臺高筑,在爾必達破產的同一年被SK集團收入囊中,成為了如今的SK海力士。
考慮到三星的反周期屠刀砍起來連同胞都不放過,利潤率更微薄的爾必達處境可想而知。坂本幸雄在破產發布會上的一句“爾必達技術水平很高”,濃縮了所有的落寞與不甘。
伴隨爾必達的坍塌,被寄予厚望的3D DRAM也隨之沉寂。雖然以iPhone為代表的移動終端市場增長迅猛,但絕大部分產品都采用了成本更低的LPDDR(Low Power DDR)內存。3D DRAM作為一種非常超前的技術理念,在曇花一現后便被束之高閣。
直到2015年,另一個與爾必達處境極其相似的公司,把這項技術從故紙堆里翻了出來。
美國人來了2015年6月,AMD在洛杉磯的貝拉斯科劇院發布了其新款旗艦顯卡:Fiji架構的Radeon R9 Fury X。
在這塊GPU的封裝基板上,除了GPU芯片,只有供電電路和輸出接口器件,原本圍繞在GPU芯片周圍的顯存芯片不見了,取而代之的是和GPU封裝在一起,由多顆顯存芯片垂直堆疊而成的顯存顆粒,整塊顯卡的面積大幅度縮小。
在發布會上,AMD也給這種新型顯存取了個新的名字:HBM(High Bandwidth Memory)。
AMD的Fiji系列顯卡將顯存與GPU封裝在了一起,大幅縮小了芯片面積
2006年,AMD豪擲54億美元收購了GPU公司ATI,希望憑借CPU和GPU的集成路線,扭轉與英特爾競爭中的頹勢。然而此后幾年,CPU產品線的存在感一度只剩下網絡段子,收購而來的GPU也一如既往的被英偉達按在地上摩擦。
伴隨Tesla架構和CUDA平臺的推出,英偉達大有一統GPU市場的氣勢。以9800GT為代表的Geforce 9系列顯卡,一度成為國內網吧的一代神卡。
2012年,蘇姿豐在AMD股價最低點接手后,把大部分資源傾斜到了公司的老本行CPU業務,面對英偉達在GPU市場越來越夸張的市場份額,AMD也寄望以新技術作為突破口彎道超車。
這個突破口,就是當時GPU領域正在暴露的痛點:帶寬。
GPU和CPU都遵循著馮·諾依曼架構,其核心在于“存算分離”——即芯片處理數據時,需要從外部的內存中調取數據,計算完成后再傳輸到內存中,一來一回,都會造成計算的延遲。同時,數據傳輸的“數量”也會因此受限制。
舉例來說,可以將GPU和顯存/內存的關系比作上海的浦東和浦西,兩地間的物資(數據)運輸需要依賴南浦大橋,南浦大橋的車道數量決定了物資運輸的效率,這個車道數量就是內存帶寬,它決定了數據傳輸的速度,也間接影響著GPU的計算速度。
1980年到2000年,GPU和顯存/內存的“速度失配”以每年50%的速率增加。也就是說,南浦大橋車道拓寬的速度,遠遠無法滿足兩地物資運輸的增長,這就導致在游戲等高性能計算的場景下,帶寬成為了越來越明顯的瓶頸。
CPU/GPU性能與DRAM性能之間的差距正在拉大
為了解決這個問題,AMD的思路很直接:把浦東和浦西拼起來。
AMD的設想是將DRAM芯片和GPU芯片封裝在一起,相當于把浦東和浦西拼在一塊,徹底車道拓寬運輸問題。但傳統的2D DRAM由于芯片面積大,封裝在一起難以控制功耗和發熱問題。而多顆DRAM垂直堆疊,就成了最完美的方案。
于是,沉寂了多年的3D DRAM技術以HBM的新身份,又一次站上了臺前。
(理論上來說,3D DRAM和HBM并非相同的技術路線,感興趣的讀者可以移步文末“注2”瀏覽)
將顯存從主芯片外移到主芯片旁邊
早在2008年,爾必達攻堅3D DRAM的同一時期,AMD就與海力士半導體結為聯盟共同攻克HBM。當時,全球范圍內只有東芝和海力士擁有3D NAND閃存的堆疊經驗,但東芝在2001年就退出了DRAM業務,海力士成了AMD唯一的選擇。
2015年前后,4K分辨率開始普及,AMD希望借助4K游戲對帶寬的需求,抄一波英偉達的后路。隨后,搭載AMD Fiji的Radeon R9 Fury X,功耗比超越了英偉達同年的Kepler架構新品,首次在紙面性能上壓了對手一頭。
但遺憾的是,由于老舊的GCN架構拖后腿,沒能讓HBM的好處完全凸顯出來。同時,相對主流的DDR/GDDR路線,HBM的高成本問題依然難以解決,無法在消費級市場大面積鋪開。
蘋果的MacBook曾推出過一款HBM顯存的機型,選配價格感人:
AMD厲兵秣馬多年,最終換來了一個鎩羽而歸的結局,但HBM的春天卻在人工智能的浪潮中意外到來。
韓國人的游戲2016年,谷歌的AlphaGo在全球社交媒體的注視下,戰勝圍棋世界冠軍李世石,深度學習橫空出世,將科幻作品中的人工智能變得觸手可及。
拋開文藝作品的濾鏡,深度學習的本質是數學和概率論,其核心在于通過海量數據訓練模型,確定函數中的參數,在決策中帶入實際數據得到最終的解。在這當中,承擔模型訓練的就是AI芯片。
理論上來說,數據量越大得到的函數參數越可靠,這就給AI芯片的數據吞吐量及數據傳輸的延遲性帶來了挑戰。這也是AlphaGo使用英偉達的GPU作為模型訓練芯片的原因:
在當時,沒有什么芯片比英偉達的GPU數據吞吐量更高、更適合訓練模型的了。
但這還不夠,因為AI模型對算力的需求正在以月為單位指數級暴漲,OpenAI在2018年發布過一份報告:AI算力需求每個月翻番,這是被芯片行業奉為圭臬的摩爾定律花費18個月才能完成的事情。
于是,原本在GPU/CPU上只是稍顯棘手的性能瓶頸,放在AI芯片上,就變成了刻不容緩解決的大問題。在這個節骨眼上誕生的HBM,其高帶寬、低延遲的特性,幾乎是為AI芯片量身定做的。
2017年,AlphaGo再戰另一世界圍棋冠軍柯潔,訓練芯片卻換上了自家研發的TPU。在芯片設計上,從第二代開始的每一代TPU,都采用了HBM的設計。
同一時期,英偉達緊跟AMD推出了針對數據中心和深度學習的新款GPU:Tesla P100,搭載了三星的首個第二代HBM內存(HBM2)。
目前,面向高性能計算市場的GPU芯片,幾乎都配備了HBM內存。
伴隨AI的快速繁榮,存儲巨頭們圍繞HBM的競爭也迅速展開,但主角只有韓國人。
2010年,三星就緊隨SK海力士開始了HBM內存的研發,并在2016年搶先SK海力士成功量產HBM2,將每個HBM堆棧容量提升至8GB,此后又率先量產第三代HBM的青春版HBM3E。
2021年10月,一直緊咬三星的SK海力士又成功量產HBM3,重新奪回主動權。
韓國公司你追我趕的時候,內存三巨頭之一的美光卻因為技術路線判斷失誤意外掉隊,成為了一個尷尬的旁觀者。
2022年,全球50%的HBM出貨來自SK海力士,40%來自三星,美光只有10%(TrendForce口徑)。TrendForce預測,今年SK海力士會將占比進一步擴大至53%,三星將拿下38%,美光則將下滑至9%。
至此,HBM徹底成為了韓國人的游戲。
韓國人做對了什么?存儲曾是日本半導體產業的一塊金字招牌,在經歷了美國人領導20年(1966-1986)、日本人壟斷的12年(1986-1998)后,已經迎來韓國人統治的第25年。
提及韓日在半導體產業的多年鏖戰,三星“越虧越投”的反周期大法似乎是繞不開的環節,但這并不足以概括韓國人從落后到反超的原因。
存儲芯片是一類特殊的芯片產品,它需要技術上的領先,但新技術的普及又需要下游終端市場的帶動。同時, 由于產品高度標準化,再高端的技術路線也需要與成本相權衡。
HBM并不是一項新技術,但由于長期缺乏規模足夠大的下游市場,導致HBM一直無法普及,直到深度學習的出現改變了這一點。
即便在日韓存儲產業競爭最激烈的時期,韓國公司的思路依然是:不花費太多成本研究最先進的技術,只需要做到“日本人有的我們也有”。
2007年,東芝率先量產了3D NAND閃存,爾必達隨后成功試產3D DRAM,但三星和SK海力士迅速推出了類似的技術,并且依靠更強大的生產能力與產業鏈覆蓋實現了反超。
由于HBM大多需要與GPU/CPU封裝在一起,涉及到制造、封裝等多個芯片生產流程,并非存儲企業單兵作戰可以解決。爾必達當年雖然做出了3D DRAM的技術方案,但在最關鍵的良率爬坡環節,不得不向臺灣地區的代工、封裝企業求援。
比起三番五次求日本銀行業貸款支援的爾必達,韓國公司無論是資源整合能力,還是對本國產業鏈的號召力,在全球半導體市場幾乎都獨一無二,在SK海力士開發HBM的過程中,就有多家韓國本土供應商加入,大大加快了開發進程。
雖然HBM目前的市場規模還不到整個存儲芯片市場的1/10,也不乏其他技術競爭,但決定其能否普及的成本問題,恰恰卻是三星和SK海力士最擅長解決的——依靠大規模生產能力快速降低成本,拉高其他公司參與競爭需要的投資門檻。
有些諷刺的是,用大規模生產能力將誕生在美國的新技術快速產業化,恰恰是日本存儲芯片在80年代大放異彩的原因。90年代后,日本社會普遍不滿足于生產制造環節的成功,尤其是以貝爾實驗室為代表的大公司研究院模式,更是被日本反復學習效仿。
對技術的崇信可以在一些產業獲得巨大的成功,比如至今仍被日本壟斷的半導體材料。但在存儲市場,技術并不是唯一的勝負手。
爾必達的3D DRAM縱然在移動設備上有無可比擬的技術優勢,但并沒有阻擋成本更低的LPDDR方案迅速普及。當更適合AI的HBM迅速增長時,日本人早就下了牌桌。正如湯之上隆在書中概括:
日本人通常把性能和質量放在第一位,往往忽視生產成本。這是因為日本人擁有一種獨特的感性認識,他們習慣將技術和金錢劃清界限,主張技術神圣,金錢骯臟。
技術的領先可以畢其功于一役,但一個產業的拔地而起,既需要產業鏈的合理布局,又需要強大的資源整合能力與供應鏈上下游的密切協作,以及技術與商業上的反復權衡。日本在技術上一度領先,但韓國人最終獲得了商業的勝利。
坂本幸雄反復念叨的“爾必達技術世界第一”并沒有什么問題,直到破產那天,爾必達的生產工藝和技術儲備依然領先韓國人。但在京畿道城南市三星電子總部徹夜的歡呼聲中,他的不甘與嘆息是如此不值一提。
參考資料[1]“HBM”詞條,SemiWiki
[2]HBM需求激增 SK海力士受益,TrendForce
[3]HBM提供了令人印象深刻的性能提升,NetworkWorld
[4]人工智能推動HBM增長,EETAsia
[5]內存革命:存儲巨頭爭霸HBM,TrendForce
[6]數據中心即將進入HBM3時代,半導體產業縱橫
[7]HBM在AI系統中的問題,Semiengineering
[8]HBM會替代DDR 成為計算機內存嗎?EETAsia
[9]為什么存儲器會成為阻礙AI發展的難題?雷鋒網
[10]廠商戮力開發新應用 晶片立體堆疊技術未來可期,新電子雜志
[11]TSV 3D IC面臨諸多挑戰,DIGITIMES
[12]一文看懂3D NAND Flash,超能網
[13]3D DRAM Makers Inch CloserTo Production,SemiEngineering
注1:與依靠晶體管傳遞電氣信號的邏輯芯片(如CPU)不同,大部分存儲器依靠核心單元中電荷的多寡區分“0”和“1”,用這種手段來存儲信息。隨著存儲器2D平面(也就是不堆疊的一塊晶圓)微縮進入納米制程,這種運行機制帶來的不穩定性越發凸顯:
用于存儲電荷的單元越小,電荷越容易跑出去,也就是我們常說的“漏電”,最終的結果是數據錯誤,可靠性下降。問題并非不可解決,也就是用更先進的制程。但這樣做的話,成本也會大幅度提高。
蘋果的A系列芯片已經用上了3nm制程,但主流的存儲芯片還在“考慮”是否應用10nm。
注2:作為存儲器市場最大的兩個品類,NAND閃存和DRAM垂直堆疊上有相似之處,但也有不同的地方:
NAND閃存是存儲器陣列(memory array)堆疊,字位線(bitline)豎著做,可以想象成公寓樓的架構。目前,主要的生產商已經堆疊到了300層。根據最新可查的信息,長江存儲的NAND閃存已經堆疊到了232層,達到了國際一流水平。
但3D DRAM堆疊的難處在于,電容器是柱狀結構,要從豎著做變成橫著放,字位線也要相應的豎著做,與NAND堆疊難度不在一個級別。
伴隨爾必達破產,3D DRAM曇花一現便被束之高閣,廠商們繼續著DDR內存規格的迭代升級,尋找著除了2D平面微縮之外提高存儲顆粒密度的其他辦法,比如從傳統的6F2架構改成4F2架構等。
NAND閃存堆疊方法
DRAM堆疊方法
本文(含圖片)為合作媒體授權創業邦轉載,不代表創業邦立場,轉載請聯系原作者。如有任何疑問,請聯系editor@cyzone.cn。