SRAM無(wú)法擴(kuò)大規(guī)模,對(duì)于能力和性能目標(biāo)提出挑戰(zhàn),迫使設(shè)計(jì)生態(tài)系統(tǒng)提出從硬件創(chuàng)新到重新思考設(shè)計(jì)布局的策略。與此同時(shí),盡管SRAM設(shè)計(jì)歷史很悠久,規(guī)模有限,它已經(jīng)成為人工智能的主力內(nèi)存。
SRAM和它稍小一點(diǎn)DRAM總是需要進(jìn)行權(quán)衡。SRAM最常配置6個(gè)晶體管,這使它具有比DRAM更快的訪問(wèn)時(shí)間,但代價(jià)是功耗更大。相比之下,DRAM使用了一個(gè)晶體管(電容器)的設(shè)計(jì),這使得它更便宜。但是DRAM會(huì)影響性能,因?yàn)殡娙萜饔捎陔姾尚孤┒枰⑿,有時(shí)在內(nèi)存加熱時(shí)也會(huì)自動(dòng)更新。因此,自引入60多年以來(lái),SRAM一直是低延遲和可靠性應(yīng)用優(yōu)先考慮的首選內(nèi)存。

圖1: SRAM尺寸大小的收縮比過(guò)程慢
事實(shí)上,對(duì)于AI/ML應(yīng)用,SRAM不僅僅是擁有自己的功能!癝RAM對(duì)于人工智能至關(guān)重要,尤其是嵌入式SRAM。它是性能最高的內(nèi)存,可以將其與高密度邏輯直接集成。僅因?yàn)檫@些原因,這一點(diǎn)很重要! Alphawave Semi CTO Tony Chan Carusone說(shuō)。
功率和性能挑戰(zhàn)
Siemens EDA的內(nèi)存技術(shù)專家Jongsin Yun說(shuō):“但在跟上CMOS擴(kuò)展的步伐方面,由于功率和性能的影響,SRAM發(fā)展已經(jīng)停滯了。在傳統(tǒng)的平面器件尺寸上,柵極長(zhǎng)度和柵極氧化物厚度一起縮小,提高性能和對(duì)短通道效應(yīng)的控制。更薄的氧化物可以在較低的VDD水平下提高性能,這有利于SRAM減少泄漏和動(dòng)態(tài)功率。然而,在最近的技術(shù)節(jié)點(diǎn)遷移中,我們幾乎沒(méi)有看到氧化物或VDD水平的進(jìn)一步擴(kuò)展。此外,晶體管的幾何收縮導(dǎo)致金屬互連變薄,寄生電阻增加,從而導(dǎo)致更多的功率損失和RC延遲。隨著人工智能設(shè)計(jì)越來(lái)越要求更多的內(nèi)部?jī)?nèi)存訪問(wèn),SRAM在技術(shù)節(jié)點(diǎn)遷移中進(jìn)一步擴(kuò)大其能力,性能優(yōu)勢(shì)已成為一個(gè)重大挑戰(zhàn)。”
這些問(wèn)題,再加上SRAM的高成本,不可避免地會(huì)導(dǎo)致性能上的妥協(xié)。因此不完全依賴于SRAM,而是有一個(gè)完整的內(nèi)存/存儲(chǔ)選項(xiàng)的層次結(jié)構(gòu),從芯片外的DRAM開始,它有不同的速度和架構(gòu)配置。
Rambus公司的杰出發(fā)明家Steve Woo說(shuō):“如果不能得到足夠的SRAM來(lái)滿足處理器核心的數(shù)據(jù)存儲(chǔ)需求,那么核心數(shù)據(jù)將不得不從更遠(yuǎn)的地方進(jìn)行傳輸。在SRAM和DRAM之間移動(dòng)數(shù)據(jù)需要額外的電力,所以系統(tǒng)會(huì)消耗更多的電力。而且從DRAM訪問(wèn)這些數(shù)據(jù)需要更長(zhǎng)的時(shí)間,所以性能將會(huì)下降。”
在每個(gè)新節(jié)點(diǎn)上,情況可能不會(huì)改善,甚至可能變得更糟。
Imec的DTCO項(xiàng)目主管Geert Hellings說(shuō):“展望未來(lái)的納米芯片,SRAM的尺寸預(yù)計(jì)會(huì)很小。人們可能會(huì)說(shuō),如果所有其它工藝保持不變,用納米片(15納米寬)替換翅片(5納米寬)將使SRAM位單元的高度增加40納米。顯然,這不是一個(gè)很好的價(jià)值主張。因此,在工藝布局邊際上的側(cè)翼改進(jìn)有望抵消這一影響。然而,將SRAM從finFETs擴(kuò)展到納米片是一場(chǎng)艱苦的戰(zhàn)斗!
Flex Logix首席執(zhí)行官Geoffrey Tate說(shuō):“Flex Logix已經(jīng)在幾個(gè)最低的節(jié)點(diǎn)上工作,包括TSMC的N7和N5,最近也收到了英特爾1.8A節(jié)點(diǎn)的PDK,它非常熟悉這些挑戰(zhàn)。我們?cè)诟呒?jí)節(jié)點(diǎn)上工作的客戶都在抱怨,其邏輯比SRAM擴(kuò)展得更好、更快。這對(duì)處理器來(lái)說(shuō)是個(gè)問(wèn)題,因?yàn)閾碛斜日麄(gè)處理器更大的緩存內(nèi)存是不尋常的。但如果你把它遠(yuǎn)離芯片,表現(xiàn)會(huì)快速下降。”
TSMC(臺(tái)積電)正在雇傭更多的內(nèi)存設(shè)計(jì)師來(lái)提高SRAM的密度,但他們能否從SRAM中獲得更多的收益還有待觀察。Tate說(shuō):“有時(shí)候,你可以通過(guò)聯(lián)合更多的人來(lái)讓事情變得更好,但只是在一定程度上。隨著時(shí)間的推移,客戶將需要考慮那些不像現(xiàn)在那樣密集地使用SRAM的架構(gòu)!
事實(shí)上,早在20納米時(shí),SRAM就無(wú)法按邏輯進(jìn)行擴(kuò)展,這預(yù)示著當(dāng)芯片上的內(nèi)存比芯片本身更大時(shí),功率和性能都會(huì)面臨挑戰(zhàn)。為了應(yīng)對(duì)這些問(wèn)題,系統(tǒng)設(shè)計(jì)人員和硬件開發(fā)人員都在應(yīng)用新的解決方案和開發(fā)新的技術(shù)。
在這些方面,AMD采取了一種不同的方法。Rambus Woo說(shuō):“他們引入了一種名為3D V-Cache的技術(shù),允許將單獨(dú)芯片上額外的SRAM緩存堆疊在處理器上,增加處理器核心可用的緩存數(shù)量。額外的芯片增加了成本,但允許使用額外的SRAM。另一種策略是擁有多個(gè)級(jí)別緩存。處理器核心可以具有唯一可以訪問(wèn)的私人1級(jí)(非共享)和2級(jí)緩存,以及在處理器核心之間共享的更大的末級(jí)緩存(LLC)。由于處理器有這么多的核心,共享LLC允許一些核心有時(shí)使用更多的容量,而另一些則使用更少,以便在所有處理器核心上更有效地使用總?cè)萘!?/P>
數(shù)據(jù)糾正
可縮放性也增加了可靠性問(wèn)題。 Flex Logix CTO Cheng Wang說(shuō):“SRAM傳統(tǒng)上使用的是比邏輯單元更快速發(fā)展,尺寸更小,但它不像傳統(tǒng)的邏輯門,總是在加入一些新東西。你必須克服當(dāng)前的用途。但當(dāng)你不用它時(shí),還是強(qiáng)烈希望保持它的用途。SRAM只有6個(gè)晶體管,所以你不能添加太多的門。你也不能讓SRAM太小,因?yàn)檫@可能會(huì)導(dǎo)致諸如阿爾法粒子等問(wèn)題的單事件混亂(seu),在阿爾法粒子中,離子的能量超過(guò)了SRAM單元的能量,當(dāng)SRAM收縮時(shí),這種情況發(fā)生得更多。”
因此,糾錯(cuò)很可能會(huì)成為一個(gè)普遍的要求,特別是對(duì)于汽車設(shè)備。
Tate認(rèn)為,seu在較低節(jié)點(diǎn)已經(jīng)成為一個(gè)如此嚴(yán)重的問(wèn)題,以前只用于軍事/航空航天應(yīng)用的輻射硬化技術(shù)正在用于N5及以下的SRAM。然而,由于激光硬化可以增加25%到50%的成本,它只可能用于起搏器等設(shè)備,沒(méi)有人負(fù)擔(dān)等待重啟的費(fèi)用。
Tate說(shuō):“也許在10年后,一切都必須經(jīng)過(guò)嚴(yán)格的設(shè)計(jì)。內(nèi)存元素不能一直越來(lái)越小,我們并沒(méi)有擺脫阿爾法粒子的影響。”
基本方法:權(quán)衡
這在設(shè)計(jì)方面引起了很多變化!懊總(gè)人都試圖在芯片上使用更少的SRAM,因?yàn)樗鼈儾粫?huì)越來(lái)越小,”Cheng Wang說(shuō)!暗悄闶褂肧RAM來(lái)獲取帶寬,所以只要帶寬存在。隨著你的芯片變大,大容量帶寬內(nèi)存將被脫離芯片到DDR,但你仍然會(huì)有更小的高帶寬內(nèi)存塊!
設(shè)計(jì)師采用的另一種方法是,如果可能,只使用單核內(nèi)存。他說(shuō):“在較老的進(jìn)程節(jié)點(diǎn)中,當(dāng)我們編寫寄存器文件時(shí),更有可能使用雙核內(nèi)存。但所有這些也都增加了面積。因此,在較低節(jié)點(diǎn)中,設(shè)計(jì)人員試圖讓所有內(nèi)容都在內(nèi)存中使用單個(gè)端口,因?yàn)檫@是最小、功率最密集的做法。并不需要遠(yuǎn)離SRAM,但會(huì)試圖盡可能地使用單核內(nèi)存。使用更小的內(nèi)存,并選擇SRAM作為可用的帶寬,而不是真正的大存儲(chǔ)。大存儲(chǔ)要么轉(zhuǎn)移到DRAM,要么轉(zhuǎn)移到HBM!
替代方法:新的架構(gòu)
Yun表示,為了不斷提高SRAM的功率性能,我們已經(jīng)評(píng)估和應(yīng)用了許多超越位單元設(shè)計(jì)的更新,包括SRAM外圍設(shè)計(jì)中的額外支持電路。
SRAM和外圍不再共享功耗。相反,采用雙動(dòng)力軌道可以單獨(dú)利用最有效的電壓水平。在某些設(shè)計(jì)中,SRAM可以進(jìn)入睡眠模式,保留數(shù)據(jù)所需的最小電壓,直到下次CPU訪問(wèn)。這意味著顯著降低功耗,因?yàn)槁╇娏髋cVDD呈指數(shù)相關(guān)。一些SRAM設(shè)計(jì)采用了額外的電路來(lái)解決工作弱點(diǎn),旨在提高最低工作電壓。
例如,高密度(HD)SRAM單元可以通過(guò)對(duì)所有6個(gè)晶體管使用單鰭晶體管來(lái)實(shí)現(xiàn)最小的幾何形狀。然而,由于在寫入操作過(guò)程中相同尺寸的上拉(PU)和通門(PG)晶體管之間存在競(jìng)爭(zhēng)問(wèn)題,HD電池在低壓操作中面臨著挑戰(zhàn)。
Yun說(shuō):“在SRAM輔助電路中,如負(fù)位線,瞬態(tài)電壓崩潰技術(shù)被廣泛采用,從而緩解這些問(wèn)題,提高低電壓操作。為了減輕寄生電阻的影響,最新的位單元設(shè)計(jì)使用雙軌或三軌金屬線作為合并位線(BL)或字線(WL);诓僮鞯慕饘佘壍乐g選擇性連接的飛行BL方法,降低了陣列頂部和底部之間的有效電阻和平衡放電率。在正在進(jìn)行的開發(fā)中,人們正在探索一種埋地的供電軌道,進(jìn)一步降低線路電阻。這包括將所有的電源軌道放置在晶體管下方,減輕晶體管上方的信號(hào)路徑擁塞。”
其它存儲(chǔ),其它結(jié)構(gòu)
新的嵌入式內(nèi)存類型通常作為SRAM替代方案,但每種類型都有自己的一些問(wèn)題。Yun說(shuō):“MRAM和ReRAM,只需要一個(gè)晶體管區(qū)域,雖然它比SRAM的晶體管大,但它們的整體電池尺寸仍然是SRAM的三分之一。對(duì)于一個(gè)大尺寸目標(biāo),包括外圍電路,可能大約是SRAM的一半大小。它有一個(gè)明顯的尺寸優(yōu)勢(shì),但讀寫速度仍然遠(yuǎn)慢于SRAM。在實(shí)驗(yàn)室中有一些讀寫速度和耐久性的研究成果。高速M(fèi)RAM開發(fā)計(jì)劃已經(jīng)在汽車上擴(kuò)展到eflash替代MRAM。L3緩存替換的尺寸優(yōu)勢(shì)當(dāng)然值得考慮,但在eflash的MRAM生產(chǎn)中必須有一個(gè)提升!
如果物理學(xué)上不允許更小的SRAM,替代方案將需要重新思考架構(gòu)和chiplets。imec的 Hellings說(shuō):如果SRAM在N3或N2中沒(méi)有擴(kuò)展,那么人們就可以將一個(gè)更先進(jìn)的邏輯芯片與一個(gè)用舊技術(shù)制造的SRAM芯片結(jié)合起來(lái)。這種方法將受益于改進(jìn)的PPA邏輯,同時(shí)為SRAM使用一個(gè)成本效益高的技術(shù)節(jié)點(diǎn)。原則上,AMD的基于v-cache的系統(tǒng)可以看到一個(gè)擴(kuò)展,其中只有邏輯芯片被移動(dòng)到下一個(gè)節(jié)點(diǎn)。然后,兩者都需要使用3D集成或 chiplet方法(2.5D)進(jìn)行組合。
Ambiq的首席技術(shù)官Scott Hanson指出,chiplet 解決方案非常適合正在進(jìn)行的集成革命。模擬電路很久以前就停止擴(kuò)大規(guī)模了,除了少數(shù)例外,從規(guī)模中獲益不多。從DRAM到SRAM或NVM的所有類型的內(nèi)存,由于功率、性能和成本原因,更喜歡在不同的節(jié)點(diǎn)上制造。邏輯芯片更喜歡在仍然滿足成本和泄漏要求的最小節(jié)點(diǎn)上制造。通過(guò)多模集成,我們?cè)凇袄硐搿奔夹g(shù)節(jié)點(diǎn)上制造每個(gè)電路,然后將模具組合成一個(gè)封裝。很多人在移動(dòng)和數(shù)據(jù)中心領(lǐng)域都聽說(shuō)過(guò)這一點(diǎn),但在終端人工智能和物聯(lián)網(wǎng)領(lǐng)域也在迅速發(fā)生。
在有限的情況下,系統(tǒng)技術(shù)協(xié)同優(yōu)化(STCO)也可以有所幫助。Hellings說(shuō):“對(duì)于某些應(yīng)用,原則上不需要芯片上緩存。例如,在人工智能訓(xùn)練中,訓(xùn)練數(shù)據(jù)只使用一次,而模型參數(shù)應(yīng)該很容易在芯片上獲取。軟件和芯片架構(gòu)掛鉤,促進(jìn)這種一次性數(shù)據(jù)移動(dòng),繞過(guò)緩存層次結(jié)構(gòu),有很大的潛力!
所有這些都引發(fā)了人們對(duì)新的布局和互連協(xié)議的興趣,比如UCIe和CXL。Synopsys戰(zhàn)略營(yíng)銷經(jīng)理Ron Lowman說(shuō):“當(dāng)你有更大的人工智能工作量時(shí),內(nèi)存會(huì)隨著計(jì)算而擴(kuò)展,但如果其中一個(gè)組件的擴(kuò)展速度比另一個(gè)組件快一點(diǎn),那么根據(jù)系統(tǒng)的設(shè)計(jì)方式,你會(huì)出現(xiàn)不同的瓶頸。人工智能的工作負(fù)載大大增加了所需的處理器陣列的數(shù)量。他們甚至突破了芯片的十字線尺寸的限制,所以現(xiàn)在你需要像UCIe這樣的高速互聯(lián)系統(tǒng),這意味著多芯片系統(tǒng)不可避免地要處理人工智能的工作負(fù)載!
用一個(gè)新的堆棧來(lái)解決這個(gè)問(wèn)題
Winbond 公司的DRAM 市場(chǎng)部經(jīng)理Omar Ma說(shuō):“ Winbond用其CUBE堆棧(定制的超帶寬元素)重新考慮了內(nèi)存架構(gòu)。使用DRAM作為存儲(chǔ)單元,通過(guò)通道進(jìn)行3D堆疊;旧,你可以從底部的襯底一直連接到SoC 芯片。它更經(jīng)濟(jì)有效,因?yàn)镈RAM不使用SRAM的六個(gè)晶體管!
CUBE可以提供足夠的高密度來(lái)通過(guò)高3級(jí)緩存替換SRAM!盀榱诉_(dá)到一定的帶寬需求,只有兩種選擇:增加時(shí)鐘速度或增加I/O的數(shù)量,”Ma解釋說(shuō)!坝辛薈UBE,你可以隨意增加它們,同時(shí)減少時(shí)間。這給系統(tǒng)層面帶來(lái)了很多好處,包括減少了對(duì)電力的需求。CUBE目前正處于原型機(jī)階段,但預(yù)計(jì)將在2024年第四季度或2025年初投入生產(chǎn)!
結(jié)論
在短期內(nèi),實(shí)用主義很可能會(huì)贏得激烈的設(shè)計(jì)變革。FlexLogix的Tate說(shuō):“這不會(huì)很有戲劇性。當(dāng)設(shè)計(jì)師們談?wù)撍麄儜?yīng)該有多大的緩存時(shí),它將像往常一樣,在性能和價(jià)格之間需要取得平衡。如果SRAM的價(jià)格上漲,就會(huì)想辦法來(lái)降低成本。也許會(huì)通過(guò)擁有更多的DRAM帶寬來(lái)彌補(bǔ),F(xiàn)在,這將是這種漸進(jìn)式的權(quán)衡。你不會(huì)很快看到截然不同的架構(gòu)。但如果這種趨勢(shì)繼續(xù)下去,這將導(dǎo)致人們考慮完全不同的方法。”
至于SRAM將被完全取代,這似乎不太可能,至少在短期內(nèi)是這樣。“幾年前,英特爾演示了使用鐵電存儲(chǔ)器進(jìn)行緩存,”O(jiān)bjective Analysis總監(jiān)Jim Handy說(shuō)。“他們說(shuō)這是一個(gè)DRAM,但說(shuō)實(shí)話,這是一個(gè)FRAM。他們的優(yōu)勢(shì)是能夠使用3D NAND技術(shù)。換句話說(shuō),它們顯示了一個(gè)有大量記憶的小空間。很有可能,這些類型的研究工作,要么像英特爾所展示的,還是像MRAM這樣的其他方法,最終會(huì)取代SRAM的位置,但這可能不會(huì)很快發(fā)生。”
當(dāng)它真的發(fā)生時(shí),Handy希望它會(huì)導(dǎo)致架構(gòu)和操作系統(tǒng)軟件的變化。他說(shuō):“你不太可能看到同時(shí)使用SRAM緩存和鐵電緩存的相同處理器,因?yàn)樵撥浖仨毥?jīng)歷一些變化才能充分利用這一點(diǎn)。此外,高速緩存的結(jié)構(gòu)也將會(huì)有所不同。主緩存很可能會(huì)縮小一點(diǎn),次緩存也會(huì)變得非常大。在某個(gè)時(shí)刻,最后一個(gè)擁有SRAM高速緩存的處理器將會(huì)出現(xiàn)。下一個(gè)處理器將有一個(gè)鐵電或MRAM緩存,或類似的東西,以及對(duì)軟件進(jìn)行實(shí)質(zhì)性的更改,使配置更好地工作! |