• <xmp id="4os2s"><table id="4os2s"></table>
  • 博客專欄

    EEPW首頁 > 博客 > 國產最強通用GPU來了!770億顆晶體管,八大核心特性揭秘

    國產最強通用GPU來了!770億顆晶體管,八大核心特性揭秘

    發布人:芯東西時間:2022-08-11來源:工程師
    三年磨一劍,團隊規模已近千人。?

    作者 |  心緣
    編輯 |  漠影
    芯東西8月9日報道,今日下午,上海GPU獨角獸企業壁仞科技推出首款面向云端人工智能(AI)訓練及推理的通用GPU算力產品BR100系列,其旗艦產品的峰值算力超過了英偉達目前在售的旗艦計算產品A100 GPU的3倍。

    圖片

    ▲張文展示BR100芯片

    全球通用GPU算力紀錄,第一次由一家中國企業創造。”在發布會上,壁仞科技創始人、董事長、CEO張文宣布,“中國通用GPU芯片進入每秒1,000,000,000,0000,000次計算新時代?!?/span>

    圖片

    壁仞科技成立于2019年9月9日,再過一個月,就是其三周年的紀念日。團隊總共經過1065個日日夜夜的奮戰,這才有了這款大算力芯片的誕生。在此之際,張文也宣布他的下一個小目標:“百年基業長青”。BR100芯片采用7nm制程、壁仞原創“壁立仞”芯片架構,容納近800億顆晶體管,配備超300MB片上高速SRAM,并應用Chiplet2.5D CoWoS封裝技術,突破了大尺寸芯片制造與封裝中的光罩尺寸限制問題,做到高良率與高性能的兼顧。

    圖片

    它也是國內互連帶寬創紀錄芯片。BR100還首次引入了壁仞科技原創定義的TF32+數據精度,可提供比英偉達TF32更高的數據精度與吞吐性能。同時壁仞提供有配套的原創異構計算平臺BIRENSUPA,提供端到端全棧覆蓋。

    圖片

    此外,壁仞科技與浪潮現場共同發布了創全球性能紀錄的OAM服務器海玄,其峰值浮點算力達8PFLOPS,最大功耗為7KW,并提供高能效、低TCO(總擁有成本)的數據中心集群方案。“我見過很多豪華的創業團隊失敗,但是從來沒見過有信仰的團隊失敗?!睆埼姆窒碚f,自己的創業理念是“做難而正確的事,真正替社會創造價值”。目前,壁仞科技團隊規模已超過900人,并有望在今年年底達到千人規模,其中85%以上擁有碩士及以上學位。除了通用GPU外,壁仞科技也啟動了圖形GPU產品線。圍繞BR100芯片的更多技術細節和落地進展,芯東西采訪了多位壁仞科技高層。壁仞科技聯合創始人、總裁徐凌杰告訴芯東西,BR100系列芯片以及相應硬件計算產品將于今年年底量產。

    圖片


    01.全球最強性能通用GPU八大核心特性


    壁仞科技BR100系列通用GPU算力產品針對AI訓練、推理,以及更廣泛的通用計算場景而設計,主要應用于數據中心部署場景,兼具高算力、高能效、高通用性等特點。

    圖片▲壁仞BR100芯片與英偉達H100/A100基礎規格對比

    綜合來看,其旗艦產品BR100有8項核心特性:1)先進制造及封裝技術:采用7nm制程工藝,在1074mm2芯片面積上集成了770億顆晶體管,并應用了前沿的Chiplet與2.5D CoWoS封裝技術,能夠兼顧高良率與高性能。2)高性能及高能效比:核心性能媲美英偉達最新推出的旗艦計算產品H100 GPU,較英偉達A100算力提升3倍以上。

    圖片圖片

    圖片

    3)多數據精度支持:除了原生支持FP32、BF16、FP16、INT8等主流數據精度外,還支持壁仞原創定義的TF32+數據精度。與TF32相比,TF32+在滿足相同動態表示范圍的前提下,增加了5位尾數(mantissa),可實現比TF32更高的數據精度與吞吐性能,適用于大量的乘加計算。

    圖片

    4)先進內存系統:64GB HBM2e片外內存,數據速率高達3.2Gbps,帶寬高達1.64TB/s,總計位寬4096bit。5)先進互連系統: 原創BLink速GPU互連技術,采用最新高速serDes技術,支持8卡點對點全互連,聚合帶寬達512GB/s,創國內互連帶寬紀錄;采用最新一代主機接口PCIe 5.0并率先支持CXL 2.0通信協議,雙向帶寬高達128GB/s。

    圖片

    6)安全虛擬實例(SVI):最高支持8個獨立實例,每個實例物理隔離并配備獨立的硬件資源,可獨立運行。7)國密安全規范:專用硬件加解密IP,支持 AES等常用安全加密算法,符合國密一級安全規范。8OCP規范硬件系統符合OCP規范的OAM模組,最高支持550W TDP風冷散熱,并在通用UBB主板上實現8卡點對點全互連。BR100系列還包含另一款主流級數據中心加速計算芯片BR104,可適配成熟、部署廣泛的PCIe板卡形態。

    圖片

    BR104搭載于訓推一體主流級產品壁礪104 PCIe板卡上,它采用標準PCIe形態,整卡峰值功耗300W,適配多種2-4U的PCIe GPU服務器,與現有基礎設施高度兼容,現已開放測。

    圖片

    ▲壁仞BR100系列產品與英偉達H100/A100規格對比


    02.原創訓推一體架構,自研異構計算平臺


    針對通用大算力GPU面臨的內存墻、功耗墻、并行性、互連和指令集架構等挑戰,壁仞科技原創設計了訓推一體芯片架構“壁立仞”,并為其通用GPU打造了完備的BIRENSUPA軟件開發平臺。

    壁仞科技CTO洪洲負責主導其首款通用GPU芯片BR100的原創架構研發設計,他將在今年8月26日舉行的GTIC 2022全球AI芯片峰會·高峰論壇上發表《大算力通用GPU賦能超大模型訓練》主題演講。據他介紹,壁仞團隊在微架構上,以通用計算核的設計為中心,搭配強大的張量計算引擎,來進行加速計算;同時采用自研指令集,以更高效地實現各功能運行。

    圖片

    具體來看,BR100有32個SPC流式處理器簇,每個SPC有16個EU執行單元,每4個EU可配置成1個CU計算單元,每個SPC共4096個線程。而每個EU有16個通用流式處理器,同時包含采用脈動3D GEMM架構的專用張量引擎。

    圖片

    BR100總計擁有8192個通用流式處理器、512組專用張量加速引擎,共128K個線程,配備256MB分布式共享L2級緩存,支持多SPC間數據共享,并可配置成大容量的scratchpad,還能支持不同層次的近存儲計算。

    圖片

    其自研的GPGPU架構及指令集搭配多級緩存架構,可實現大模型訓練下的數據重用;基于NoC的通訊架構,支持共享數據多播機制,可以與分布式緩存配合實現高效通信,大大減少對片外帶寬的需求,并大幅降低功耗。

    如前文所述,除了架構設計外,BR100還采用了許多業界領先的芯片技術,包括風頭漸盛的chiplet。洪洲向芯東西解釋說,對于可明確劃分功能模塊的芯片,或在公司產品線非常豐富、產品線之間可重復使用特定模塊的情況下,采用自研chiplet方案進行SoC功能模塊的復用可以縮短設計周期、降低設計成本并大幅提升良率。這要求芯片設計團隊具備對高速接口、大芯片封裝有豐富經驗。

    圖片

    需注意的是,壁仞科技此次推出的通用GPU產品,主打面向云端數據中心場景的AI計算及通用科學計算,不能與圖形GPU劃等號。壁仞科技聯席CEO李新榮告訴芯東西,為了強化計算能力,通用GPU往往會弱化圖形渲染,并且往往沒有顯示輸出接口,并不能直接用于游戲等應用(英偉達的專業計算卡雖也具備渲染能力,但也只能用于云端渲染)。這是由它的應用場景和設計特點所決定的。

    另外,有部分人士會認為專用AI芯片的能效比一定比通用GPU能效比高,可以取代通用GPU,但李新榮特別談道,這一觀點并不準確,因為不同芯片的能效比受架構、工藝等多種因素影響。即使某些專用芯片在特定場景下能效比高,也不一定能解決實際應用場景的大算力計算問題,尤其在訓練場景下,GPU芯片的絕對算力大、通用性強、軟件棧的易用性和豐富的軟件生態等特點使得它仍然占據數據中心的加速計算主導地位。

    “在數據中心場景下,所謂的專用AI芯片要取代GPU已經證明是非常困難的?!崩钚聵s說。

    與BR100系列芯片搭配,壁仞科技還自研了異構計算平臺BIRENSUPA及配套軟件開發工具,支持業內主流的深度學習框架與模型,從而為數據中心場景用戶提供靈活、安全的算力部署,有效降低數據中心的總擁有成本。

    圖片

    BIRENSUPA(BIREN Scalable Unified Parallel Architecture)平臺是壁仞科技硬件設備上開發深度學習和通用計算應用的編程模型和軟件平臺,為應用程序提供輕松訪問高性能并行處理硬件的能力,具備可開源、可擴展的特征。其完整軟件棧包括固件、驅動程序、編譯器、工具、編程模型、庫、機器學習(ML)框架和端到端應用SDK,兼容TensorFlow、PyTorch、飛槳等主流深度學習框架。BIRENSUPA還支持壁仞自研高性能推理引擎并適配第三方推理引擎,支持現有GPU代碼平滑遷移。

    圖片


    03.已與重點客戶啟動產品適配進入測試階段


    “今年三月底,還處于上海疫情風控期間,壁仞BR100系列芯片率先回片,通過團隊的努力成功完成一次性點亮工作?!?/span>

    李新榮透露道,經過4個多月的開發,BR100系列在硬件與軟件方面都取得進展,不僅芯片順利完成工程樣品的開發,與服務器設備的適配也有了階段性的成果,整體系統已在最短時間內進入了產品化階段,并獲得了穩定優異的性能數據。

    “作為一家國內初創企業,第一次在極短的時間內完成這樣的工作是非常難得的,足以證明我們在前期的設計工作是扎實的、可靠的、經得住考驗的?!彼锌?。據徐凌杰分享,壁仞科技已與互聯網、云計算、金融、通信、數據中心的行業的頭部客戶簽署戰略協議,其中與重點客戶已啟動產品適配,并進入測試階段,獲得客戶積極的反饋。目前BR100應用的重點領域以互聯網、通信運營商、行業AI等領域為主。現場,壁仞和浪潮共同發布為數據中心云端訓練打造的“海玄”OAM服務器及集群方案。

    “海玄”OAM服務器可實現8PFLOPS浮點算力,最大功耗7KW。徐凌杰說,“海玄”OAM服務器創全球單臺GPU服務器的算力紀錄,將于2022年第四季度開放邀測。

    圖片

    基于海玄OAM服務器,壁仞向市場提供一整套具有高性能、高性價比的集群式算力基礎設施解決方案。與國際廠商數據中心方案相比,壁仞的數據中心集群方案僅用1/3的服務器數量,實現了更高的浮點算力、更低的峰值能耗和占地空間,同時將標準煤發電量降低64%,具有高能效利用率、實用性、經濟性、環境協調性等特性。

    圖片

    壁仞科技還宣布加入百度飛槳硬件生態共創計劃,BR100產品與百度飛槳已經完成I級兼容性測試,達到兼容性要求。此外,為了更好服務全球開發者,壁仞科技開發者云已經上線。
    04.AI芯片進入拼落地時段


    在李新榮看來,高質量人才團隊、前沿的產品定位、微架構創新能力、軟硬件的高效實現和交付能力等能力,構成了壁仞科技的護城河。“壁仞提供的GPU芯片,不僅僅是解決國產芯片「有和無」的問題,更是解決性能「好和優」的問題。BR100是一種面向客戶需求的具備超強算力的通用國產化產品方案,競爭力遙遙領先國內同行?!毙炝杞苷f。就認知而言,他認為,壁仞團隊非常清楚只有追求更高的性能、更低的TCO才能獲得商業落地的優勢,最重要的是產品競爭力要獲得商業客戶的認可,才能最終做大做強。據徐凌杰觀察,近兩年,AI芯片、GPU芯片行業已經過了單純講述PPT的時段,更多的是考驗企業在具體場景落地等方面的實踐。資本市場也更加關注芯片公司在客戶側的實際應用落地反饋。在他看來,當前AI芯片的比拼,關鍵在于打造有差異性的產品,深入了解客戶需求與應用場景痛點,為客戶解決業務實際問題,以創新的架構、突破的性能為目標打造產品,而不僅僅是對標已有產品,長期處于追趕狀態。“GPU芯片作為大國重器,是目前集成電路領域需要重點突破的關鍵環節,需要政府、企業、高校長期在技術、人才、資金等方面進行投入?!?/span>

    看向未來,他判斷國內通用GPU產業往后發展,最好的結果是能產生1-2家芯片企業,真正趕超國際巨頭在加速計算芯片領域的市場地位;最差的結果是需要更長時間去建立國產芯片的技術壁壘,尤其在集成電路全球產業鏈持續分裂的趨勢下,這需要政府和國家投入更多的資源。


    05.結語:用系統性思維解決通用GPU落地難題


    在通往大規模商用落地的路上,國產通用GPU還有多道難關待闖。李新榮舉例說,這包括軟件棧的成熟度、客戶基礎設施的兼容性、產品的性價比、支持的應用種類等都需持續優化。目前,通用GPU面臨的一大關鍵技術瓶頸是提升能效比,現存計算體系架構依然存在內存墻、功耗墻等問題,計算資源規模很難在現有工藝技術下繼續實現快速翻倍。這要求GPU企業需要以系統性的思維去解決問題,包括封裝工藝、稀疏化、精度類型、光互連、近存儲計算等。

    為了應對這些挑戰,李新榮說:“壁仞未來會繼續大力布局數據中心的計算產品,持續優化軟硬件,不斷擴展壁仞在智能計算領域的能力和行業觸角,推動產品落地和后續迭代?!?/span>

    圖片

    GTIC 2022演講預告

    8月26日-27日,「GTIC 2022全球AI芯片峰會」將在深圳開啟。大會以“不負芯光 智算未來”為主題,將于深圳灣萬麗酒店大宴會廳舉行。

    在大會首日上午舉行的AI芯片高峰論壇上,壁仞科技聯合創始人&CTO洪洲將發表主題為《大算力通用GPU賦能超大模型訓練》的演講,分享下一代具有強大算力的通用GPU將如何支持萬億參數級別的超大模型訓練,以高性能、高能效比、高通用性助力人工智能賦能百業。


    *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

    稱重傳感器相關文章:稱重傳感器原理


    關鍵詞: 通用GPU

    技術專區

    關閉
    大肚美人双性噗嗤白浊痉挛浪荡
  • <xmp id="4os2s"><table id="4os2s"></table>