免费男女羞羞的视频网站中文版,最近中文字幕在线看免费视频 ,污视频网站免费在线观看

贊賞作者

贊賞金額：

￥2
￥5
￥10
￥50
￥100
￥200

支付金額：5元

支付方式：

微信支付



贊賞成功！
你的贊賞是對(duì)作者最大的肯定~?

當(dāng)前位置 : 首頁(yè) > 方案訊 > 方案訊詳情

5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

發(fā)布時(shí)間：2022-12-12 閱讀量：1180 來(lái)源：我愛(ài)方案網(wǎng)整理作者：我愛(ài)方案網(wǎng)

32位與16位格式的混合精度訓(xùn)練，正是當(dāng)前深度學(xué)習(xí)的主流。最新的英偉達(dá)核彈GPU H100，剛剛添加上對(duì)8位浮點(diǎn)數(shù)格式FP8的支持。英偉達(dá)首席科學(xué)家Bill Dally現(xiàn)在又表示，他們還有一個(gè)“秘密武器”：在IEEE計(jì)算機(jī)運(yùn)算研討會(huì)上，他介紹了一種實(shí)驗(yàn)性5nm芯片，可以混合使用8位與4位格式，并且在4位上得到近似8位的精度。

目前這種芯片還在開(kāi)發(fā)中，主要用于深度學(xué)習(xí)推理所用的INT4和INT8格式，對(duì)于如何應(yīng)用在訓(xùn)練中也在研究了。相關(guān)論文已發(fā)表在2022 IEEE Symposium on VLSI Technology上。

5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

新的量化技術(shù)

降低數(shù)字格式而不造成重大精度損失，要?dú)w功于按矢量縮放量化（per-vector scaled quantization，VSQ）的技術(shù)。

具體來(lái)說(shuō)，一個(gè)INT4數(shù)字只能精確表示從-8到7的16個(gè)整數(shù)。

其他數(shù)字都會(huì)四舍五入到這16個(gè)值上，中間產(chǎn)生的精度損失被稱為量化噪聲。

傳統(tǒng)的量化方法給每個(gè)矩陣添加一個(gè)縮放因子來(lái)減少噪聲，VSQ則在這基礎(chǔ)之上給每個(gè)向量都添加縮放因子，進(jìn)一步減少噪聲。

5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

關(guān)鍵之處在于，縮放因子的值要匹配在神經(jīng)網(wǎng)絡(luò)中實(shí)際需要表示的數(shù)字范圍。

英偉達(dá)研究人員發(fā)現(xiàn)，每64個(gè)數(shù)字為一組賦予獨(dú)立調(diào)整過(guò)的縮放因子可以最小化量化誤差。

計(jì)算縮放因子的開(kāi)銷可以忽略不計(jì)，從INT8降為INT4則讓能量效率增加了一倍。

5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

Bill Dally認(rèn)為，結(jié)合上INT4計(jì)算、VSQ技術(shù)和其他優(yōu)化方法后，新型芯片可以達(dá)到Hopper架構(gòu)每瓦運(yùn)算速度的10倍。

還有哪些降低計(jì)算量的努力

除了英偉達(dá)之外，業(yè)界還有更多降低計(jì)算量的工作也在這次IEEE研討會(huì)上亮相。

馬德里康普頓斯大學(xué)的一組研究人員設(shè)計(jì)出基于Posits格式的處理器核心，與Float浮點(diǎn)數(shù)相比準(zhǔn)確性提高了多達(dá)4個(gè)數(shù)量級(jí)。

Posits與Float相比，增加了一個(gè)可變長(zhǎng)度的Regime區(qū)域，用來(lái)表示指數(shù)的指數(shù)。

對(duì)于0附近的較小數(shù)字只需要占用兩個(gè)位，而這類數(shù)字正是在神經(jīng)網(wǎng)絡(luò)中大量使用的。

適用Posits格式的新硬件基于FPGA開(kāi)發(fā)，研究人員發(fā)現(xiàn)可以用芯片的面積和功耗來(lái)提高精度，而不用增加計(jì)算時(shí)間。

5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

ETH Zurich一個(gè)團(tuán)隊(duì)的研究基于RISC-V，他們把兩次混合精度的積和熔加計(jì)算（fused multiply-add，FMA）放在一起平行計(jì)算。

這樣可以防止兩次計(jì)算之間的精度損失，還可以提高內(nèi)存利用率。

FMA指的是d = a * b + c這樣的操作，一般情況下輸入中的a和b會(huì)使用較低精度，而c和輸出的d使用較高精度。

研究人員模擬了新方法可以使計(jì)算時(shí)間減少幾乎一半，同時(shí)輸出精度有所提高，特別是對(duì)于大矢量的計(jì)算。

相應(yīng)的硬件實(shí)現(xiàn)正在開(kāi)發(fā)中。

5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

巴塞羅那超算中心和英特爾團(tuán)隊(duì)的研究也和FMA相關(guān)，致力于神經(jīng)網(wǎng)絡(luò)訓(xùn)練可以完全使用BF16格式完成。

BF16格式已在DALL·E 2等大型網(wǎng)絡(luò)訓(xùn)練中得到應(yīng)用，不過(guò)還需要與更高精度的FP32結(jié)合，并且在兩者之間來(lái)回轉(zhuǎn)換。

這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)訓(xùn)練中只有一部分計(jì)算不會(huì)因BF16而降低精度。

最新解決辦法開(kāi)發(fā)了一個(gè)擴(kuò)展的格式BF16-N，將幾個(gè)BF16數(shù)字組合起來(lái)表示一個(gè)數(shù)，可以在不顯著犧牲精度的情況下更有效進(jìn)行FMA計(jì)算

5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

關(guān)鍵之處在于，F(xiàn)MA計(jì)算單元的面積只受尾數(shù)位影響。

比如FP32有23個(gè)尾數(shù)位，需要576個(gè)單位的面積，而BF16-2只需要192個(gè)，減少了2/3。

另外這項(xiàng)工作的論文題目也很有意思，BF16 is All You Need。

5nm實(shí)驗(yàn)芯片用INT4達(dá)到INT8的精度

關(guān)于我愛(ài)方案網(wǎng)

我愛(ài)方案網(wǎng)是一個(gè)電子方案開(kāi)發(fā)供應(yīng)鏈平臺(tái)，提供從找方案到研發(fā)采購(gòu)的全鏈條服務(wù)。找方案，上我愛(ài)方案網(wǎng)!在方案超市找到合適的方案就可以直接買，沒(méi)有找到就到快包定制開(kāi)發(fā)。我愛(ài)方案網(wǎng)積累了一大批方案商和企業(yè)開(kāi)發(fā)資源，能提供標(biāo)準(zhǔn)的模塊和核心板以及定制開(kāi)發(fā)服務(wù)，按要求交付PCBA、整機(jī)產(chǎn)品、軟件或IoT系統(tǒng)。更多信息，敬請(qǐng)?jiān)L問(wèn)http://m.zhaochuanqisf.com

文章評(píng)論

相關(guān)資訊

DigiKey 在 Elexcon 深圳國(guó)際電子展上為創(chuàng)新者和本地制造商帶來(lái)新機(jī)會(huì)

類型：工業(yè)電子

閱讀量：3802
DigiKey 在 Elexcon 深圳國(guó)際電子展上為創(chuàng)新者和本地制造商帶來(lái)新機(jī)會(huì)

類型：工業(yè)電子

閱讀量：3728
PCB板卡巨頭一廠房突發(fā)大火！

類型：工業(yè)電子

閱讀量：3825
消息稱中國(guó)大陸存儲(chǔ)器模組廠配合原廠暫停報(bào)價(jià)，NAND或調(diào)漲8~10%

類型：工業(yè)電子

閱讀量：3831
智能門禁系統(tǒng)的五大應(yīng)用場(chǎng)景

類型：工業(yè)電子

閱讀量：1898
瑞芯微方案丨工控行業(yè)的5個(gè)邊緣計(jì)算實(shí)例

類型：工業(yè)電子

閱讀量：933

推薦元器件

日本久章草在线一区二区三区,久久精品视频5,樱桃视频污在线观看,窝蝌蚪免费精品视频