亚洲最大看欧美片,亚洲图揄拍自拍另类图片,欧美精品v国产精品v呦,日本在线精品视频免费

<ruby id="4rtly"></ruby>

<pre id="4rtly"></pre>

當(dāng)前位置：站長資訊網(wǎng) > 新聞資訊 > 正文

英偉達(dá) TensorRT 8 上線，BERT 推理延遲僅有 1.2 毫秒

2021-07-21 分類：新聞資訊閱讀(1106) 評論(0)

　　英偉達(dá)昨日發(fā)布了其 TensorRT 的 8.0 版本。TensorRT 可以看作是在英偉達(dá)各種 GPU 硬件平臺下運(yùn)行的一個(gè)深度學(xué)習(xí)推理框架，其核心是一個(gè) C++ 庫。

英偉達(dá) TensorRT 8 上線，BERT 推理延遲僅有 1.2 毫秒

　　開發(fā)者可以將其他框架訓(xùn)練好的模型轉(zhuǎn)化為 TensorRT 格式，并通過 TensorRT 推理引擎提升該模型的運(yùn)行速度。芯東西等媒體和英偉達(dá) AI 軟件部的產(chǎn)品管理總監(jiān) Kari Briski、產(chǎn)品營銷主管 Siddharth Sharma 就 TensorRT 8 的技術(shù)細(xì)節(jié)、應(yīng)用落地等進(jìn)行了深入地探討。

　　此外，Kari Briski 和 Siddharth Sharma 也分享了英偉達(dá)團(tuán)隊(duì)在推薦系統(tǒng)競賽中所取得的成績。

　　一、運(yùn)行速度和精準(zhǔn)度提升 1 倍，推理延遲僅有 1 毫秒

　　Kari Briski 首先回顧了英偉達(dá) TensorRT 的推出背景和成績。她說，AI 模型正在以指數(shù)級的速度增長，很多公司不得不縮減模型大小以追求響應(yīng)速度。而英偉達(dá) 2016 年推出的 TensorRT 可以幫助這些企業(yè)擴(kuò)大其模型規(guī)模，提升精度。5 年來，已經(jīng)有超過 35 萬名開發(fā)者下載了 250 萬次 TensorRT。TensorRT 7 也幫助英偉達(dá)創(chuàng)造了多項(xiàng)基準(zhǔn)測試記錄。

　　而相比 7.0 版本，TensorRT 8 的運(yùn)行速度和精準(zhǔn)度都提升了 1 倍。此外，TensorRT 8 還有 2 項(xiàng)較為關(guān)鍵的特性，提升了其 AI 推理性能。

　　第一個(gè)是稀疏性(Sparsity)技術(shù)，該技術(shù)能夠提升英偉達(dá) Ampere 架構(gòu) GPU 性能，可以在保持推理精度的同時(shí)，降低模型中的部分權(quán)重。這意味著模型所需的帶寬和內(nèi)存也會更小。

　　第二個(gè)是量化感知訓(xùn)練(Quantization Aware Training)。這使開發(fā)者能夠利用訓(xùn)練好的模型，以 INT8 精度進(jìn)行推理，既保證精度，也減少了計(jì)算和存儲成本。

英偉達(dá) TensorRT 8 上線，BERT 推理延遲僅有 1.2 毫秒

　　▲ 英偉達(dá) TensorRT 8 提升的性能

　　當(dāng)前，開源 AI 公司 Hugging Face 和醫(yī)療方案解決商 GE 醫(yī)療正在應(yīng)用 TensorRT。

　　Hugging Face 產(chǎn)品總監(jiān) Jeff Boudier 稱，通過采用 TensorRT 8，Hugging Face 在 BERT(預(yù)訓(xùn)練的語言表征模型)上的推理延遲僅有 1.2 毫秒。

　　GE 醫(yī)療心血管超聲首席工程師 Erik Steen 也談道，當(dāng)前臨床醫(yī)生需要花費(fèi)寶貴的時(shí)間來選擇和評估超聲圖像。TensorRT 則憑借其實(shí)時(shí)推理能力，提高了 GE 醫(yī)療的視圖檢測算法性能，能夠加快臨床醫(yī)生的工作效率。

英偉達(dá) TensorRT 8 上線，BERT 推理延遲僅有 1.2 毫秒

　　▲ 英偉達(dá) TensorRT 的應(yīng)用

　　二、連獲 3 項(xiàng)冠軍，7 分鐘即可完成 CPU 近 24 小時(shí)工作

　　除了 TensorRT 8 的具體細(xì)節(jié)，Kari Briski 和 Siddharth Sharma 也分享了英偉達(dá)推薦系統(tǒng)團(tuán)隊(duì)在 RecSys 推薦系統(tǒng)數(shù)據(jù)科學(xué)競賽中所獲得的成績。推薦系統(tǒng)作為計(jì)算機(jī)科學(xué)較新的分支，能夠幫助互聯(lián)網(wǎng)用戶找到自己想看、想玩、想買的內(nèi)容。

　　在本次 ACM RecSys 挑戰(zhàn)賽中，Twitter 會在 28 天內(nèi)向參與者提供數(shù)百萬個(gè)數(shù)據(jù)點(diǎn)，要求他們預(yù)測用戶會點(diǎn)贊或轉(zhuǎn)發(fā)哪些推文。規(guī)則要求選手的模型上限為 20 千兆字節(jié)，必須基于云端 CPU 的單一內(nèi)核運(yùn)行，且時(shí)間不能超過 24 小時(shí)。

　　英偉達(dá)的 7 人團(tuán)隊(duì)則第二次獲得了這一比賽的冠軍。

　　英偉達(dá)參賽成員之一的 Gilberto Titericz 認(rèn)為，其推理模型需要去適應(yīng) CPU 核心是本次比賽的難點(diǎn)之一，對英偉達(dá)的團(tuán)隊(duì)來說“就好像回到了遠(yuǎn)古時(shí)代”。事實(shí)上，在比賽后，該團(tuán)隊(duì)在單個(gè) NVIDIA A100 Tensor Core GPU 上運(yùn)行了比賽模型，CPU 花費(fèi)將近 24 小時(shí)的工作，英偉達(dá) A100 GPU 僅用了 7 分鐘就完成運(yùn)行。

　　此前 5 個(gè)月中，英偉達(dá)還參與了 Booking.com 挑戰(zhàn)賽和 SIGIR 電子商務(wù)數(shù)據(jù)挑戰(zhàn)賽。前者要求選手使用匿名數(shù)據(jù)點(diǎn)預(yù)測歐洲度假者最終選擇前往的城市，后者則提供了 3700 萬個(gè)數(shù)據(jù)點(diǎn)要求選手預(yù)測消費(fèi)者會購買哪些產(chǎn)品。

　　這 2 項(xiàng)比賽吸引了阿里巴巴、沃爾瑪?shù)绕髽I(yè)參與，而英偉達(dá)最終獲得了 2 項(xiàng)比賽的冠軍。

英偉達(dá) TensorRT 8 上線，BERT 推理延遲僅有 1.2 毫秒

　　▲ 英偉達(dá)推薦系統(tǒng)團(tuán)隊(duì)

　　結(jié)語：TensorRT 可有效提升英偉達(dá) GPU 推理表現(xiàn)

　　TensorRT 作為英偉達(dá) GPU 的推理庫，5 年中更新了 7 個(gè)版本。本次，英偉達(dá)推出的 TensorRT 8 相比上一版本再次有較大幅度的性能提升，側(cè)面體現(xiàn)出了英偉達(dá)對推理領(lǐng)域的重視。

　　另外，TensorRT 也支持 Python 調(diào)用，可在數(shù)據(jù)中心、嵌入式和汽車等平臺中應(yīng)用。TensorRT 可以提升視頻流傳輸、語音識別、推薦和自然語言處理等工作的推理延遲，滿足了許多實(shí)時(shí)服務(wù)、自動和嵌入式應(yīng)用的要求。

特別提醒：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，并請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會在24小時(shí)內(nèi)處理完畢。

贊(0)

標(biāo)簽：AI CPU GPU NVIDIA python Twitter word 互聯(lián)網(wǎng)+內(nèi)存數(shù)據(jù)中心歐洲汽車點(diǎn)贊電子商務(wù)營銷計(jì)算機(jī)阿里阿里巴巴

相關(guān)推薦

網(wǎng)站地圖滬ICP備18035694號-2

滬公網(wǎng)安備31011702889846號