從arxiv 中選出 作者:或sharir,Barak峰,Yoav Shoham 機器心臟編譯器 參與:杜威,蕭州 近年來,在自然語言處理領(lǐng)域, 各種各樣的各種規(guī)模的語言模型層出不窮
作者:或sharir,Barak峰,Yoav Shoham
機器心臟編譯器參與:杜威,蕭州近年來,在自然語言處理領(lǐng)域, 各種各樣的各種規(guī)模的語言模型層出不窮,這為該領(lǐng)域的發(fā)展提供了足夠的動力。 但是,除了喜悅之外,還出現(xiàn)了培訓(xùn)成本過高的問題。 例如,Bert的培訓(xùn)費用為$ 12000,gpt-2的培訓(xùn)費用為$ 43000,xlnet的培訓(xùn)費用為$ 61000,依此類推。 這使得個人研究人員和初創(chuàng)企業(yè)難以負擔。 因此,了解模型訓(xùn)練的成本非常重要。 本文將為您提供參考指南。 近年來,在自然語言處理領(lǐng)域,各種規(guī)模的各種語言模型層出不窮,這為該領(lǐng)域的發(fā)展提供了足夠的動力。 但是,除了喜悅之外,還出現(xiàn)了培訓(xùn)成本過高的問題。 例如,Bert的培訓(xùn)費用為$ 12000,gpt-2的培訓(xùn)費用為$ 43000,xlnet的培訓(xùn)費用為$ 61000,依此類推。 這使得個人研究人員和初創(chuàng)企業(yè)難以負擔。 因此,了解模型訓(xùn)練的成本非常重要。 本文將為您提供參考指南。 以色列人工智能研究公司ai21實驗室的研究人員在這項研究中以
評估了訓(xùn)練大型語言模型的成本以及它們過去如何使用它們。 如果您是為自己的模型訓(xùn)練實驗進行預(yù)算的工程師和科學(xué)家,或者您是想了解現(xiàn)代自然語言處理(NLP)成本的非從業(yè)人員,則值得閱讀。
論文鏈接:https://arxiv.org/pdf/2004.08900.pdf
硬件改進可以減少拖鞋的成本,但總成本卻一直在上升。
首先,我們需要指出,基本神經(jīng)網(wǎng)絡(luò)(NN)操作(即浮點操作(觸發(fā)器))的成本一直在下降。 例如,谷歌對resnet-50培訓(xùn)成本比較的研究表明,resnet-50培訓(xùn)成本降低了38%。 這得益于硬件(從GPU到TPU)和框架級別的優(yōu)化,充分利用了并行性的優(yōu)勢。
發(fā)布全文谷歌對resnet-50培訓(xùn)成本的研究表明,八個V100 GPU需要216分鐘來訓(xùn)練90個紀元,成本超過75美元; 一個完整的云TPU V2 Pod訓(xùn)練90個紀元僅需7.9分鐘,費用為50美元。 因此,使用TPU進行培訓(xùn)的成本降低了38%,并且培訓(xùn)速度快了27倍。
resnet-50培訓(xùn)費用的減少并不是一個孤立的事件。 隨著硬件的創(chuàng)新和訓(xùn)練方法的改進,大規(guī)模模型的訓(xùn)練成本也在降低。 然而,總成本一直在增加,甚至需要數(shù)百萬美元。 因此,研究人員隨后解釋了為什么會發(fā)生這種情況,以及哪些因素在NLP模型的訓(xùn)練成本中起著決定性的作用。 如果有人問訓(xùn)練一個模型要花多少錢? 正確答案有兩種:取決于或很多。 下面從更定量的角度顯示了在Wikipedia和Book Corpus(15GB)上訓(xùn)練不同大小的Bert模型的近似成本。 對于具有不同參數(shù)的Bert模型的
,研究人員給出了兩種培訓(xùn)費用:單次培訓(xùn)費用; 超級參數(shù)優(yōu)化和每種設(shè)置下的多次操作所包含的典型滿負荷培訓(xùn)成本(此處顯示了兩種培訓(xùn)配置的中等成本上限以及每種配置的10次操作的成本):
25000-50000美元(11億個參數(shù) 模型); 10000-200000美元(2.4億參數(shù)模型); 80000-160萬美元(15億參數(shù)模型)。這些數(shù)字可以使我們更加了解訓(xùn)練大型模型的成本,并可以基于這些數(shù)字對其他訓(xùn)練成本做出合理的猜測。 例如,根據(jù)谷歌發(fā)布的信息,研究人員估計,在訓(xùn)練110億參數(shù)T5(谷歌于2019年推出的預(yù)訓(xùn)練模型)時,單次運行的成本遠遠超過130萬美元。 因此,如果T5大型模型和數(shù)百個小型模型運行2-3次,整個項目的成本可能達到1000萬美元。 許多公司,包括許多初創(chuàng)公司,都負擔不起這些巨額費用。 有人認為成本不是大問題。 讓像Google這樣的大公司預(yù)先培訓(xùn)并發(fā)布大型語言模型,其他公司則可以微調(diào)特定任務(wù)。 但是其他人并不樂觀。 如果花費
錢:大小決定一切
沒有固定的公式來告訴我們給定的NLP設(shè)置需要多少個觸發(fā)器才能達到目標性能。 但是,某些變量會影響數(shù)量,并且這些變量在過去幾年中急劇增加,遠遠超出了以前的“大規(guī)模”以視覺為中心的機器學(xué)習(xí)模型。
下圖顯示了一些相關(guān)變量,分為三類:(a)數(shù)據(jù)集大; (b)型號(用參數(shù)數(shù)量表示); (c)培訓(xùn)數(shù)量(以培訓(xùn)前過程中處理的令牌總數(shù)表示)。 該圖適用于所有模型,該圖適用于基于變壓器的模型。 研究人員認為,在自然語言處理領(lǐng)域,數(shù)據(jù)集,模型和訓(xùn)練量越來越大。
這些特定的增加方法對觸發(fā)器數(shù)量的影響非常微妙,這取決于特定的訓(xùn)練計劃和體系結(jié)構(gòu)。 例如,與具有類似模型,數(shù)據(jù)大小和訓(xùn)練步驟的gpt-2模型相比,訓(xùn)練Bert樣式模型所需的觸發(fā)器更少。 其他培訓(xùn)計劃可能會引入其他影響成本的因素,例如Electra的對手培訓(xùn)計劃在培訓(xùn)過程中使用了附加的生成器模型。 這些增加了每個步驟的相對成本,但是需要較少的步驟,因此降低了總成本。 盡管有這些微妙之處,但顯然所有這些增長數(shù)字都與確定底線的翻牌次數(shù)有關(guān)。 除了
之外,還有一些隱藏成本經(jīng)常被忽略。 每個模型必須經(jīng)過多次訓(xùn)練,以最大程度地減少隨機影響(每次運行基本上是隨機的),并且還必須在組合的大規(guī)模超參數(shù)搜索空間中進行搜索。 這意味著單次訓(xùn)練的成本可能會高出很多倍(在優(yōu)化配置中,大多數(shù)實驗將在訓(xùn)練大型模型之前在較小的模型上執(zhí)行,這可以大大降低成本)。
的未來之所以
社區(qū)采用大規(guī)模強大的統(tǒng)計方法的原因是,它比其他任何方法都有效且可以實現(xiàn)更好的性能。 而且,由于NLP具有可觀的經(jīng)濟價值,追求良好性能的成本不會太高。 我們沒有看到在大型語料庫上使用大規(guī)模神經(jīng)網(wǎng)絡(luò)模型的終結(jié),并且可以想象,隨著社區(qū)開發(fā)更復(fù)雜的體系結(jié)構(gòu)來執(zhí)行更大的任務(wù),成本將進一步增加。 當您從句子到整個文檔以及其他內(nèi)容時,您可以想到更多的維度,更長的上下文和每個標記的更高級別。 雖然增加更多的外部知識資源可能會減少對網(wǎng)絡(luò)的獨特依賴,但它也可能有助于擴大網(wǎng)絡(luò)規(guī)模,以便將外部知識映射到嵌入式空間中。 實際上,已經(jīng)有關(guān)于1000億參數(shù)模型的討論。 也就是說,我們看到了一些因素可能有助于抑制這種爆發(fā)并防止事情失控。 以下是研究人員對當前NLP領(lǐng)域的看法:
隨著競爭的加劇,原始計算的價格進一步降低。 根據(jù)博客文章“來自Tso邏輯的最新研究表明,AWS的成本每年都在降低”,自2006年推出以來,亞馬遜互聯(lián)網(wǎng)服務(wù)(AWS)的價格下降了65倍以上,其中從2014年下降了73% 2017年。預(yù)計面向AI的計算產(chǎn)品將有相同的趨勢。 更有效的神經(jīng)網(wǎng)絡(luò)架構(gòu)部分受經(jīng)濟因素驅(qū)動,部分受環(huán)境因素驅(qū)動。 例如,重整器結(jié)構(gòu)使用試探法將變壓器注意機制的復(fù)雜度從二次降低為o(n log n)。 同樣,Albert通過分解嵌入式矩陣并共享分層權(quán)重,以較少的參數(shù)獲得更高的精度。 我希望看到更多這些; 結(jié)束SOTA游戲。 社區(qū)中越來越多的人意識到,在許多挑戰(zhàn)數(shù)據(jù)集的排名中,很多計算工作被置于排名的首位,這通常涉及很多次(有時甚至數(shù)千次)操作,而所有這些操作都是 只是為了讓一個實例幸運地獲得第一名。 當然,這種過度擬合的價值很小,我們希望看到的更少。 充分利用有用的數(shù)據(jù)。 已寫或?qū)⒁獙懙奈谋具^多(有用)。 如果有機會,我們將在博爾赫斯市的通用圖書館進行培訓(xùn); 有一種流派認為統(tǒng)計ml和神經(jīng)網(wǎng)絡(luò)一樣有用和必要,但是目前還不夠,它將使人們走得更遠。 相反,如果我們遵循這種思路,就需要將結(jié)構(gòu)化知識與象征性方法相結(jié)合,而象征性方法不僅取決于肌肉,還取決于大腦。 研究人員已經(jīng)發(fā)現(xiàn)了這一點。這是為機器的心臟編譯的。 請聯(lián)系官方帳戶進行授權(quán)。
美國國家航空航天局已發(fā)出近10億 Dell的新款Precision 7000系列移 蘇寧中華第一店的“倒退”顯示出 Microsoft Surface go 2已通過En 如何連接裝修工人的訂單接收平臺 這21個應(yīng)用程序是非法的! 您可 YouTube每分鐘產(chǎn)生32000美元的廣 頻頻挖角高管抱怨午夜,魅族的應(yīng) 當場推翻原版! AI不承認上帝, 數(shù)字基礎(chǔ)共享視頻介紹了VRS可變 北通云企業(yè)照明站,3分鐘發(fā)布一 100智能大廈 新聞:2020年13英寸Macbook Pro 閱讀對最近查詢的回應(yīng):全面推動 餐飲業(yè)的創(chuàng)新,變革和利潤保證 國家緊急響應(yīng)為2級或以下; 特斯 巴菲特:尚未找到感興趣的公司 Apple的新消息專利:重新編輯發(fā) 沒有贏得原始的跑步成績,并且沒 長鑫家用DDR4內(nèi)存芯片/顆粒處理 在原始的win10中搜索其他瀏覽器 巴菲特的Alpha:使用機器學(xué)習(xí)量 圖片預(yù)覽界面中的新增長焦點圖片 巴菲特:麝香做得很棒,但不會投 閱讀:作家座談會于5月6日啟動, 原始IOS 13.5 beta 3帶來了有關(guān) 中國人民銀行:恢復(fù)生產(chǎn)的狀況正 原裝國內(nèi)最差的手機系統(tǒng):華為的 比亞迪與華為合作! 趙長江:特 經(jīng)典gal“ MUV luv”將發(fā)布在Ste