色色一区二区三区,一本大道道久久九九AV综合,国产香蕉97碰碰视频va碰碰看,综合亚洲国产2020

    <legend id="mljv4"><u id="mljv4"><blockquote id="mljv4"></blockquote></u></legend>

    <sub id="mljv4"><ol id="mljv4"><abbr id="mljv4"></abbr></ol></sub>
      <mark id="mljv4"></mark>
      大數(shù)據(jù) > Google T5培訓(xùn)前模型每次運行的費用超過130萬美元? 計算能力和

      Google T5培訓(xùn)前模型每次運行的費用超過130萬美元? 計算能力和

      2020-05-11 13:00閱讀(68)

      從arxiv 中選出 作者:或sharir,Barak峰,Yoav Shoham 機器心臟編譯器 參與:杜威,蕭州 近年來,在自然語言處理領(lǐng)域, 各種各樣的各種規(guī)模的語言模型層出不窮

      1
      從arxiv

      中選出

      作者:或sharir,Barak峰,Yoav Shoham

      機器心臟編譯器

      參與:杜威,蕭州

      近年來,在自然語言處理領(lǐng)域, 各種各樣的各種規(guī)模的語言模型層出不窮,這為該領(lǐng)域的發(fā)展提供了足夠的動力。 但是,除了喜悅之外,還出現(xiàn)了培訓(xùn)成本過高的問題。 例如,Bert的培訓(xùn)費用為$ 12000,gpt-2的培訓(xùn)費用為$ 43000,xlnet的培訓(xùn)費用為$ 61000,依此類推。 這使得個人研究人員和初創(chuàng)企業(yè)難以負擔。 因此,了解模型訓(xùn)練的成本非常重要。 本文將為您提供參考指南。 近年來,在自然語言處理領(lǐng)域,各種規(guī)模的各種語言模型層出不窮,這為該領(lǐng)域的發(fā)展提供了足夠的動力。 但是,除了喜悅之外,還出現(xiàn)了培訓(xùn)成本過高的問題。 例如,Bert的培訓(xùn)費用為$ 12000,gpt-2的培訓(xùn)費用為$ 43000,xlnet的培訓(xùn)費用為$ 61000,依此類推。 這使得個人研究人員和初創(chuàng)企業(yè)難以負擔。 因此,了解模型訓(xùn)練的成本非常重要。 本文將為您提供參考指南。 以色列人工智能研究公司ai21實驗室的研究人員在這項研究中以

      評估了訓(xùn)練大型語言模型的成本以及它們過去如何使用它們。 如果您是為自己的模型訓(xùn)練實驗進行預(yù)算的工程師和科學(xué)家,或者您是想了解現(xiàn)代自然語言處理(NLP)成本的非從業(yè)人員,則值得閱讀。

      論文鏈接:https://arxiv.org/pdf/2004.08900.pdf

      硬件改進可以減少拖鞋的成本,但總成本卻一直在上升。

      首先,我們需要指出,基本神經(jīng)網(wǎng)絡(luò)(NN)操作(即浮點操作(觸發(fā)器))的成本一直在下降。 例如,谷歌對resnet-50培訓(xùn)成本比較的研究表明,resnet-50培訓(xùn)成本降低了38%。 這得益于硬件(從GPU到TPU)和框架級別的優(yōu)化,充分利用了并行性的優(yōu)勢。

      發(fā)布全文

      谷歌對resnet-50培訓(xùn)成本的研究表明,八個V100 GPU需要216分鐘來訓(xùn)練90個紀元,成本超過75美元; 一個完整的云TPU V2 Pod訓(xùn)練90個紀元僅需7.9分鐘,費用為50美元。 因此,使用TPU進行培訓(xùn)的成本降低了38%,并且培訓(xùn)速度快了27倍。

      resnet-50培訓(xùn)費用的減少并不是一個孤立的事件。 隨著硬件的創(chuàng)新和訓(xùn)練方法的改進,大規(guī)模模型的訓(xùn)練成本也在降低。 然而,總成本一直在增加,甚至需要數(shù)百萬美元。 因此,研究人員隨后解釋了為什么會發(fā)生這種情況,以及哪些因素在NLP模型的訓(xùn)練成本中起著決定性的作用。 如果有人問訓(xùn)練一個模型要花多少錢? 正確答案有兩種:取決于或很多。 下面從更定量的角度顯示了在Wikipedia和Book Corpus(15GB)上訓(xùn)練不同大小的Bert模型的近似成本。 對于具有不同參數(shù)的Bert模型的

      ,研究人員給出了兩種培訓(xùn)費用:單次培訓(xùn)費用; 超級參數(shù)優(yōu)化和每種設(shè)置下的多次操作所包含的典型滿負荷培訓(xùn)成本(此處顯示了兩種培訓(xùn)配置的中等成本上限以及每種配置的10次操作的成本):

      25000-50000美元(11億個參數(shù) 模型); 10000-200000美元(2.4億參數(shù)模型); 80000-160萬美元(15億參數(shù)模型)。

      這些數(shù)字可以使我們更加了解訓(xùn)練大型模型的成本,并可以基于這些數(shù)字對其他訓(xùn)練成本做出合理的猜測。 例如,根據(jù)谷歌發(fā)布的信息,研究人員估計,在訓(xùn)練110億參數(shù)T5(谷歌于2019年推出的預(yù)訓(xùn)練模型)時,單次運行的成本遠遠超過130萬美元。 因此,如果T5大型模型和數(shù)百個小型模型運行2-3次,整個項目的成本可能達到1000萬美元。 許多公司,包括許多初創(chuàng)公司,都負擔不起這些巨額費用。 有人認為成本不是大問題。 讓像Google這樣的大公司預(yù)先培訓(xùn)并發(fā)布大型語言模型,其他公司則可以微調(diào)特定任務(wù)。 但是其他人并不樂觀。 如果花費

      錢:大小決定一切

      沒有固定的公式來告訴我們給定的NLP設(shè)置需要多少個觸發(fā)器才能達到目標性能。 但是,某些變量會影響數(shù)量,并且這些變量在過去幾年中急劇增加,遠遠超出了以前的“大規(guī)模”以視覺為中心的機器學(xué)習(xí)模型。

      下圖顯示了一些相關(guān)變量,分為三類:(a)數(shù)據(jù)集大; (b)型號(用參數(shù)數(shù)量表示); (c)培訓(xùn)數(shù)量(以培訓(xùn)前過程中處理的令牌總數(shù)表示)。 該圖適用于所有模型,該圖適用于基于變壓器的模型。 研究人員認為,在自然語言處理領(lǐng)域,數(shù)據(jù)集,模型和訓(xùn)練量越來越大。

      這些特定的增加方法對觸發(fā)器數(shù)量的影響非常微妙,這取決于特定的訓(xùn)練計劃和體系結(jié)構(gòu)。 例如,與具有類似模型,數(shù)據(jù)大小和訓(xùn)練步驟的gpt-2模型相比,訓(xùn)練Bert樣式模型所需的觸發(fā)器更少。 其他培訓(xùn)計劃可能會引入其他影響成本的因素,例如Electra的對手培訓(xùn)計劃在培訓(xùn)過程中使用了附加的生成器模型。 這些增加了每個步驟的相對成本,但是需要較少的步驟,因此降低了總成本。 盡管有這些微妙之處,但顯然所有這些增長數(shù)字都與確定底線的翻牌次數(shù)有關(guān)。 除了

      之外,還有一些隱藏成本經(jīng)常被忽略。 每個模型必須經(jīng)過多次訓(xùn)練,以最大程度地減少隨機影響(每次運行基本上是隨機的),并且還必須在組合的大規(guī)模超參數(shù)搜索空間中進行搜索。 這意味著單次訓(xùn)練的成本可能會高出很多倍(在優(yōu)化配置中,大多數(shù)實驗將在訓(xùn)練大型模型之前在較小的模型上執(zhí)行,這可以大大降低成本)。

      的未來之所以

      社區(qū)采用大規(guī)模強大的統(tǒng)計方法的原因是,它比其他任何方法都有效且可以實現(xiàn)更好的性能。 而且,由于NLP具有可觀的經(jīng)濟價值,追求良好性能的成本不會太高。 我們沒有看到在大型語料庫上使用大規(guī)模神經(jīng)網(wǎng)絡(luò)模型的終結(jié),并且可以想象,隨著社區(qū)開發(fā)更復(fù)雜的體系結(jié)構(gòu)來執(zhí)行更大的任務(wù),成本將進一步增加。 當您從句子到整個文檔以及其他內(nèi)容時,您可以想到更多的維度,更長的上下文和每個標記的更高級別。 雖然增加更多的外部知識資源可能會減少對網(wǎng)絡(luò)的獨特依賴,但它也可能有助于擴大網(wǎng)絡(luò)規(guī)模,以便將外部知識映射到嵌入式空間中。 實際上,已經(jīng)有關(guān)于1000億參數(shù)模型的討論。 也就是說,我們看到了一些因素可能有助于抑制這種爆發(fā)并防止事情失控。 以下是研究人員對當前NLP領(lǐng)域的看法:

      隨著競爭的加劇,原始計算的價格進一步降低。 根據(jù)博客文章“來自Tso邏輯的最新研究表明,AWS的成本每年都在降低”,自2006年推出以來,亞馬遜互聯(lián)網(wǎng)服務(wù)(AWS)的價格下降了65倍以上,其中從2014年下降了73% 2017年。預(yù)計面向AI的計算產(chǎn)品將有相同的趨勢。 更有效的神經(jīng)網(wǎng)絡(luò)架構(gòu)部分受經(jīng)濟因素驅(qū)動,部分受環(huán)境因素驅(qū)動。 例如,重整器結(jié)構(gòu)使用試探法將變壓器注意機制的復(fù)雜度從二次降低為o(n log n)。 同樣,Albert通過分解嵌入式矩陣并共享分層權(quán)重,以較少的參數(shù)獲得更高的精度。 我希望看到更多這些; 結(jié)束SOTA游戲。 社區(qū)中越來越多的人意識到,在許多挑戰(zhàn)數(shù)據(jù)集的排名中,很多計算工作被置于排名的首位,這通常涉及很多次(有時甚至數(shù)千次)操作,而所有這些操作都是 只是為了讓一個實例幸運地獲得第一名。 當然,這種過度擬合的價值很小,我們希望看到的更少。 充分利用有用的數(shù)據(jù)。 已寫或?qū)⒁獙懙奈谋具^多(有用)。 如果有機會,我們將在博爾赫斯市的通用圖書館進行培訓(xùn); 有一種流派認為統(tǒng)計ml和神經(jīng)網(wǎng)絡(luò)一樣有用和必要,但是目前還不夠,它將使人們走得更遠。 相反,如果我們遵循這種思路,就需要將結(jié)構(gòu)化知識與象征性方法相結(jié)合,而象征性方法不僅取決于肌肉,還取決于大腦。 研究人員已經(jīng)發(fā)現(xiàn)了這一點。

      這是為機器的心臟編譯的。 請聯(lián)系官方帳戶進行授權(quán)。