來(lái)源:vb 編制的 大數(shù)據(jù)摘要上個(gè)月,微軟宣布其閑暇,F(xiàn)acebook工作場(chǎng)所和團(tuán)隊(duì),谷歌的環(huán)聊聊天競(jìng)爭(zhēng)對(duì)手的日常活躍用戶已超過(guò)4400萬(wàn)。 這個(gè)里程碑掩蓋了它后來(lái)發(fā)
固定噪聲和非固定噪聲
當(dāng)然,Microsoft團(tuán)隊(duì),商務(wù)用Skype和Skype以及其他通信工具和視頻會(huì)議應(yīng)用程序都具有抑制噪音的能力很多年了。 但是這些噪聲抑制只能消除固定的噪聲,例如在后臺(tái)運(yùn)行的計(jì)算機(jī)風(fēng)扇的聲音或空調(diào)的聲音。 傳統(tǒng)的降噪方法是在說(shuō)話暫停時(shí)估計(jì)參考噪聲,并假設(shè)連續(xù)的背景噪聲不會(huì)隨時(shí)間變化,然后將其濾除。 擴(kuò)展了Microsoft團(tuán)隊(duì)的全文,以進(jìn)一步抑制非固定噪音,例如吠叫或關(guān)門(mén)。 “那不是固定的。”艾希納解釋說(shuō)。 “通常,您無(wú)法在暫停時(shí)估計(jì)這種噪聲。但是現(xiàn)在,機(jī)器學(xué)習(xí)使您可以創(chuàng)建帶有大量代表性噪聲的訓(xùn)練集進(jìn)行訓(xùn)練!睂(shí)際上,在上,微軟早先在GitHub上發(fā)布了其訓(xùn)練集 今年,“促進(jìn)這一領(lǐng)域的研究”。 盡管第一個(gè)版本是公開(kāi)可用的,但是Microsoft仍在積極致力于擴(kuò)展數(shù)據(jù)集。 該公司的一位發(fā)言人證實(shí),作為實(shí)時(shí)降噪功能的一部分,通話期間不會(huì)過(guò)濾掉數(shù)據(jù)集中的某些類(lèi)型的噪聲,包括樂(lè)器,笑聲和歌曲。 GitHub鏈接:https://github.com/microsoft/dns-challenge/tree/master/datasets
微軟不能簡(jiǎn)單地分離人類(lèi)的聲音,因?yàn)槟承┰胍粢簿哂邢嗤念l率。 在語(yǔ)音信號(hào)頻譜中,一些噪聲不僅出現(xiàn)在語(yǔ)音間隙中,而且與語(yǔ)音本身重疊。 因此,濾除噪聲幾乎是不可能的-因?yàn)檎Z(yǔ)音和噪聲重疊,并且無(wú)法區(qū)分兩者。 相反,您需要訓(xùn)練網(wǎng)絡(luò)以了解噪聲和聲音是什么樣的。語(yǔ)音識(shí)別和噪聲抑制
為了澄清這一點(diǎn),艾奇納將用于噪聲抑制的機(jī)器學(xué)習(xí)模型與用于語(yǔ)音識(shí)別的機(jī)器學(xué)習(xí)模型進(jìn)行了比較。 對(duì)于語(yǔ)音識(shí)別模型,您需要記錄用戶在麥克風(fēng)中講話的大量語(yǔ)音數(shù)據(jù),并通過(guò)記錄數(shù)據(jù)內(nèi)容手動(dòng)標(biāo)記這些數(shù)據(jù)。 與將麥克風(fēng)輸入映射到文本不同,降噪專(zhuān)注于將嘈雜的語(yǔ)音轉(zhuǎn)換為純語(yǔ)音。 aichner說(shuō):“我們訓(xùn)練了一個(gè)模型來(lái)理解噪聲和語(yǔ)音之間的差異,然后該模型試圖僅保留語(yǔ)音!蔽覀冇幸粋(gè)訓(xùn)練數(shù)據(jù)集,可以收集數(shù)千種不同的人聲和100多種噪聲類(lèi)型。 接下來(lái),我們要做的是將沒(méi)有噪聲的干凈語(yǔ)音與噪聲混合在一起,以模擬麥克風(fēng)信號(hào)。接下來(lái),我們向模型提供干凈語(yǔ)音作為注釋數(shù)據(jù)。就像您告訴模型,“請(qǐng)從這些信號(hào)中提取干凈的信號(hào)。 嘈雜的數(shù)據(jù),就像標(biāo)記數(shù)據(jù)一樣。 這是在監(jiān)督學(xué)習(xí)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法。 您必須具有一些標(biāo)記數(shù)據(jù)。 “用于語(yǔ)音識(shí)別的,注釋數(shù)據(jù)是與麥克風(fēng)說(shuō)話的實(shí)際內(nèi)容。對(duì)于實(shí)時(shí)噪聲抑制,注釋數(shù)據(jù)是干凈的語(yǔ)音。通過(guò)提供足夠大的數(shù)據(jù)集(在這種情況下,數(shù)百小時(shí)的數(shù)據(jù)),Microsoft 可以有效地訓(xùn)練其模型!凹词刮业穆曇魶](méi)有出現(xiàn)在訓(xùn)練數(shù)據(jù)中,該模型也可以泛化并減少噪聲!卑婕{說(shuō),“因此,當(dāng)我講話時(shí),該模型可以從噪聲中真正提取出清晰的聲音。 時(shí)間,然后將其發(fā)送給遠(yuǎn)程人員!挑戰(zhàn)了
和語(yǔ)音識(shí)別的功能,并且即使后者是實(shí)時(shí)的,噪聲抑制也更容易實(shí)現(xiàn)。為什么以前沒(méi)有實(shí)現(xiàn)它?微軟的競(jìng)爭(zhēng)對(duì)手可以嗎? Aichner列出了構(gòu)建實(shí)時(shí)噪聲抑制的挑戰(zhàn),包括尋找代表性數(shù)據(jù)集,構(gòu)建和縮小模型以及利用機(jī)器學(xué)習(xí)知識(shí)代表性數(shù)據(jù)集
我們提到了第一個(gè)挑戰(zhàn): 代表性數(shù)據(jù)集。 團(tuán)隊(duì)花費(fèi)了大量時(shí)間來(lái)弄清楚如何生成代表典型呼叫情況的聲音文件。 他們從有聲讀物中找出了男人和女人的典型聲音,因?yàn)椤澳腥撕团说穆曇糁g確實(shí)存在語(yǔ)音差異”。 他們還使用帶注釋的YouTube數(shù)據(jù)集來(lái)標(biāo)記錄音中包含的聲音,例如打字和音樂(lè)。 然后,Aichner的團(tuán)隊(duì)使用腳本以不同的信噪比組合語(yǔ)音和噪聲數(shù)據(jù)。 然后,通過(guò)放大噪音,他們可以模仿通話中可能發(fā)生的不同情況。 ,但有聲讀物與電話會(huì)議完全不同。 這不影響模型并因此影響噪聲抑制的效果嗎? “這是一個(gè)好點(diǎn),”艾希納(Aichner)承認(rèn)。 “我們的團(tuán)隊(duì)還進(jìn)行了一些記錄,以確保我們不僅對(duì)生成的合成數(shù)據(jù)進(jìn)行訓(xùn)練,而且還對(duì)實(shí)際數(shù)據(jù)進(jìn)行處理。但是,要獲得那些真實(shí)記錄會(huì)變得更加困難。”隱私限制
不允許aichner的小組查看任何用戶數(shù)據(jù)。 此外,Microsoft中有非常嚴(yán)格的隱私保護(hù)規(guī)則。 “我不能說(shuō),”現(xiàn)在我將開(kāi)始記錄每個(gè)會(huì)議。 “因此,團(tuán)隊(duì)無(wú)法使用Microsoft團(tuán)隊(duì)進(jìn)行呼叫。即使有些員工愿意讓他們記錄會(huì)議,他們?nèi)匀恍枰谟忻黠@噪音的情況下進(jìn)行記錄。”,這就是我們只做一些小型會(huì)議的原因 現(xiàn)在工作,以確保我們可以使用各種設(shè)備,揚(yáng)聲器等收集一些真實(shí)的錄音!卑<{說(shuō),“下一步,我們需要將它們用作測(cè)試集,即在接近真實(shí)會(huì)議場(chǎng)景的情況下測(cè)試數(shù)據(jù)。 讓我們看看我們是否使用了準(zhǔn)確的訓(xùn)練集,以及我們?cè)跍y(cè)試集上的表現(xiàn)如何? 當(dāng)然,對(duì)于我來(lái)說(shuō),理想的情況是擁有一個(gè)包含所有團(tuán)隊(duì)錄音并帶有人們聽(tīng)到的所有噪音的訓(xùn)練集。 但是現(xiàn)實(shí)是,我無(wú)法像獲取其他開(kāi)源數(shù)據(jù)一樣容易地獲得相同大小的數(shù)據(jù)。 “ 加他說(shuō),”您可能會(huì)說(shuō)它應(yīng)該更好。 當(dāng)然,如果有更多代表性數(shù)據(jù),可能會(huì)更好。 因此,我認(rèn)為將來(lái)可以看到是否可以進(jìn)一步改進(jìn)。 但是就目前而言,即使它只是使用現(xiàn)有的公共數(shù)據(jù),它的表現(xiàn)也很好。云和邊緣
的下一個(gè)挑戰(zhàn)是確定:如何建立神經(jīng)網(wǎng)絡(luò),模型結(jié)構(gòu)應(yīng)該如何以及如何進(jìn)行迭代。機(jī)器學(xué)習(xí)模型已經(jīng)進(jìn)行了很多調(diào)整,這需要大量的計(jì)算 ,這使aichner的團(tuán)隊(duì)需要花費(fèi)很長(zhǎng)時(shí)間才能理解(當(dāng)然,必須是??)該模型是在GPU上訓(xùn)練的。“很多機(jī)器學(xué)習(xí)任務(wù)都是在云中完成的,” aichner說(shuō),“ 例如,對(duì)于語(yǔ)音識(shí)別任務(wù),如果您對(duì)著麥克風(fēng)講話,語(yǔ)音將被發(fā)送到云中。借助云中強(qiáng)大的計(jì)算能力,可以運(yùn)行這些大型模型來(lái)識(shí)別這種聲音。但是對(duì)我們來(lái)說(shuō),因?yàn)?是實(shí)時(shí)通信,我需要處理每個(gè)幀,如果是10毫秒或20毫秒,那么我需要在這段時(shí)間內(nèi)完成處理,這樣我才能立即將其發(fā)送回給您,因此無(wú)法發(fā)送 將其發(fā)送到云端,等待噪聲被抑制,然后將其發(fā)送回去。 唱云可能是有意義的。 但是對(duì)于實(shí)時(shí)噪聲抑制,這沒(méi)有任何意義。 一旦有了機(jī)器學(xué)習(xí)模型,就應(yīng)該縮小它以適合客戶,可能是手機(jī)或計(jì)算機(jī)。 僅針對(duì)擁有高端機(jī)器的人的機(jī)器學(xué)習(xí)模型是沒(méi)有意義的。將處理推進(jìn)到邊緣
的另一個(gè)原因是,它將機(jī)器學(xué)習(xí)模型保持在邊緣而不是在云中:Microsoft希望限制服務(wù)器的使用,有時(shí)甚至是在開(kāi)始時(shí)。 對(duì)于Microsoft團(tuán)隊(duì)中的一對(duì)一呼叫,呼叫設(shè)置是通過(guò)服務(wù)器進(jìn)行的,但是實(shí)際的音頻和視頻信號(hào)包是直接在兩個(gè)參與者之間發(fā)送的。 對(duì)于小組電話或預(yù)定的會(huì)議,需要有一臺(tái)服務(wù)器,但是Microsoft會(huì)最小化該服務(wù)器上的負(fù)載。 為每個(gè)呼叫執(zhí)行大量服務(wù)器處理不僅會(huì)增加成本,還會(huì)增加每個(gè)其他網(wǎng)絡(luò)躍點(diǎn)的延遲。 從成本和延遲的角度來(lái)看,邊緣端的處理效率會(huì)更好。 :“您需要確保向客戶端進(jìn)行盡可能多的計(jì)算,因?yàn)樗鼘?shí)際上并不涉及任何成本。您已經(jīng)擁有一臺(tái)筆記本電腦,PC或移動(dòng)電話,只需執(zhí)行其他操作即可。只要您 CPU沒(méi)有過(guò)載,沒(méi)有問(wèn)題,”艾希納說(shuō)。 指出電池壽命,特別是未處于連接狀態(tài)的設(shè)備的電池壽命是成本之一,艾奇納說(shuō):“是的,當(dāng)然,我們也要注意這一點(diǎn),我們不希望 僅通過(guò)添加一些噪聲抑制功能來(lái)減少設(shè)備的電池壽命。這絕對(duì)是另一個(gè)需要滿足的問(wèn)題,以確保這沒(méi)什么大不了的!下載大小和未來(lái)的
團(tuán)隊(duì)不僅應(yīng)該考慮可能 失敗,而且美國(guó)國(guó)家航空航天局已發(fā)出近10億 Dell的新款Precision 7000系列移 蘇寧中華第一店的“倒退”顯示出 Microsoft Surface go 2已通過(guò)En 如何連接裝修工人的訂單接收平臺(tái) 這21個(gè)應(yīng)用程序是非法的! 您可 YouTube每分鐘產(chǎn)生32000美元的廣 頻頻挖角高管抱怨午夜,魅族的應(yīng) 當(dāng)場(chǎng)推翻原版! AI不承認(rèn)上帝, 數(shù)字基礎(chǔ)共享視頻介紹了VRS可變 北通云企業(yè)照明站,3分鐘發(fā)布一 100智能大廈 新聞:2020年13英寸Macbook Pro 閱讀對(duì)最近查詢的回應(yīng):全面推動(dòng) 餐飲業(yè)的創(chuàng)新,變革和利潤(rùn)保證 國(guó)家緊急響應(yīng)為2級(jí)或以下; 特斯 巴菲特:尚未找到感興趣的公司 Apple的新消息專(zhuān)利:重新編輯發(fā) 沒(méi)有贏得原始的跑步成績(jī),并且沒(méi) 長(zhǎng)鑫家用DDR4內(nèi)存芯片/顆粒處理 在原始的win10中搜索其他瀏覽器 巴菲特的Alpha:使用機(jī)器學(xué)習(xí)量 圖片預(yù)覽界面中的新增長(zhǎng)焦點(diǎn)圖片 巴菲特:麝香做得很棒,但不會(huì)投 閱讀:作家座談會(huì)于5月6日啟動(dòng), 原始IOS 13.5 beta 3帶來(lái)了有關(guān) 中國(guó)人民銀行:恢復(fù)生產(chǎn)的狀況正 原裝國(guó)內(nèi)最差的手機(jī)系統(tǒng):華為的 比亞迪與華為合作! 趙長(zhǎng)江:特 經(jīng)典gal“ MUV luv”將發(fā)布在Ste