DFCNN先對(duì)時(shí)域的語(yǔ)音信號(hào)進(jìn)行傅里葉變換得到語(yǔ)音的語(yǔ)譜,DFCNN直接將一句語(yǔ)音轉(zhuǎn)化成一張像作為輸入,輸出單元?jiǎng)t直接與終的識(shí)別結(jié)果(例如,音節(jié)或者漢字)相對(duì)應(yīng)。DFCNN的結(jié)構(gòu)中把時(shí)間和頻率作為圖像的兩個(gè)維度,通過(guò)較多的卷積層和池化(pooling)層的組合,實(shí)現(xiàn)對(duì)整句語(yǔ)音的建模。DFCNN的原理是把語(yǔ)譜圖看作帶有特定模式的圖像,而有經(jīng)驗(yàn)的語(yǔ)音學(xué)**能夠從中看出里面說(shuō)的內(nèi)容。DFCNN結(jié)構(gòu)。DFCNN模型就是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,其中更多是LSTM網(wǎng)絡(luò)。音頻信號(hào)具有明顯的協(xié)同發(fā)音現(xiàn)象,因此必須考慮長(zhǎng)時(shí)相關(guān)性。由于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN具有更強(qiáng)的長(zhǎng)時(shí)建模能力,使得RNN也逐漸替代DNN和CNN成為語(yǔ)音識(shí)別主流的建模方案。例如,常見(jiàn)的基于seq2seq的編碼-解碼框架就是一種基于RNN的模型。長(zhǎng)期的研究和實(shí)踐證明:基于深度學(xué)習(xí)的聲學(xué)模型要比傳統(tǒng)的基于淺層模型的聲學(xué)模型更適合語(yǔ)音處理任務(wù)。語(yǔ)音識(shí)別的應(yīng)用環(huán)境常常比較復(fù)雜,選擇能夠應(yīng)對(duì)各種情況的模型建模聲學(xué)模型是工業(yè)界及學(xué)術(shù)界常用的建模方式。但單一模型都有局限性。HMM能夠處理可變長(zhǎng)度的表述,CNN能夠處理可變聲道。RNN/CNN能夠處理可變語(yǔ)境信息。聲學(xué)模型建模中,混合模型由于能夠結(jié)合各個(gè)模型的優(yōu)勢(shì)。聲學(xué)模型中再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分。貴州語(yǔ)音服務(wù)哪里買
統(tǒng)一消息系統(tǒng)語(yǔ)音服務(wù):用戶無(wú)需使用電腦,通過(guò)電話或手機(jī)等通信設(shè)備便能夠在沒(méi)有電腦聯(lián)網(wǎng)的情況下(如:旅途、娛樂(lè))隨時(shí)查詢并處理統(tǒng)一消息郵箱中的電子郵件,使溝通更加隨意。功能:聽(tīng)取語(yǔ)音郵件:通過(guò)手機(jī)撥打特別服務(wù)電話的方式聽(tīng)取郵件內(nèi)容,方便用戶及時(shí)獲取信息,使訪問(wèn)郵箱更加容易,不再受到時(shí)間、地點(diǎn)以及設(shè)備的限制?;貜?fù)語(yǔ)音郵件:通過(guò)手機(jī)用語(yǔ)音郵件的方式給發(fā)件人回復(fù)郵件,不僅使郵件的處理方式更加多樣化,同時(shí)讓郵件的處理變得更加及時(shí)。語(yǔ)音留言:用戶可以將統(tǒng)一消息的電子郵箱作為語(yǔ)音信箱使用,收錄各種語(yǔ)音留言,起到電話錄音機(jī)的作用,避免遺漏任何信息。語(yǔ)音控制:用戶通過(guò)手機(jī)撥打特別服務(wù)電話的方式訪問(wèn)統(tǒng)一消息郵箱,可以采用語(yǔ)音命令的形式來(lái)進(jìn)行郵箱的訪問(wèn),高達(dá)97%的語(yǔ)音識(shí)別準(zhǔn)確率,免去了煩瑣的按鍵操作。傳真接收郵件:用戶通過(guò)手機(jī)撥打特別服務(wù)電話的方式訪問(wèn)郵箱郵件后,用戶只需通過(guò)手機(jī)輸入傳真機(jī)的號(hào)碼,選定的郵件便會(huì)通過(guò)系統(tǒng)提供的傳真功能,將郵件的正文和附件內(nèi)容通過(guò)傳真機(jī)打印出來(lái)。統(tǒng)一消息平臺(tái)將電話網(wǎng)和Internet結(jié)合在一起,使電話用戶可以通過(guò)電話或者傳真方式獲取Internet上的信息,也使電子郵件不再局限于Internet。
云南光纖數(shù)據(jù)語(yǔ)音服務(wù)語(yǔ)音服務(wù)客戶回?fù)苁莵?lái)訪客戶在企業(yè)網(wǎng)站上提交電話號(hào)碼,企業(yè)的自動(dòng)回呼語(yǔ)音服務(wù)平臺(tái)向客戶發(fā)起的語(yǔ)音回呼。
已經(jīng)從一個(gè)創(chuàng)新型的技術(shù)變成了一個(gè)完整的解決方案,09年已經(jīng)在工商銀行電話銀行中得到了應(yīng)用,目前已經(jīng)有眾多行業(yè)企業(yè)開(kāi)始應(yīng)用該方案。用戶來(lái)電進(jìn)入語(yǔ)音導(dǎo)航系統(tǒng),直接表達(dá)業(yè)務(wù)需求,如“我的手機(jī)里還有多少錢”,系統(tǒng)便可直接定位至話費(fèi)查詢節(jié)點(diǎn),并通過(guò)語(yǔ)音合成技術(shù)動(dòng)態(tài)播報(bào)用戶話費(fèi)信息。該應(yīng)用主要依賴科大訊飛公司在人機(jī)交互領(lǐng)域持續(xù)積累的幾個(gè)技術(shù)。1.語(yǔ)音服務(wù)識(shí)別技術(shù)–“人的耳朵”智能語(yǔ)音交互首先需要IVR系統(tǒng)能夠聽(tīng)懂人說(shuō)話,這就是需要語(yǔ)音識(shí)別技術(shù),語(yǔ)音識(shí)別技術(shù)經(jīng)歷了幾個(gè)發(fā)展階段:命令詞識(shí)別,需要客戶準(zhǔn)確說(shuō)出業(yè)務(wù)名稱才能識(shí)別;關(guān)鍵詞識(shí)別,客戶需要說(shuō)出業(yè)務(wù)關(guān)鍵詞;連續(xù)語(yǔ)音識(shí)別:識(shí)別可以自由表述需求,無(wú)需關(guān)注業(yè)務(wù)名稱。語(yǔ)音導(dǎo)航應(yīng)用的為連續(xù)語(yǔ)音識(shí)別技術(shù),并基于國(guó)際先進(jìn)的DBN技術(shù)。語(yǔ)音識(shí)別除了和技術(shù)相關(guān),數(shù)據(jù)起的作用也很大,比如北京人和廣東人表述“話費(fèi)查詢”,口音和表達(dá)方法都不完全相同,如果語(yǔ)音識(shí)別聽(tīng)過(guò)的數(shù)據(jù)越多,識(shí)別率就越高,科大訊飛產(chǎn)品已經(jīng)對(duì)大多業(yè)務(wù)類型、口音特點(diǎn)和電話信道等進(jìn)行了適配,識(shí)別率能夠達(dá)到90%以上。2.語(yǔ)義理解技術(shù)—“人的大腦”聽(tīng)懂語(yǔ)音還不夠,還需要理解其意思,例如我們聽(tīng)國(guó)外人唱歌,聲音能聽(tīng)得出來(lái)。
全球高精度模擬和數(shù)字信號(hào)處理元件廠商CirrusLogic(納斯達(dá)克代碼:CRUS)宣布推出面向Alexa語(yǔ)音服務(wù)(AVS)的開(kāi)發(fā)套件,該套件適用于智能揚(yáng)聲器和智能家居應(yīng)用,包括語(yǔ)音控制設(shè)備、免提便攜式揚(yáng)聲器和網(wǎng)絡(luò)揚(yáng)聲器等。面向AmazonAVS的語(yǔ)音采集開(kāi)發(fā)套件采用CirrusLogic的IC和軟件設(shè)計(jì),幫助制造商將Alexa新產(chǎn)品迅速推向市場(chǎng),即使在嘈雜的環(huán)境和音樂(lè)播放過(guò)程中,這些新品也可實(shí)現(xiàn)高精度喚醒詞觸發(fā)和命令解釋功能。面向AmazonAVS的低功耗語(yǔ)音采集開(kāi)發(fā)套件包括采用了CirrusLogicCS47L24智能編解碼器和CS7250B數(shù)字MEMS麥克風(fēng)的參考板,以及進(jìn)行語(yǔ)音控制、噪聲抑制和回聲消除的SoundClear?算法。完整的語(yǔ)音采集參考設(shè)計(jì)進(jìn)一步增強(qiáng)了“Alexa”喚醒詞檢測(cè)和音頻捕獲功能在真實(shí)條件下的實(shí)現(xiàn),即使是在嘈雜環(huán)境下中等距離范圍內(nèi),用戶也能夠可靠地中斷高音音樂(lè)或者Alexa回應(yīng)播放。智能編解碼器使用一個(gè)片上高性能數(shù)模轉(zhuǎn)換器(DAC)以及一個(gè)兩瓦單聲道揚(yáng)聲器驅(qū)動(dòng)器,實(shí)現(xiàn)高保真音頻播放。Alexa語(yǔ)音服務(wù)總監(jiān)PriyaAbani表示:“我們很高興能夠與CirrusLogic一起幫助OEM廠商在更多的智能揚(yáng)聲器和其他各種音頻設(shè)備中應(yīng)用Alexa。在上傳數(shù)據(jù)之前,系統(tǒng)會(huì)要求你為數(shù)據(jù)集選擇語(yǔ)音服務(wù)數(shù)據(jù)類型。
以使得中控設(shè)備來(lái)對(duì)目標(biāo)物聯(lián)網(wǎng)受控設(shè)備進(jìn)行控制。本發(fā)明一實(shí)施例的物聯(lián)網(wǎng)設(shè)備語(yǔ)音控制方法的信號(hào)流程,其涉及在說(shuō)話人、物聯(lián)網(wǎng)主控設(shè)備10、物聯(lián)網(wǎng)受控設(shè)備20和語(yǔ)音服務(wù)端30之間的信號(hào)交互過(guò)程。具體地,在步驟201中,說(shuō)話人對(duì)著物聯(lián)網(wǎng)主控設(shè)備10說(shuō)話。在步驟202中,在物聯(lián)網(wǎng)主控設(shè)備10收到語(yǔ)音消息之后,可以根據(jù)語(yǔ)音消息、目標(biāo)設(shè)備用戶信息和目標(biāo)設(shè)備區(qū)域配置信息來(lái)確定語(yǔ)音控制請(qǐng)求。這里,目標(biāo)設(shè)備用戶信息和目標(biāo)設(shè)備區(qū)域配置信息可以是在物聯(lián)網(wǎng)主控設(shè)備中被預(yù)先配置的(例如,由用戶預(yù)先配置的)。在步驟203中,物聯(lián)網(wǎng)主控設(shè)備10將語(yǔ)音控制請(qǐng)求發(fā)送至語(yǔ)音服務(wù)端30。在步驟2041,語(yǔ)音服務(wù)端30可以確定語(yǔ)音消息所對(duì)應(yīng)的語(yǔ)音控制意圖信息。例如,可以確定語(yǔ)音消息所對(duì)應(yīng)的語(yǔ)音控制意圖信息是“關(guān)燈”。在步驟2042,語(yǔ)音服務(wù)端30可以確定目標(biāo)受控設(shè)備信息。具體地,語(yǔ)音服務(wù)端30可以通過(guò)結(jié)合中所描述的操作來(lái)實(shí)現(xiàn)對(duì)目標(biāo)設(shè)備區(qū)域所對(duì)應(yīng)的目標(biāo)受控設(shè)備信息。在步驟205中,語(yǔ)音服務(wù)端30可以根據(jù)語(yǔ)音控制意圖信息,對(duì)目標(biāo)受控設(shè)備信息所對(duì)應(yīng)的目標(biāo)物聯(lián)網(wǎng)受控設(shè)備進(jìn)行操控。示例性地,語(yǔ)音服務(wù)端30可以發(fā)送操控指令(例如,關(guān)燈指令)至物聯(lián)網(wǎng)受控設(shè)備20。語(yǔ)音服務(wù)端可以是從物聯(lián)網(wǎng)主控設(shè)備直接接收語(yǔ)音控制請(qǐng)求。四川信息化語(yǔ)音服務(wù)供應(yīng)
如何用語(yǔ)音服務(wù)去通知?貴州語(yǔ)音服務(wù)哪里買
CirrusLogic面向AmazonAVS的語(yǔ)音采集開(kāi)發(fā)套件提供了先進(jìn)的聲學(xué)調(diào)音功能,以及成熟可靠的硬件和軟件,使設(shè)備制造商能夠更迅速高效地將產(chǎn)品推向市場(chǎng)?!盋irrusLogic音頻產(chǎn)品市場(chǎng)營(yíng)銷副總裁CarlAlberty表示:“借助我們?cè)谝纛l和語(yǔ)音IC以及軟件上的經(jīng)驗(yàn),我們?yōu)橹悄芗揖討?yīng)用制造商提供了功能強(qiáng)大而且使用方便的語(yǔ)音采集開(kāi)發(fā)套件,幫助他們開(kāi)發(fā)支持Alexa的產(chǎn)品。我們的AVS開(kāi)發(fā)套件語(yǔ)音命令性能非常出色,與CirrusLogic工具和軟件相結(jié)合后,能夠幫助OEM廠商更快地把具有優(yōu)異的Alexa語(yǔ)音互動(dòng)功能的Hi-Fi揚(yáng)聲器產(chǎn)品推向市場(chǎng)?!盋irrusLogic語(yǔ)音采集技術(shù)有助于進(jìn)一步提高性能CirrusLogic的語(yǔ)音采集解決方案抑zhi了噪聲和其他實(shí)際干擾,語(yǔ)音交互更為準(zhǔn)確和可靠,從而讓用戶獲得更好的感受。這種技術(shù)增強(qiáng)了“Alexa”在安靜和嘈雜環(huán)境中的喚醒詞檢測(cè)功能,用戶距離設(shè)備數(shù)米遠(yuǎn)即可實(shí)現(xiàn)該功能。CirrusLogic的回聲消除技術(shù)支持用戶“插入”或者中斷高音音樂(lè)播放和Alexa響應(yīng),是實(shí)現(xiàn)出色用戶體驗(yàn)的關(guān)鍵所在,因此,Alexa可以準(zhǔn)確地對(duì)新命令要求做出反應(yīng)。CirrusLogic的MEMS麥克風(fēng)所具有的低噪聲基底和寬動(dòng)態(tài)范圍(130分貝)可確保其在苛刻的噪聲條件下精確地采集語(yǔ)音。貴州語(yǔ)音服務(wù)哪里買