語音識別的技術講解

五度易鏈 2018-10-31 2539 116

專屬客服號

微信訂閱號

大數(shù)據(jù)治理

全面提升數(shù)據(jù)價值

賦能業(yè)務提質增效

所謂語音識別，就是將一段語音信號轉換成相對應的文本信息，系統(tǒng)主要包含特征提取、聲學模型，語言模型以及字典與解碼四大部分，其中為了更有效地提取特征往往還需要對所采集到的聲音信號進行濾波、分幀等預處理工作，把要分析的信號從原始信號中提取出來;之后，特征提取工作將聲音信號從時域轉換到頻域，為聲學模型提供合適的特征向量;聲學模型中再根據(jù)聲學特性計算每一個特征向量在聲學特征上的得分;而語言模型則根據(jù)語言學相關的理論，計算該聲音信號對應可能詞組序列的概率;最后根據(jù)已有的字典，對詞組序列進行解碼，得到最后可能的文本表示。

語音識別屬于應用比較廣泛的技術，在手機的微信客戶端，和手機的智能軟件中都發(fā)揮著重要作用，那么語音識別是怎樣將語音變成文字的呢。

語音識別概念

語音模型建立

1. 聲學模型

　　聲學模型是語音識別系統(tǒng)中非常重要的一個組件，對不同基本單元的區(qū)分能力直接關系到識別結果的好壞。語音識別本質上一個模式識別的過程，而模式識別的核心是分類器和分類決策的問題。通常，在孤立詞、中小詞匯量識別中使用動態(tài)時間規(guī)整(DTW)分類器會有良好的識別效果，并且識別速度快，系統(tǒng)開銷小，是語音識別中很成功的匹配算法。但是，在大詞匯量、非特定人語音識別的時候，DTW 識別效果就會急劇下降，這時候使用隱馬爾科夫模型(HMM)進行訓練識別效果就會有明顯提升，由于在傳統(tǒng)語音識別中一般采用連續(xù)的高斯混合模型GMM來對狀態(tài)輸出密度函數(shù)進行刻畫，因此又稱為GMM-HMM構架。

　　同時，隨著深度學習的發(fā)展，通過深度神經(jīng)網(wǎng)絡來完成聲學建模，形成所謂的DNN-HMM構架來取代傳統(tǒng)的GMM-HMM構架，在語音識別上也取得了很好的效果，

　　2. 語言模型

　　語言模型主要是刻畫人類語言表達的方式習慣，著重描述了詞與詞在排列結構上的內(nèi)在聯(lián)系。在語音識別解碼的過程中，在詞內(nèi)轉移參考發(fā)聲詞典、詞間轉移參考語言模型，好的語言模型不僅能夠提高解碼效率，還能在一定程度上提高識別率。語言模型分為規(guī)則模型和統(tǒng)計模型兩類，統(tǒng)計語言模型用概率統(tǒng)計的方法來刻畫語言單位內(nèi)在的統(tǒng)計規(guī)律，其設計簡單實用而且取得了很好的效果，已經(jīng)被廣泛用于語音識別、機器翻譯、情感識別等領域。

語音識別過程

現(xiàn)在語音識別采用模式識別的基本框架，分為數(shù)據(jù)準備、特征提取、模型訓練、測試應用這4個步驟。

　　模型經(jīng)過訓練之后，一段待測的語音需要經(jīng)過信號處理和特征提取，然后利用訓練好的聲學模型和語言模型，分別求得聲學模型和語言模型得分，然后綜合這2個得分，進行候選的搜索，最后得出語言識別的結果。

　　聲音實際上是一種波。常見的mp3、wmv等格式都是壓縮格式，必須轉成非壓縮的純波形文件來處理，比如Windows PCM文件，也就是俗稱的wav文件。wav文件里存儲的除了一個文件頭以外，就是聲音波形的一個個點了。

　　在開始語音識別之前，有時需要把首尾端的靜音切除，降低對后續(xù)步驟造成的干擾。這個靜音切除的操作一般稱為VAD，需要用到信號處理的一些技術。要對聲音進行分析，需要對聲音分幀，也就是把聲音切開成一小段一小段，每小段稱為一幀。分幀操作一般不是簡單的切開，而是使用移動窗函數(shù)來實現(xiàn)，這里不詳述。幀與幀之間一般是有交疊的，

　　分幀后，語音就變成了很多小段。但波形在時域上幾乎沒有描述能力，因此必須將波形作變換。常見的一種變換方法是提取MFCC特征，根據(jù)人耳的生理特性，把每一幀波形變成一個多維向量，可以簡單地理解為這個向量包含了這幀語音的內(nèi)容信息。這個過程叫做聲學特征提取。

　　至此，聲音就成了一個12行(假設聲學特征是12維)、N列的一個矩陣，稱之為觀察序列，這里N為總幀數(shù)。

　　語音識別過程：第一步，把幀識別成狀態(tài)(難點);第二步，把狀態(tài)組合成音素;第三步，把音素組合成單詞。

　　干幀語音對應一個狀態(tài)，每三個狀態(tài)組合成一個音素，若干個音素組合成一個單詞。也就是說，只要知道每幀語音對應哪個狀態(tài)了，語音識別的結果也就出來了。圖中，每個小豎條代表一幀，若干幀語音對應一個狀態(tài)，每三個狀態(tài)組合成一個音素，若干個音素組合成一個單詞。也就是說，只要知道每幀語音對應哪個狀態(tài)了，語音識別的結果也就出來了。

　　語音解碼介紹

　　解碼器是識別階段的核心組件，通過訓練好的模型對語音進行解碼，獲得最可能的詞序列，或者根據(jù)識別中間結果生成識別網(wǎng)格 (lattice) 以供后續(xù)組件處理。解碼器部分的核心算法是動態(tài)規(guī)劃算法 Viterbi。由于解碼空間非常巨大，通常我們在實際應用中會使用限定搜索寬度的令牌傳遞方法 (token passing)。

　　傳統(tǒng)解碼器會完全動態(tài)生成解碼圖 (decode graph)，如著名語音識別工具HTK(HMM Tool Kit) 中的 HVite 和 HDecode 等。這樣的實現(xiàn)內(nèi)存占用較小，但考慮到各個組件的復雜性，整個系統(tǒng)的流程繁瑣，不方便高效地將語言模型和聲學模型結合起來，同時更加難以擴展。現(xiàn)在主流的解碼器實現(xiàn)會一定程度上使用預生成的有限狀態(tài)變換器 (Finite State Transducer, FST) 作為預加載的靜態(tài)解碼圖。

　　伴隨科技的不斷發(fā)展，人工智能產(chǎn)品都需要具備和人類直接交流的能力，這樣的背景下，語音識別的準確性也需要不斷提高，隨著深度學習的研究深入，語音識別有望出現(xiàn)進一步發(fā)展。

產(chǎn)品演示在線咨詢

本文由五度數(shù)科整理，轉載請標明出處，違者必究！

語音識別語音解碼語言模型

收藏|51 贊|116

您可能感興趣的文章

產(chǎn)業(yè)專題

點擊進入

上一篇：國內(nèi)語音識別技術相關公司介紹

下一篇：科大訊飛的技術介紹

四虎影视大全-四虎影视成人永久在线观看-四虎影视成人永久在线播放-四虎影视成人精品-四虎影视成人-四虎影视必出精品

首頁

數(shù)據(jù)API商城

產(chǎn)品與解決方案

行業(yè)觀察

關于我們

首頁

語音識別的技術講解

大數(shù)據(jù)治理

評論

您可能感興趣的文章

中國成為全球新能源汽車產(chǎn)業(yè)的引領者！

光伏設備退役潮將至，“新型污染源”亟待規(guī)范治理

政策、市場、需求不斷利好，創(chuàng)新藥行業(yè)發(fā)展步入快車道！

車企競逐固態(tài)電池量產(chǎn)應用仍在路上

美的集團、海爾智家、格力電器相繼發(fā)布2024年三季度財報!

熱門標簽

產(chǎn)業(yè)專題

010-68321050

產(chǎn)品與解決方案

行業(yè)觀察

關于我們

產(chǎn)品與解決方案

行業(yè)觀察

關于我們

010-68321050

申請產(chǎn)品定制

*姓名

*手機號

*驗證碼

*您的郵箱

*政府/園區(qū)/機構/企業(yè)名稱

您的職務

備注

產(chǎn)品與解決方案

行業(yè)觀察

關于我們

語音識別的技術講解

大數(shù)據(jù)治理

評論

您可能感興趣的文章

中國成為全球新能源汽車產(chǎn)業(yè)的引領者！

光伏設備退役潮將至，“新型污染源”亟待規(guī)范治理

政策、市場、需求不斷利好，創(chuàng)新藥行業(yè)發(fā)展步入快車道！

車企競逐固態(tài)電池 量產(chǎn)應用仍在路上

美的集團、海爾智家、格力電器相繼發(fā)布2024年三季度財報!

熱門標簽

產(chǎn)業(yè)專題

010-68321050

010-68321050

申請產(chǎn)品定制

*姓名

*手機號

*驗證碼

*您的郵箱

*政府/園區(qū)/機構/企業(yè)名稱

您的職務

備注

車企競逐固態(tài)電池量產(chǎn)應用仍在路上