政策法规
Group news
江苏宏丰木业有限公司    您的位置: 首页  >  政策法规  >  正文

全球语音识别技术发展有四大问题待解决

2019年11月05日 文章来源:网络整理 热度:89℃ 作者:刘英

  语音识别的意思是将人说话的内容和意思转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。与说话人的识别不同,后者主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的就是让机器听懂人类口述的语言,包括了两方面的含义:第一是逐字逐句听懂而不是转化成书面的语言文字;第二是对口述语言中所包含的命令或请求加以领会,做出正确回应,而不仅仅只是拘泥于所有词汇的正确转换。

  自从1952年,AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年,美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959年,Fry和Denes等人尝试构建音素器来4个元音和9个辅音,并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代,苏联的MaTIn等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式,它正逐步成为信息技术中人机接口的关键技术。

  一:语音识别技术发展现状-语音识别系统的分类

  语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:

  (1)特定人语音识别系统。仅考虑对于专人的话音进行识别。

  (2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。

  (3)多人的识别系统。通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

  如果从说话的方式考虑,也可以将识别系统分为三类:

  (1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。

  (2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现。

  (3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

  如果从识别系统的词汇量大小考虑,也可以将识别系统分为三类:

  (1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。

  (2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。

  (3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

  二:语音识别技术发展现状-语音识别的方法汇总分析

  目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。

  动态时间规整算法(Dynamic TIme Warping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。

  隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。

上一篇:京东方将采用“O+O”方式销售面板产品


下一篇:移动AI翻译官:深度学习推理突破赋力科大讯飞语音应用

友情链接
Links
鸿运国际官网_鸿运国际备用网址