您现在的位置: 精品资料网 >> 管理信息化 >> 信息技术 >> 资料信息

学位论文之基于视觉信息的语音识别技术研究(pdf 70页)

所属分类:
信息技术
文件大小:
2769 KB
下载地址:
相关资料:
学位论文,识别技术,技术研究
学位论文之基于视觉信息的语音识别技术研究(pdf 70页)内容简介
学位论文之基于视觉信息的语音识别技术研究内容提要:
在人机交互领域中,传统的单语音识别技术在相对安静的环境下能够对连续的单词及词组达到较高的识别率。然而,将其应用到有背景噪声或多人交互的真实环境时,其识别能力受到了极大的限制。现实语音交流中,说话人的视觉信息可以明显提升接受者的感知能力。因此,本文主要研究了计算机视觉技术在自动语音识别中的应用。
本文首先介绍了基于视觉的视听语音识别(AVSR)系统的整体框架,并对传统的单视觉、单音频的特征提取和识别方法进行了分析比较。认为人脸嘴部视觉特征的检测提取与视、音特征融合是提高系统整体语音识别能力的关键,亦是本文主要的研究工作。
为了满足视觉特征的实时检测,我们首先引入了旋转哈尔特征在积分图像中的应用,在基于Adaboost推进学习算法上通过使用单值分类作为基础特征分类器,以级联的方式合并强分类器,划分检测区域并用于嘴部定位,最后通过卡尔曼滤波跟踪、主成分分析、线性判别、音节分析,抛弃了大量对后期特征融合识别无用的特征量,快速有效的提取了人脸嘴部特征。音频语音特征的提取我们采用了较成熟的Mel倒谱系数方法。对所获取的单视、音特征采用隐马尔可夫模型作为训练识别算法。耦合隐马尔可夫模型的实现可以在时间上对视、音频流状态的异步过程建模,并且保留了视、音特征的独立性,实现了视、音
特征流在决策级上的融合识别。
..............................