摘要
本申请提供基于多模态训练的蒙古语唇语识别方法,包括S1:预处理阶段、S2:训练阶段以及S3:推理阶段;S1:预处理阶段,将语言模型训练文本中的单词切分成动词以外词干、格后缀和动词的形式;S2:训练阶段,首先利用ResNet对音频和视频进行特征提取,获取每个模态的特征表示;所述特征表示随后被输入到Conformer编码器中,经过深度融合提炼出多模态的共享表示;S3:推理阶段,首先通过ResNet对视频图像进行精细的特征提取,所提取的视频特征随后被输入到Conformer编码器中进行深度处理;最后,利用正向S4D解码器对文本内容进行精准预测。通过训练过程中融入了音频信息,系统得以从多模态角度捕捉更多的语音特征,弥补了仅靠视频信息可能出现的模糊和不确定性。
技术关键词
唇语识别方法
蒙古语
多模态
阶段
编码器
视频
注意力
文本
音频特征
人脸检测算法
模块
序列
解码器执行
发音词典
矩阵
语音特征
残差网络
定位算法
系统为您推荐了相关专利信息
多自由度平台
轨迹规划方法
加速度
规划算法
运动
打磨控制方法
运动状态信息
边缘轮廓
轴承盖
路径规划算法
调控系统
多模态数据融合
智能配电柜
配电柜控制器
调控方法
高分辨率遥感影像
卷积算法
监管方法
空洞
纹理特征