基于多模态训练的蒙古语唇语识别方法

AITNT
正文
推荐专利
基于多模态训练的蒙古语唇语识别方法
申请号:CN202510299062
申请日期:2025-03-13
公开号:CN120148088A
公开日期:2025-06-13
类型:发明专利
摘要
本申请提供基于多模态训练的蒙古语唇语识别方法,包括S1:预处理阶段、S2:训练阶段以及S3:推理阶段;S1:预处理阶段,将语言模型训练文本中的单词切分成动词以外词干、格后缀和动词的形式;S2:训练阶段,首先利用ResNet对音频和视频进行特征提取,获取每个模态的特征表示;所述特征表示随后被输入到Conformer编码器中,经过深度融合提炼出多模态的共享表示;S3:推理阶段,首先通过ResNet对视频图像进行精细的特征提取,所提取的视频特征随后被输入到Conformer编码器中进行深度处理;最后,利用正向S4D解码器对文本内容进行精准预测。通过训练过程中融入了音频信息,系统得以从多模态角度捕捉更多的语音特征,弥补了仅靠视频信息可能出现的模糊和不确定性。
技术关键词
唇语识别方法 蒙古语 多模态 阶段 编码器 视频 注意力 文本 音频特征 人脸检测算法 模块 序列 解码器执行 发音词典 矩阵 语音特征 残差网络 定位算法
系统为您推荐了相关专利信息
1
一种并联多自由度平台轨迹规划方法及系统
多自由度平台 轨迹规划方法 加速度 规划算法 运动
2
一种基于机器视觉与机器人协同的主轴承盖打磨系统及控制方法
打磨控制方法 运动状态信息 边缘轮廓 轴承盖 路径规划算法
3
一种基于眼底彩照的先心病围术期风险预警方法及系统
眼底彩照 围术期 风险预警方法 预训练模型 图像
4
一种基于多模态数据融合的智能配电柜自适应调控系统
调控系统 多模态数据融合 智能配电柜 配电柜控制器 调控方法
5
一种基于高分辨率遥感影像的农业生产监管方法
高分辨率遥感影像 卷积算法 监管方法 空洞 纹理特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号