基于多模态训练的蒙古语唇语识别方法

正文

推荐专利

基于多模态训练的蒙古语唇语识别方法

申请号：CN202510299062

申请日期：2025-03-13

公开号：CN120148088A

公开日期：2025-06-13

类型：发明专利

摘要

本申请提供基于多模态训练的蒙古语唇语识别方法，包括S1：预处理阶段、S2：训练阶段以及S3:推理阶段；S1：预处理阶段，将语言模型训练文本中的单词切分成动词以外词干、格后缀和动词的形式；S2：训练阶段，首先利用ResNet对音频和视频进行特征提取，获取每个模态的特征表示；所述特征表示随后被输入到Conformer编码器中，经过深度融合提炼出多模态的共享表示；S3:推理阶段，首先通过ResNet对视频图像进行精细的特征提取，所提取的视频特征随后被输入到Conformer编码器中进行深度处理；最后，利用正向S4D解码器对文本内容进行精准预测。通过训练过程中融入了音频信息，系统得以从多模态角度捕捉更多的语音特征，弥补了仅靠视频信息可能出现的模糊和不确定性。

技术关键词

唇语识别方法蒙古语多模态阶段编码器视频注意力文本音频特征人脸检测算法模块序列解码器执行发音词典矩阵语音特征残差网络定位算法

系统为您推荐了相关专利信息

一种并联多自由度平台轨迹规划方法及系统

多自由度平台轨迹规划方法加速度规划算法运动

一种基于机器视觉与机器人协同的主轴承盖打磨系统及控制方法

打磨控制方法运动状态信息边缘轮廓轴承盖路径规划算法

一种基于眼底彩照的先心病围术期风险预警方法及系统

眼底彩照围术期风险预警方法预训练模型图像

一种基于多模态数据融合的智能配电柜自适应调控系统

调控系统多模态数据融合智能配电柜配电柜控制器调控方法

一种基于高分辨率遥感影像的农业生产监管方法

高分辨率遥感影像卷积算法监管方法空洞纹理特征

基于多模态训练的蒙古语唇语识别方法

站点导航

APP 下载