摘要
本发明公开了一种基于多模态融合的智能语言学习方法,属于智能语言学习领域。包括以下步骤:获取用户的语音输入信号、唇形视频数据和文本输入数据;对所述语音输入信号进行分帧加窗处理,得到语音特征向量;对所述唇形视频数据进行提取唇形运动特征向量;将所述文本输入数据提取文本语义特征向量;将所述语音特征向量、唇形运动特征向量和文本语义特征向量输入多模态对齐模块,获得对齐后的多模态特征表示;基于所述对齐后的多模态特征表示,通过条件生成模型动态生成个性化的语言学习内容;根据用户对所述语言学习内容的响应,生成多模态反馈信息。本发明采用多模态注意力对齐机制,可以提升学习效率,提高记忆保持率。
技术关键词
语言学习内容
智能语言学习方法
模态特征
梅尔频率倒谱系数
短时傅里叶变换
文本
对齐模块
三维卷积神经网络
人脸检测定位
语音
跨模态
语言学习系统
多模态数据采集
多模态注意力
预训练语言模型
多头注意力机制
蒸馏
系统为您推荐了相关专利信息
风机故障诊断系统
子模块
风机故障诊断方法
深度学习模型
主氦风机
地层探测方法
不良地质体
集合经验模态分解
震源
断层破碎带
识别算法
文本
情感识别模型
情感特征
word2vec模型
意图类别
语音输入模块
编码器单元
多任务损失函数
深度神经网络模型