摘要
本发明公开了基于多模态交互学习的全息显示数字人语音识别增强方法,包括如下步骤:S1、采集并预处理数据,生成多模态特征矩阵;S2、将多模态特征矩阵输入自适应多模态交互核,生成多模态交互特征;S3、将多模态交互特征输入情绪卷积块,生成语义‑情绪映射特征;S4、将语义‑情绪映射特征输入交叉注意力生成器,输出多模态融合特征;S5、将多模态融合特征输入多模态融合‑分解双向网络,生成经过解耦优化的多模态特征;S6、将多模态特征输入全息‑语音共生优化模块,生成语音识别与全息显示数据;S7、应用自监督学习和对比学习策略进行参数优化,实现自适应调整。本发明利用多模态交互学习方法,实现了全息显示数字人语音识别的增强。
技术关键词
情绪特征
多模态交互
双向长短期记忆网络
交互特征
时间序列特征
多模态特征
注意力机制
融合特征
语音特征
特征加权融合
变换器
卷积注意力网络
节点
矩阵
语义
梅尔频率倒谱系数
系统为您推荐了相关专利信息
进化策略优化算法
混合深度学习模型
伪标签生成器
变分贝叶斯
交互特征
视频片段定位方法
文本
对齐模块
跨模态
多头注意力机制
LightGBM模型
特征数据库
情景
交互特征
土壤特征
音频特征
训练深度学习模型
分类方法
空间金字塔池化网络
多模态