基于多模态交互学习的全息显示数字人语音识别增强方法

AITNT
正文
推荐专利
基于多模态交互学习的全息显示数字人语音识别增强方法
申请号:CN202411604866
申请日期:2024-11-12
公开号:CN119541459B
公开日期:2025-11-04
类型:发明专利
摘要
本发明公开了基于多模态交互学习的全息显示数字人语音识别增强方法,包括如下步骤:S1、采集并预处理数据,生成多模态特征矩阵;S2、将多模态特征矩阵输入自适应多模态交互核,生成多模态交互特征;S3、将多模态交互特征输入情绪卷积块,生成语义‑情绪映射特征;S4、将语义‑情绪映射特征输入交叉注意力生成器,输出多模态融合特征;S5、将多模态融合特征输入多模态融合‑分解双向网络,生成经过解耦优化的多模态特征;S6、将多模态特征输入全息‑语音共生优化模块,生成语音识别与全息显示数据;S7、应用自监督学习和对比学习策略进行参数优化,实现自适应调整。本发明利用多模态交互学习方法,实现了全息显示数字人语音识别的增强。
技术关键词
情绪特征 多模态交互 双向长短期记忆网络 交互特征 时间序列特征 多模态特征 注意力机制 融合特征 语音特征 特征加权融合 变换器 卷积注意力网络 节点 矩阵 语义 梅尔频率倒谱系数
系统为您推荐了相关专利信息
1
基于改进深度学习的充电桩电能消耗预测方法
进化策略优化算法 混合深度学习模型 伪标签生成器 变分贝叶斯 交互特征
2
一种基于对应学习的点级监督视频片段定位方法及系统与应用
视频片段定位方法 文本 对齐模块 跨模态 多头注意力机制
3
秸秆还田免耕模式下水分-温度的协同变化对作物生长影响的模拟方法
LightGBM模型 特征数据库 情景 交互特征 土壤特征
4
基于多模态的发声物多分类方法、装置及计算机设备
音频特征 训练深度学习模型 分类方法 空间金字塔池化网络 多模态
5
基于语言模型的辩论信息生成方法、装置、设备及存储介质
信息生成方法 阶段 情绪特征 虚拟对象 样本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号