基于多模态交互学习的全息显示数字人语音识别增强方法

正文

推荐专利

申请号：CN202411604866

申请日期：2024-11-12

公开号：CN119541459B

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开了基于多模态交互学习的全息显示数字人语音识别增强方法，包括如下步骤：S1、采集并预处理数据，生成多模态特征矩阵；S2、将多模态特征矩阵输入自适应多模态交互核，生成多模态交互特征；S3、将多模态交互特征输入情绪卷积块，生成语义‑情绪映射特征；S4、将语义‑情绪映射特征输入交叉注意力生成器，输出多模态融合特征；S5、将多模态融合特征输入多模态融合‑分解双向网络，生成经过解耦优化的多模态特征；S6、将多模态特征输入全息‑语音共生优化模块，生成语音识别与全息显示数据；S7、应用自监督学习和对比学习策略进行参数优化，实现自适应调整。本发明利用多模态交互学习方法，实现了全息显示数字人语音识别的增强。

技术关键词

情绪特征多模态交互双向长短期记忆网络交互特征时间序列特征多模态特征注意力机制融合特征语音特征特征加权融合变换器卷积注意力网络节点矩阵语义梅尔频率倒谱系数

系统为您推荐了相关专利信息

基于改进深度学习的充电桩电能消耗预测方法

进化策略优化算法混合深度学习模型伪标签生成器变分贝叶斯交互特征

一种基于对应学习的点级监督视频片段定位方法及系统与应用

视频片段定位方法文本对齐模块跨模态多头注意力机制

秸秆还田免耕模式下水分-温度的协同变化对作物生长影响的模拟方法

LightGBM模型特征数据库情景交互特征土壤特征

基于多模态的发声物多分类方法、装置及计算机设备

音频特征训练深度学习模型分类方法空间金字塔池化网络多模态

基于语言模型的辩论信息生成方法、装置、设备及存储介质

信息生成方法阶段情绪特征虚拟对象样本

基于多模态交互学习的全息显示数字人语音识别增强方法

站点导航

APP 下载