一种基于多重一致性的跨模态说话人提取方法及系统

AITNT
正文
推荐专利
一种基于多重一致性的跨模态说话人提取方法及系统
申请号:CN202510853103
申请日期:2025-06-24
公开号:CN120600033A
公开日期:2025-09-05
类型:发明专利
摘要
本发明提供了一种基于多重一致性的跨模态说话人提取方法及系统,获取包含目标说话人数据的混合语音信号和视频数据;对获取的混合语音信号进行音频编码,得到音频特征;对获取的视频数据进行一致性视觉特征提取,得到与目标语音在内容一致和身份一致的两种视觉特征;将内容一致的视觉特征和音频特征融合,对融合后的特征在嵌入Mamba的跨模态系统中进行说话人提取,得到分离出来的语音;使用身份一致的视觉特征对分离出来的语音进行身份约束,得到最终提取结果,本发明不需要额外的文本标记数据集来进行预训练,且能够有效利用视觉线索中的与语音内容对应的信息以及说话人的身份信息。
技术关键词
视觉特征提取 音频特征 语音 身份一致性约束 状态空间模型 匹配网络 视听 音频信号编码 视频 网络结构 音频编码器 信噪比 数据获取模块 序列特征 线性
系统为您推荐了相关专利信息
1
一种新能源乘用车续驶里程计算方法及系统
续驶里程计算方法 新能源乘用车 LSTM神经网络 电池管理系统数据 能耗
2
一种对比增强非同构模态融合的多模态情感分析方法
模态特征 情感分析方法 样本 文本 音频特征
3
语音答复方法和装置、电子设备及存储介质
文本 语音答复方法 样本 词语 音色特征
4
室内移动服务机器人交互任务执行方法、装置及存储介质、室内移动服务机器人系统
室内移动服务机器人 自动语音识别方法 文本转语音方法 彩色视觉信息 机器人传感器
5
一种可交互的定制化数字人生成系统及生成方法
子模块 音频特征 多维边缘特征 生成系统 文本
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号