基于多模态融合和情感分析的语音识别转写方法及系统

正文

推荐专利

申请号：CN202511004798

申请日期：2025-07-21

公开号：CN120808788A

公开日期：2025-10-17

类型：发明专利

摘要

本发明涉及基于多模态融合和情感分析的语音识别转写方法及系统，涉及语音识别领域，通过先获取目标语音信号及同步的视觉信息和文本上下文信息的辅助模态信息，对语音信号分割识别得到语音特征向量，对文本上下文信息提取得到文本辅助特征向量，再将二者多模态融合生成融合特征表示以进行语音转写得到初始转写文本，接着依据视觉信息和初始转写文本进行情感分析生成情感特征标签，最后基于该标签对初始转写文本优化校正得到目标转写文本，解决了语音识别转写难以适应方言多样性、忽视情感信息导致识别准确率和鲁棒性不足的技术问题，通过多模态信息的融合及情感分析，能更精准地识别语音内容并优化转写文本，提高了语音识别转写的准确性和质量。

技术关键词

方言词汇融合特征情感特征转写方法预训练语言模型多模态编码面部表情特征标签校正视觉语义特征动作特征语音特征文本情感分析信号自然语言理解

基于多模态融合和情感分析的语音识别转写方法及系统

站点导航

APP 下载