基于多模态融合和情感分析的语音识别转写方法及系统

AITNT
正文
推荐专利
基于多模态融合和情感分析的语音识别转写方法及系统
申请号:CN202511004798
申请日期:2025-07-21
公开号:CN120808788A
公开日期:2025-10-17
类型:发明专利
摘要
本发明涉及基于多模态融合和情感分析的语音识别转写方法及系统,涉及语音识别领域,通过先获取目标语音信号及同步的视觉信息和文本上下文信息的辅助模态信息,对语音信号分割识别得到语音特征向量,对文本上下文信息提取得到文本辅助特征向量,再将二者多模态融合生成融合特征表示以进行语音转写得到初始转写文本,接着依据视觉信息和初始转写文本进行情感分析生成情感特征标签,最后基于该标签对初始转写文本优化校正得到目标转写文本,解决了语音识别转写难以适应方言多样性、忽视情感信息导致识别准确率和鲁棒性不足的技术问题,通过多模态信息的融合及情感分析,能更精准地识别语音内容并优化转写文本,提高了语音识别转写的准确性和质量。
技术关键词
方言词汇 融合特征 情感特征 转写方法 预训练语言模型 多模态 编码 面部表情特征 标签 校正 视觉 语义特征 动作特征 语音特征 文本情感分析 信号 自然语言理解
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号