一种基于多模态特征优化的多轮语音回复生成方法及系统

正文

推荐专利

申请号：CN202510235915

申请日期：2025-02-28

公开号：CN120144713B

公开日期：2025-10-28

类型：发明专利

摘要

本发明属于智能交流优化方法技术领域，且公开了一种基于多模态特征优化的多轮语音回复生成方法，包括以下流程：流程一：结合大模型的文本特征和语音提取的时序图包含的时频特征进行分类，实现多轮对话的情绪精准识别。本文通过将语音转换为时频图，结合图像领域成熟的分类架构，提出基于时空注意力的时频分类方法，优化多轮会话中的情绪感知能力，为具有明显分类特征的情感特征赋予较重的权重，并基于不同情绪的权重，动态调节ai agent的多轮会话能力，改善了机遇语音提示词分类情绪的方法，结合大模型提供的语义信息优化了生成语音数据的质量，也改进了聊天机器人应用于智慧网格员，导购等场景的逻辑。

技术关键词

回复生成方法多模态特征聊天机器人生成器网络语音商品展示方式时空注意力机制多轮对话文本编码器图像编码器情绪特征网络优化分类网络生成系统多轮会话样本数据

系统为您推荐了相关专利信息

一种基于多模态的风险识别方法、装置、设备及存储介质

风险识别方法唇部特征频谱特征序列多模态

一种基于语音识别和翻译的新型电台

数字信号接收模块功率放大模块信号发射模块解调模块编码

VEM-Token声乐情绪多模态魔改模型的建构方法

序列终点声乐样本风格

一种用于智慧物业的语音识别方法及系统

序列模板特征语音识别方法 DTW算法指标

基于多模态数据融合的呼吸节律推荐方法及相关装置

多模态数据融合心率推荐方法功率值策略梯度强化学习

一种基于多模态特征优化的多轮语音回复生成方法及系统

站点导航

APP 下载