一种基于多模态特征优化的多轮语音回复生成方法及系统

AITNT
正文
推荐专利
一种基于多模态特征优化的多轮语音回复生成方法及系统
申请号:CN202510235915
申请日期:2025-02-28
公开号:CN120144713B
公开日期:2025-10-28
类型:发明专利
摘要
本发明属于智能交流优化方法技术领域,且公开了一种基于多模态特征优化的多轮语音回复生成方法,包括以下流程:流程一:结合大模型的文本特征和语音提取的时序图包含的时频特征进行分类,实现多轮对话的情绪精准识别。本文通过将语音转换为时频图,结合图像领域成熟的分类架构,提出基于时空注意力的时频分类方法,优化多轮会话中的情绪感知能力,为具有明显分类特征的情感特征赋予较重的权重,并基于不同情绪的权重,动态调节ai agent的多轮会话能力,改善了机遇语音提示词分类情绪的方法,结合大模型提供的语义信息优化了生成语音数据的质量,也改进了聊天机器人应用于智慧网格员,导购等场景的逻辑。
技术关键词
回复生成方法 多模态特征 聊天机器人 生成器网络 语音 商品展示方式 时空注意力机制 多轮对话 文本编码器 图像编码器 情绪特征 网络优化 分类网络 生成系统 多轮会话 样本 数据
系统为您推荐了相关专利信息
1
一种基于多模态的风险识别方法、装置、设备及存储介质
风险识别方法 唇部特征 频谱特征 序列 多模态
2
一种基于语音识别和翻译的新型电台
数字信号接收模块 功率放大模块 信号发射模块 解调模块 编码
3
VEM-Token声乐情绪多模态魔改模型的建构方法
序列 终点 声乐 样本 风格
4
一种用于智慧物业的语音识别方法及系统
序列 模板特征 语音识别方法 DTW算法 指标
5
基于多模态数据融合的呼吸节律推荐方法及相关装置
多模态数据融合 心率 推荐方法 功率值 策略梯度强化学习
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号