一种支持情绪化语音输出的多模态智能问答与推荐系统

正文

推荐专利

申请号：CN202510258945

申请日期：2025-03-06

公开号：CN119739840A

公开日期：2025-04-01

类型：发明专利

摘要

本发明提供一种支持情绪化语音输出的多模态智能问答与推荐系统，涉及视觉问答技术领域，具体包括多模态问答模块、多模态推荐模块、语音识别模块、以及语音合成模块；其中多模态问答模块将用户输入的图像转换为自然语言的形式，结合彗星知识库COMET，完成最终的问题回答；语音识别模块用于识别输入到多模态智能问答与推荐系统中的语音数据，并将其处理成文本的形式；多模态推荐模块鉴别传入的数据是否存在模态缺失的情况，生成缺失模态的表示，然后根据用户和物品的交互矩阵，通过图卷积神经网络，学习得到用户和物品的向量表示，并进行可靠性计算，最后将多模态推荐的结果，送回到多模态问答模块中；语音合成模块将语音输出给用户。

技术关键词

推荐系统情感特征答案卷积模块多模态语音识别模块解码器噪声预测器图像文本多层感知机跨模态字幕字符音频特征矩阵编码器

系统为您推荐了相关专利信息

一种视频多目标跟踪方法

跟踪方法运动特征上下文特征轨迹视频

基于多模态融合深度学习的自然环境鸟类监测方法及计算机装置

视觉特征注意力多模态监测方法矩阵

一种基于时空数据挖掘的到达时间预测方法及系统

递归神经网络模型多任务学习模型卷积神经网络模型时间预测方法数据

一种面向现实大流量场景的泛化伪造媒体检测方法

媒体检测方法图像服务器网络请求数据关键帧

一种术后护理决策支持方法与系统

深度Q网络长短期记忆网络决策支持方法联合损失函数更新网络参数

一种支持情绪化语音输出的多模态智能问答与推荐系统

站点导航

APP 下载