摘要
本发明提供一种支持情绪化语音输出的多模态智能问答与推荐系统,涉及视觉问答技术领域,具体包括多模态问答模块、多模态推荐模块、语音识别模块、以及语音合成模块;其中多模态问答模块将用户输入的图像转换为自然语言的形式,结合彗星知识库COMET,完成最终的问题回答;语音识别模块用于识别输入到多模态智能问答与推荐系统中的语音数据,并将其处理成文本的形式;多模态推荐模块鉴别传入的数据是否存在模态缺失的情况,生成缺失模态的表示,然后根据用户和物品的交互矩阵,通过图卷积神经网络,学习得到用户和物品的向量表示,并进行可靠性计算,最后将多模态推荐的结果,送回到多模态问答模块中;语音合成模块将语音输出给用户。
技术关键词
推荐系统
情感特征
答案
卷积模块
多模态
语音识别模块
解码器
噪声预测器
图像
文本
多层感知机
跨模态
字幕
字符
音频特征
矩阵
编码器
系统为您推荐了相关专利信息
递归神经网络模型
多任务学习模型
卷积神经网络模型
时间预测方法
数据
深度Q网络
长短期记忆网络
决策支持方法
联合损失函数
更新网络参数