摘要
本申请实施例提供一种基于多模态消息的人机对话处理方法、装置、设备及介质,涉及人工智能技术领域。所述基于多模态消息的人机对话处理方法包括:根据用户输入的第一消息的消息模态,确定所述消息模态对应的目标模态消息识别模型;将所述第一消息输入所述目标模态消息识别模型,得到识别结果;根据所述第一消息、所述识别结果和本次会话的历史消息记录,得到目标消息记录;将所述目标消息记录输入预先构建的回复消息生成模型,得到第二消息,并向用户返回所述第二消息。本申请实施例能够实现支持识别多模态消息进行人机对话,提高人机对话效率的技术效果。
技术关键词
消息
多模态
图像识别模型
生成智能
视频识别
意图识别
识别用户意图
可读存储介质
文本识别模型
语音识别模型
会话
人工智能技术
计算机
答案
处理器
队列
识别模块
音频
存储器
系统为您推荐了相关专利信息
音频特征
多模态
多任务分类
睡眠呼吸暂停检测
气管
全局视觉特征
融合视觉特征
推理方法
自然场景图像
特征金字塔网络