摘要
本申请提供一种多模态对话模型的训练方法以及对应的人机对话方法。本申请通过在获取到用于模型训练的第一文本数据以及目标数据库中与第一文本数据匹配的图像数据的情况下,基于第一文本数据中文本关键词的位置,确定图像数据在第一文本数据中的插入位置,从而按照插入位置,将用于指示图像数据在目标数据库中存储位置的图像链接插入第一文本数据中,得到第二文本数据,进而基于第二文本数据来训练多模态对话模型,以得到能够输出文本和图像的多模态对话模型,提高人机对话过程的信息交互效率,提升用户体验。
技术关键词
多模态对话
文本
人机对话方法
关键词提取模型
图像生成模型
人机对话装置
计算机设备
数据存储
实体
处理器
场景
训练装置
词语
模块
存储器
程序
物体