摘要
本申请提供多模态对话处理方法、装置、电子设备及存储介质,涉及人工智能技术领域。该方法包括:获取用户输入的多模态的对话信息;获取与用户对话的角色设定信息与历史对话信息;根据角色设定信息、历史对话信息及对话文本信息,确定用户的对话状态信息;将对话状态信息输入至预先训练得到的大语言模型,得到大语言模型输出的决策结果;根据回复信息的类型、回复信息对应的提示词,生成并输出多模态的目标对话回复信息。即本方案支持多模态对话信息的输入/输出,并基于对话状态信息对用户的对话意图进行更加准确的理解,使得生成的决策结果更具拟人化的效果,提高了用户与人物角色对话时的自由度和沉浸感。
技术关键词
多模态对话
大语言模型
文本生成模型
图片
机器可读指令
决策
电子设备
处理器
音频
人工智能技术
记忆
语义
可读存储介质
模块
意图
计算机
数据
系统为您推荐了相关专利信息
激光雷达点云数据
车辆路径规划方法
交通
大语言模型
自然语言
大语言模型
图像特征向量
多模态
样本
文本生成方法