摘要
本申请涉及一种面向视觉图像的人机多轮交互方法,包括:从全局图像信息中提取与当前多轮对话文本特征相关的局部图像特征;根据当前历史局部图像特征对所述局部图像特征进行更新,获取更新后的局部图像特征;采用交叉注意力机制,根据更新后的局部图像特征以及与全局图像信息对应的全局图像特征,确定视觉图像特征;将视觉图像特征输入多模态大模型进行处理。本申请构建了一套基于最优匹配机制的文本与视觉图像双模态上下文特征更新体系,能够在文本和图像两个模态上都具备“可更新、可压缩、可融合”的能力,显著提升模型在多轮对话中对语义线索的追踪能力与视觉焦点的动态理解能力,推动多轮图文对话系统在广域视觉理解中的性能突破。
技术关键词
局部图像特征
矩阵
多轮交互方法
多轮对话
交叉注意力机制
视觉
子模块
文本
多模态
人机
上下文特征
可读存储介质
对话系统
交互装置
双模态
存储器
处理器
输入模块
系统为您推荐了相关专利信息
基因表达数据
分类预测模型
转录组测序数据
标志物
基因差异表达
网络资源数据
资源调度方法
混合整数线性规划
深度强化学习模型
动态资源分配
深度神经网络
非合作博弈
航天器相对运动
干扰估计器
航天器系统
样本
气象
历史监测数据
监测点
电力输电工程技术