面向视觉图像的人机多轮交互方法和装置

正文

推荐专利

面向视觉图像的人机多轮交互方法和装置

申请号：CN202510855555

申请日期：2025-06-25

公开号：CN120353959B

公开日期：2025-10-10

类型：发明专利

摘要

本申请涉及一种面向视觉图像的人机多轮交互方法，包括：从全局图像信息中提取与当前多轮对话文本特征相关的局部图像特征；根据当前历史局部图像特征对所述局部图像特征进行更新，获取更新后的局部图像特征；采用交叉注意力机制，根据更新后的局部图像特征以及与全局图像信息对应的全局图像特征，确定视觉图像特征；将视觉图像特征输入多模态大模型进行处理。本申请构建了一套基于最优匹配机制的文本与视觉图像双模态上下文特征更新体系，能够在文本和图像两个模态上都具备“可更新、可压缩、可融合”的能力，显著提升模型在多轮对话中对语义线索的追踪能力与视觉焦点的动态理解能力，推动多轮图文对话系统在广域视觉理解中的性能突破。

技术关键词

局部图像特征矩阵多轮交互方法多轮对话交叉注意力机制视觉子模块文本多模态人机上下文特征可读存储介质对话系统交互装置双模态存储器处理器输入模块

系统为您推荐了相关专利信息

用于新冠病毒易感性的预测标志物以及预测方法、装置

基因表达数据分类预测模型转录组测序数据标志物基因差异表达

一种污泥资源化利用路径确定方法、装置及设备

污泥动态更新数据因子矩阵

异构网络智能切片资源调度方法、装置、电子设备及介质

网络资源数据资源调度方法混合整数线性规划深度强化学习模型动态资源分配

基于模型预测控制深度神经网络的航天器非合作博弈方法

深度神经网络非合作博弈航天器相对运动干扰估计器航天器系统

一种基于气象数据的不平衡样本舞动预测方法及系统

样本气象历史监测数据监测点电力输电工程技术

面向视觉图像的人机多轮交互方法和装置

站点导航

APP 下载