面向视觉图像的人机多轮交互方法和装置

AITNT
正文
推荐专利
面向视觉图像的人机多轮交互方法和装置
申请号:CN202510855555
申请日期:2025-06-25
公开号:CN120353959B
公开日期:2025-10-10
类型:发明专利
摘要
本申请涉及一种面向视觉图像的人机多轮交互方法,包括:从全局图像信息中提取与当前多轮对话文本特征相关的局部图像特征;根据当前历史局部图像特征对所述局部图像特征进行更新,获取更新后的局部图像特征;采用交叉注意力机制,根据更新后的局部图像特征以及与全局图像信息对应的全局图像特征,确定视觉图像特征;将视觉图像特征输入多模态大模型进行处理。本申请构建了一套基于最优匹配机制的文本与视觉图像双模态上下文特征更新体系,能够在文本和图像两个模态上都具备“可更新、可压缩、可融合”的能力,显著提升模型在多轮对话中对语义线索的追踪能力与视觉焦点的动态理解能力,推动多轮图文对话系统在广域视觉理解中的性能突破。
技术关键词
局部图像特征 矩阵 多轮交互方法 多轮对话 交叉注意力机制 视觉 子模块 文本 多模态 人机 上下文特征 可读存储介质 对话系统 交互装置 双模态 存储器 处理器 输入模块
系统为您推荐了相关专利信息
1
用于新冠病毒易感性的预测标志物以及预测方法、装置
基因表达数据 分类预测模型 转录组测序数据 标志物 基因差异表达
2
一种污泥资源化利用路径确定方法、装置及设备
污泥 动态更新 数据 因子 矩阵
3
异构网络智能切片资源调度方法、装置、电子设备及介质
网络资源数据 资源调度方法 混合整数线性规划 深度强化学习模型 动态资源分配
4
基于模型预测控制深度神经网络的航天器非合作博弈方法
深度神经网络 非合作博弈 航天器相对运动 干扰估计器 航天器系统
5
一种基于气象数据的不平衡样本舞动预测方法及系统
样本 气象 历史监测数据 监测点 电力输电工程技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号