摘要
本发明公开了一种提升视觉语言大模型第一人称推理能力的方法及系统,采用主动学习与因果干预策略,通过对第一人称知识的提取、筛选和定向注入,实现了无需额外训练即可提升大模型对第一人称图像的理解能力。本发明采用主动学习驱动的知识提取机制,利用大模型自主自动提取内部和外部第一人称知识,并通过多维度筛选策略获取高质量、高相关性的第一人称知识集。在此基础上,本发明设计了基于知识导向的因果干预模块,通过解析大模型的推理路径,在关键决策节点注入第一人称知识,并引入基于确定性评分的答案筛选模块,实现了模型推理能力的定向增强。该方法可有效应用于具身智能系统、人机交互界面等多种需要第一人称视角理解的场景。
技术关键词
图像视觉特征
文本编码器
图像编码
主动学习策略
尺寸
人机交互界面
生成答案
裁剪方法
代表
机制
智能系统
后门
视角
冗余
系统为您推荐了相关专利信息
页面组件
板块
训练数据生成方法
计算机执行指令
布局
故障估计方法
锂电池
降阶模型
状态空间方程
切比雪夫
图像分析模型
图像嵌入
文本特征向量
特征提取模块
网络
节能调控方法
空调系统能耗
温度预测模型
区域空调系统
建筑内部空间