一种提升视觉语言大模型第一人称推理能力的方法及系统

AITNT
正文
推荐专利
一种提升视觉语言大模型第一人称推理能力的方法及系统
申请号:CN202510304512
申请日期:2025-03-14
公开号:CN120451883A
公开日期:2025-08-08
类型:发明专利
摘要
本发明公开了一种提升视觉语言大模型第一人称推理能力的方法及系统,采用主动学习与因果干预策略,通过对第一人称知识的提取、筛选和定向注入,实现了无需额外训练即可提升大模型对第一人称图像的理解能力。本发明采用主动学习驱动的知识提取机制,利用大模型自主自动提取内部和外部第一人称知识,并通过多维度筛选策略获取高质量、高相关性的第一人称知识集。在此基础上,本发明设计了基于知识导向的因果干预模块,通过解析大模型的推理路径,在关键决策节点注入第一人称知识,并引入基于确定性评分的答案筛选模块,实现了模型推理能力的定向增强。该方法可有效应用于具身智能系统、人机交互界面等多种需要第一人称视角理解的场景。
技术关键词
图像视觉特征 文本编码器 图像编码 主动学习策略 尺寸 人机交互界面 生成答案 裁剪方法 代表 机制 智能系统 后门 视角 冗余
系统为您推荐了相关专利信息
1
训练数据生成方法、装置、设备、介质及产品
页面组件 板块 训练数据生成方法 计算机执行指令 布局
2
基于快速自适应观测器的锂电池热故障估计方法
故障估计方法 锂电池 降阶模型 状态空间方程 切比雪夫
3
基于集成学习和联邦学习的知识平面构建方法及系统
泛化算法 日志 数据 计算机设备 可读存储介质
4
病理图像分析模型训练方法、装置、设备及存储介质
图像分析模型 图像嵌入 文本特征向量 特征提取模块 网络
5
公共机构建筑能耗动态监测与节能调控方法及系统
节能调控方法 空调系统能耗 温度预测模型 区域空调系统 建筑内部空间
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号