一种提升视觉语言大模型第一人称推理能力的方法及系统

正文

推荐专利

申请号：CN202510304512

申请日期：2025-03-14

公开号：CN120451883A

公开日期：2025-08-08

类型：发明专利

摘要

本发明公开了一种提升视觉语言大模型第一人称推理能力的方法及系统，采用主动学习与因果干预策略，通过对第一人称知识的提取、筛选和定向注入，实现了无需额外训练即可提升大模型对第一人称图像的理解能力。本发明采用主动学习驱动的知识提取机制，利用大模型自主自动提取内部和外部第一人称知识，并通过多维度筛选策略获取高质量、高相关性的第一人称知识集。在此基础上，本发明设计了基于知识导向的因果干预模块，通过解析大模型的推理路径，在关键决策节点注入第一人称知识，并引入基于确定性评分的答案筛选模块，实现了模型推理能力的定向增强。该方法可有效应用于具身智能系统、人机交互界面等多种需要第一人称视角理解的场景。

技术关键词

图像视觉特征文本编码器图像编码主动学习策略尺寸人机交互界面生成答案裁剪方法代表机制智能系统后门视角冗余

系统为您推荐了相关专利信息

训练数据生成方法、装置、设备、介质及产品

页面组件板块训练数据生成方法计算机执行指令布局

基于快速自适应观测器的锂电池热故障估计方法

故障估计方法锂电池降阶模型状态空间方程切比雪夫

基于集成学习和联邦学习的知识平面构建方法及系统

泛化算法日志数据计算机设备可读存储介质

病理图像分析模型训练方法、装置、设备及存储介质

图像分析模型图像嵌入文本特征向量特征提取模块网络

公共机构建筑能耗动态监测与节能调控方法及系统

节能调控方法空调系统能耗温度预测模型区域空调系统建筑内部空间

一种提升视觉语言大模型第一人称推理能力的方法及系统

站点导航

APP 下载