摘要
一种基于Bounding Box和语义文本双提示的推理分割方法,属于大语言模型的具身感知领域。本发明构建了基于Bounding Box和语义文本提示的推理分割模型,并构建了有效的训练范式和数据集对推理分割模型进行两阶段训练,合并了语言模型损失和掩码损失,保证两种提示信息有效生成,在文本提示的基础上增加了Bounding Box位置提示,解决了现有技术的分割效果受到模型文本理解能力限制、给予SAM的提示单一的问题,提升了推理分割精度。
技术关键词
分割方法
文本
语义
两阶段
格式
线性
大语言模型
图像
数据
超参数
视觉
尺寸
图片
标签
像素
坐标
指令
精度
系统为您推荐了相关专利信息
并行计算框架
引擎装置
微调方法
超参数
注册事件
交叉注意力机制
时间卷积网络
编码器结构
时序特征
融入语义信息
按摩振子
音乐控制方法
按摩设备
大语言模型
参数