摘要
本发明涉及计算机视觉技术领域,提供了一种基于分割万物模型和前融合的指令分割方法和装置。包括:选取前融合的多模态特征提取编码器,将文本提示与低分辨率图像进行前期联合编码处理;构造嵌入维度投影层,使用嵌入维度投影层转换联合编码后的多模态特征至统一的嵌入空间;优化提示词编码器适配性。本发明通过使用前融合的多模态特征提取编码器,使不同模态的输入在早期阶段进行融合,从而能够更早地整合不同模态的信息,提高模型对指令内容的理解能力和分割精度,即提高模型的性能,并且通过优化提示词编码器适配性,以保持输入和输出的一致序列长度,从而确保实际训练和推理的不稳定,并实现模型的轻量化。
技术关键词
分割方法
万物
模态特征
多模态
计算机可执行指令
特征提取器
文本
分割装置
投影模块
编码模块
解码器
计算机视觉技术
图像编码器
计算机存储介质
序列
系统为您推荐了相关专利信息
电表外观
缺陷检测方法
字符模板
图片
深度学习模型
多模态数据融合
识别方法
注意力机制
降维特征
基因表达数据
建筑装饰装修
施工现场
深度学习训练
神经网络模型
动态