多模态模型表征优化的开放词汇分割方法及系统

AITNT
正文
推荐专利
多模态模型表征优化的开放词汇分割方法及系统
申请号:CN202410957456
申请日期:2024-07-17
公开号:CN118823350A
公开日期:2024-10-22
类型:发明专利
摘要
本发明提供一种多模态模型表征优化的开放词汇分割方法及系统,属于计算机视觉技术领域,获取待分割的图像数据;利用预先训练好的多模态模型,对获取的图像进行处理,得到分割结果。本发明更好地优化了多模态任务中的视觉‑文本表征,使得同类视觉‑文本表征空间进行有效对齐;提出掩码敏感型损失在参数微调过程中约束分类得分和掩码质量保持一致,从而赋予视觉编码器局部感知能力,提升了模型在细粒度下游任务中的效果;引入了原预训练特征作为表征补偿,保证了在优化过程中预训练视觉‑语言模型的零样本能力;将文本表征和视觉表征进行交互,使得文本表征可以对于不同输入图像进行自适应增强,可有效提升开放词汇分割中视觉‑文本的对齐属性。
技术关键词
分割方法 视觉特征 文本 多模态 图像 存储器 处理器 计算机视觉技术 生成多尺度 阶段 电子设备 分割系统 训练特征 网格 样本 计算机设备 参数 指令 注意力
系统为您推荐了相关专利信息
1
一种基于雕塑、壁画的古乐器的复原方法
复原方法 乐器 计算机辅助设计软件 壁画 雕塑
2
架空输电线路监控图像自动曝光补偿方法、装置及介质
拉普拉斯金字塔 曝光补偿方法 编解码器 架空输电线路 解码器单元
3
一种基于用户面部分析算法的辅助妆容方法及其系统
图像采集传感器 智能家具 基础 显示屏 算法
4
鸟瞰图特征生成方法、装置及电子设备
融合特征 语义注意力 特征生成方法 加权特征 车载摄像头
5
一种基于改进YOLO模块的沥青路面缺陷检测方法
缺陷检测方法 沥青路面数据 卷积神经网络模型 计算机装置 计算机程序产品
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号