一种领域图像的多模态数据生成与微调方法

正文

推荐专利

一种领域图像的多模态数据生成与微调方法

申请号：CN202510511519

申请日期：2025-04-23

公开号：CN120046117B

公开日期：2025-07-25

类型：发明专利

摘要

本发明提供了一种领域图像的多模态数据生成与微调方法，属于人工智能技术领域，包括：使用视觉多模态模型对领域图像进行初步处理，得到一般性描述，对设定标签进行自然语言转换得到转换文本，并基于大语言模型对图像描述与转换文本进行语义整合和扩展，生成初始描述；对领域图像按照描述维度进行多层提取得到每层的层描述，并结合初始描述生成综合描述；将领域图像与对应的综合描述进行配对，得到多模态数据；使用多模态数据对视觉多模态模型进行微调处理，得到优化后多模态模型。提升其在领域图像中的识别和问答能力。

技术关键词

微调方法转换文本多模态序列图像大语言模型自然语言转换感兴趣深度学习技术定义语义视觉数据注意力机制人工智能技术索引标签概念

系统为您推荐了相关专利信息

一种基于层次粒度对比学习的半监督息肉分割方法

解码器分割方法大区域分支数据

一种钢化玻璃碎片图像分割与碎片计数方法

钢化玻璃计数方法模板边框特征提取网络图像分割模型

一种多尺度语义感知的遥感图像-文本检索方法

文本检索方法语义图像联合注意力机制编码模块

一种多模态柔性挡土墙变形基坑开挖模拟试验装置及方法

柔性挡土墙基坑开挖模拟位移电机试验装置土压力传感器

具身视频生成方法、装置及电子设备

视频生成方法物体物理交叉注意力机制序列

一种领域图像的多模态数据生成与微调方法

站点导航

APP 下载