摘要
本发明提供了一种领域图像的多模态数据生成与微调方法,属于人工智能技术领域,包括:使用视觉多模态模型对领域图像进行初步处理,得到一般性描述,对设定标签进行自然语言转换得到转换文本,并基于大语言模型对图像描述与转换文本进行语义整合和扩展,生成初始描述;对领域图像按照描述维度进行多层提取得到每层的层描述,并结合初始描述生成综合描述;将领域图像与对应的综合描述进行配对,得到多模态数据;使用多模态数据对视觉多模态模型进行微调处理,得到优化后多模态模型。提升其在领域图像中的识别和问答能力。
技术关键词
微调方法
转换文本
多模态
序列
图像
大语言模型
自然语言转换
感兴趣
深度学习技术
定义
语义
视觉
数据
注意力机制
人工智能技术
索引
标签
概念
系统为您推荐了相关专利信息
钢化玻璃
计数方法
模板边框
特征提取网络
图像分割模型
文本检索方法
语义
图像
联合注意力机制
编码模块
柔性挡土墙
基坑开挖模拟
位移电机
试验装置
土压力传感器