一种融合非遗文化元素的模态语言模型图像编辑技术

正文

推荐专利

申请号：CN202411499013

申请日期：2024-10-25

公开号：CN119478600A

公开日期：2025-02-18

类型：发明专利

摘要

本发明公开了一种融合非遗文化元素的模态语言模型图像编辑技术，包括：模型选择与训练，选择LLaMA模型作为基础，引入LoRA进行适应性微调，通过这种方式，模型在保持原有参数冻结的情况下进行适应性调整；本发明通过结合MLLM(如LLaVA)来增强指令编辑中的理解与推理能力，MLLM能够跨文本和图像模态进行协同学习，提取深层次的语义信息，使模型不仅能处理基本指令，还能理解复杂的非遗文化元素，为提升模型对非遗文化元素的理解，我们设计了一种增强的双向交互机制，该机制通过交叉注意力机制实现图像和文本特征之间的深度交互，使图像特征能够作为查询和键值对，与文本特征进行双向交流，为提升模型在复杂非遗场景中的表现。

技术关键词

图像编辑技术多模态融合机制图像特征向量图像特征提取生成高质量图像元素交叉注意力机制双线性池化指令文本特征向量图像分割数据文本编码器图像编码器交互机制模块

系统为您推荐了相关专利信息

三维检测框标注方法、标注装置、电子设备及介质

三维空间结构轮廓信息图像特征向量特征点信息对象

一种基于人工智能的围产期综合风险评估系统

风险评估系统多任务联合学习结构特征提取图像特征提取图像特征向量

一种基于多维识别的漏洞检测方法

漏洞检测方法特征数据库定制系统漏洞数据库服务特征

一种图像分类方法、装置、设备及可读存储介质

图像分类模型文本特征向量特征提取模块图像特征向量矩阵

一种基于MoCo的文本引导多模型医学图像分割方法

编码器医学图像分割方法文本注意力多模型

一种融合非遗文化元素的模态语言模型图像编辑技术

站点导航

APP 下载