一种融合非遗文化元素的模态语言模型图像编辑技术

正文

推荐专利

申请号：CN202510180691

申请日期：2025-02-18

公开号：CN120125946A

公开日期：2025-06-10

类型：发明专利

摘要

本发明公开了一种融合非遗文化元素的模态语言模型图像编辑技术，包括：模型选择与训练，选择LLaMA模型作为基础，引入LoRA进行适应性微调，通过这种方式，模型在保持原有参数冻结的情况下进行适应性调整；本发明通过结合MLLM(如LLaVA)来增强指令编辑中的理解与推理能力，MLLM能够跨文本和图像模态进行协同学习，提取深层次的语义信息，使模型不仅能处理基本指令，还能理解复杂的非遗文化元素，为提升模型对非遗文化元素的理解，我们设计了一种增强的双向交互机制，该机制通过交叉注意力机制实现图像和文本特征之间的深度交互，使图像特征能够作为查询和键值对，与文本特征进行双向交流，为提升模型在复杂非遗场景中的表现。

技术关键词

图像编辑技术图像特征向量多模态融合机制图像特征提取元素指令文本编码器图像编码器数据生成高质量图像图像分割交互机制理解自然语言模态特征引入注意力机制

系统为您推荐了相关专利信息

基于知识图谱的轨道交通设备故障实时检测方法及系统

故障实时检测方法轨道交通设备装备故障诊断实体关系

基于伤口图像的自适应分析护理方法

护理方法多模态图像数据可见光图像灰度共生矩阵生成融合图像

一种基于施工图像的建筑进度评估方法

建筑进度评估方法气象像素点去雾图像边缘二值图

基于人工智能的视频内容理解方法及系统

视频内容理解方法场景逻辑对象元素

保险推荐方法、装置、设备及存储介质

子句特征文本推荐方法图像特征提取模型融合特征

一种融合非遗文化元素的模态语言模型图像编辑技术

站点导航

APP 下载