一种融合非遗文化元素的模态语言模型图像编辑技术

AITNT
正文
推荐专利
一种融合非遗文化元素的模态语言模型图像编辑技术
申请号:CN202510180691
申请日期:2025-02-18
公开号:CN120125946A
公开日期:2025-06-10
类型:发明专利
摘要
本发明公开了一种融合非遗文化元素的模态语言模型图像编辑技术,包括:模型选择与训练,选择LLaMA模型作为基础,引入LoRA进行适应性微调,通过这种方式,模型在保持原有参数冻结的情况下进行适应性调整;本发明通过结合MLLM(如LLaVA)来增强指令编辑中的理解与推理能力,MLLM能够跨文本和图像模态进行协同学习,提取深层次的语义信息,使模型不仅能处理基本指令,还能理解复杂的非遗文化元素,为提升模型对非遗文化元素的理解,我们设计了一种增强的双向交互机制,该机制通过交叉注意力机制实现图像和文本特征之间的深度交互,使图像特征能够作为查询和键值对,与文本特征进行双向交流,为提升模型在复杂非遗场景中的表现。
技术关键词
图像编辑技术 图像特征向量 多模态融合机制 图像特征提取 元素 指令 文本编码器 图像编码器 数据 生成高质量图像 图像分割 交互机制 理解自然语言 模态特征 引入注意力机制
系统为您推荐了相关专利信息
1
基于知识图谱的轨道交通设备故障实时检测方法及系统
故障实时检测方法 轨道交通设备 装备故障诊断 实体 关系
2
基于伤口图像的自适应分析护理方法
护理方法 多模态图像数据 可见光图像 灰度共生矩阵 生成融合图像
3
一种基于施工图像的建筑进度评估方法
建筑进度评估方法 气象 像素点 去雾图像 边缘二值图
4
基于人工智能的视频内容理解方法及系统
视频内容理解方法 场景 逻辑 对象 元素
5
保险推荐方法、装置、设备及存储介质
子句特征 文本 推荐方法 图像特征提取模型 融合特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号