一种融合非遗文化元素的模态语言模型图像编辑技术

AITNT
正文
推荐专利
一种融合非遗文化元素的模态语言模型图像编辑技术
申请号:CN202411499013
申请日期:2024-10-25
公开号:CN119478600A
公开日期:2025-02-18
类型:发明专利
摘要
本发明公开了一种融合非遗文化元素的模态语言模型图像编辑技术,包括:模型选择与训练,选择LLaMA模型作为基础,引入LoRA进行适应性微调,通过这种方式,模型在保持原有参数冻结的情况下进行适应性调整;本发明通过结合MLLM(如LLaVA)来增强指令编辑中的理解与推理能力,MLLM能够跨文本和图像模态进行协同学习,提取深层次的语义信息,使模型不仅能处理基本指令,还能理解复杂的非遗文化元素,为提升模型对非遗文化元素的理解,我们设计了一种增强的双向交互机制,该机制通过交叉注意力机制实现图像和文本特征之间的深度交互,使图像特征能够作为查询和键值对,与文本特征进行双向交流,为提升模型在复杂非遗场景中的表现。
技术关键词
图像编辑技术 多模态融合机制 图像特征向量 图像特征提取 生成高质量图像 元素 交叉注意力机制 双线性池化 指令 文本特征向量 图像分割 数据 文本编码器 图像编码器 交互机制 模块
系统为您推荐了相关专利信息
1
三维检测框标注方法、标注装置、电子设备及介质
三维空间结构 轮廓信息 图像特征向量 特征点信息 对象
2
一种基于人工智能的围产期综合风险评估系统
风险评估系统 多任务联合学习 结构特征提取 图像特征提取 图像特征向量
3
一种基于多维识别的漏洞检测方法
漏洞检测方法 特征数据库 定制系统 漏洞数据库 服务特征
4
一种图像分类方法、装置、设备及可读存储介质
图像分类模型 文本特征向量 特征提取模块 图像特征向量 矩阵
5
一种基于MoCo的文本引导多模型医学图像分割方法
编码器 医学图像分割方法 文本 注意力 多模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号