摘要
本发明提出一种基于跨模态AI的国粹艺术基因解码方法及系统,属于人工智能与数字媒体艺术交叉领域,包括:S1:构建国画‑音乐‑文本的多模态数据集;S2:将国画图像输入基于CLIP‑ViT改进的视觉编码器,经过归一化模块、位置编码模块和Transformer编码器,输出512维的视觉Token序列;S3:将视觉Token序列和情感标签输入跨模态适配器,采用自注意力机制将视觉Token直接映射至音乐隐空间,得到音乐嵌入向量;S4:将、用户参数输入改进的高频保真生成对抗网络中,生成符合五声音阶的中国传统音乐音频。本发明方法实现视觉艺术与听觉艺术之间的智能语义联通。
技术关键词
跨模态
国画图像
生成对抗网络
归一化模块
解码方法
视觉
文本
注意力机制
编码模块
音乐特征
数据
音频
适配器
基因
多模态
编码器
非暂态计算机可读存储介质
序列
系统为您推荐了相关专利信息
激光雷达点云数据
稠密点云
事件相机
语义标签
查询建议
生成对抗网络模型
样本
表面粗糙度参数
滑动窗口采样
管道腐蚀评估技术
商标图像检索方法
语义向量
实体链接技术
知识图谱推理
文本
管控系统
客户
文件管理模块
计算机可读指令
风险评估报告