摘要
本发明公开了一种基于大模型思维链的情境图像生成方法及装置,方法包括:以音乐作为输入,将歌词转换为ABC标记格式,将ABC标记格式和获取到的音乐字幕组装起来作为输入的音乐文本信息;对每条样例依据音频编码器,计算样例相似度,并选取出样例相似度最高的前若干个样例条目,作为用于构建大语言模型提示的候选样例;将候选样例、任务说明和输入的音乐文本信息进行组装,将组装的结果作为大模型动态提示,将动态提示输入到大语言模型GPT中用于分析音乐情感、主题、文化并生成场景描述,将场景描述输入到图像生成模型中生成图像;对图像与音乐的情感一致性和内容一致性打分,将分数作为反馈给大语言模型GPT使之重新生成图像,作为最终的图像。装置包括:处理器和存储器。
技术关键词
图像生成方法
图像生成模型
大语言模型
音频编码器
音乐特征
生成场景
图像生成装置
处理器
条目
可读存储介质
识别工具
多模态
文本
动态
格式
存储器
标记
程序
系统为您推荐了相关专利信息
搜索提示词
输入输出模块
全文搜索
关键词
查询系统
矿车轨道
异物检测方法
文本特征向量
深度神经网络检测
模态特征
答复方法
大语言模型
历史故障信息
切片
电子设备
模态医学影像
大语言模型
智能分析方法
Hessian矩阵
智能分析系统