基于大模型思维链的情境图像生成方法及装置

正文

推荐专利

申请号：CN202411912763

申请日期：2024-12-24

公开号：CN120220717A

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开了一种基于大模型思维链的情境图像生成方法及装置，方法包括：以音乐作为输入，将歌词转换为ABC标记格式，将ABC标记格式和获取到的音乐字幕组装起来作为输入的音乐文本信息；对每条样例依据音频编码器，计算样例相似度，并选取出样例相似度最高的前若干个样例条目，作为用于构建大语言模型提示的候选样例；将候选样例、任务说明和输入的音乐文本信息进行组装，将组装的结果作为大模型动态提示，将动态提示输入到大语言模型GPT中用于分析音乐情感、主题、文化并生成场景描述，将场景描述输入到图像生成模型中生成图像；对图像与音乐的情感一致性和内容一致性打分，将分数作为反馈给大语言模型GPT使之重新生成图像，作为最终的图像。装置包括：处理器和存储器。

技术关键词

图像生成方法图像生成模型大语言模型音频编码器音乐特征生成场景图像生成装置处理器条目可读存储介质识别工具多模态文本动态格式存储器标记程序

系统为您推荐了相关专利信息

基于全文搜索的大模型自然语言文档查询系统及方法

搜索提示词输入输出模块全文搜索关键词查询系统

一种基于深度神经网络的矿车轨道异物检测方法及系统

矿车轨道异物检测方法文本特征向量深度神经网络检测模态特征

答复方法、装置、电子设备以及存储介质

答复方法大语言模型历史故障信息切片电子设备

基于大语言模型的多模态医学影像智能分析系统及方法

模态医学影像大语言模型智能分析方法 Hessian矩阵智能分析系统

一种学习增强型智能问答方法、装置、设备及介质

智能问答方法专业问答模型文本大语言模型

基于大模型思维链的情境图像生成方法及装置

站点导航

APP 下载