摘要
本发明公开了一种低成本的多模态文章生成方法,包括:获取用户输入数据,为目标文本数据,或,为目标文本数据和目标图像数据;将目标文本数据输入至经过Lora微调的Stable Diffusion‑XL模型中,生成m张图像数据;将m张图像数据进行融合,或,将目标图像数据与m张图像数据进行融合,生成融合特征;将目标文本数据、融合特征分别和m张图像数据输入至训练并优化好的High‑class corpus生成模型中,输出对应的m条目标语料;将m条目标语料和目标文本数据输入至本地的WriterLLM模块中,生成多模态文章。通过该方法,可通过本地小参数LLM扩充图像模态的信息量,并输出高质量预料。
技术关键词
文章生成方法
融合特征
多张图像数据
视觉特征提取
文本
低成本
注意力
条目
模块
多模态
关键字
编码器
策略
解码器
参数
矩阵
系统为您推荐了相关专利信息
绑定方法
深度图
图像编码器
交叉注意力机制
图片
审核方法
文本识别模型
计算机程序指令
计算机视觉识别
文本检测模型
智能问答系统
文本段落
大语言模型
海洋
智能问答方法