摘要
本公开提供了一种多模态文本的生成方法、多模态文本的获取方法、装置、设备、介质和程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习和大模型等技术领域。多模态文本的生成方法的具体实现方案为:响应于接收到包括提示信息的多模态文本生成请求,基于提示信息,采用大语言模型生成与提示信息对应的文本信息;基于文本信息,采用大语言模型生成与文本信息对应的图像信息;以及基于文本信息和图像信息,采用大语言模型进行多模态文本渲染工具的调用,渲染得到包括文本信息和图像信息的多模态文本。
技术关键词
大语言模型
文本
多模态
图像
决策
子模块
生成方法
语句
布局
置信度阈值
收发模块
指令
人工智能技术
计算机程序产品
计算机视觉
电子设备
处理器通信
系统为您推荐了相关专利信息
融合特征
图像
注意力
视频生成模型
视觉特征提取
视频帧
数据生成方法
对象检测模型
计算机可执行指令
数据生成装置