摘要
本申请涉及一种文本的图像生成方法、装置、电子设备及可读介质,其中,方法包括:获取待处理文本中的各个场景片段,并对各个场景片段进行解析,得到多个场景信息;从预设数据库中提取场景片段的目标对象的初始ID嵌入向量,其中,初始ID嵌入向量包括目标对象在多个特征维度的视觉特征;根据场景信息从多个特征维度对初始ID嵌入向量进行调整,得到与各个场景片段对应的目标ID嵌入向量;利用各个目标ID嵌入向量以及场景信息依次为各个场景片段生成场景关键帧;整合各个场景关键帧,得到与待处理文本对应的关键帧图像序列。解决了同一人物在同一故事文本的不同关键帧中难以保持形象一致性的问题。
技术关键词
关键帧
视觉特征
生成场景
人物特征
图像生成方法
对象
文本
图像生成模型
图像生成装置
处理器
通信接口
电子设备
风格
体型
面部
存储器
策略
模块
系统为您推荐了相关专利信息
三维场景模型
关键帧
点云模型
像素点
图像特征点
对象图像数据
编码特征
样本
语音识别文本
交互网络