基于多模态信息融合的视频生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于多模态信息融合的视频生成方法、装置、设备及介质
申请号:CN202510043052
申请日期:2025-01-10
公开号:CN119906872B
公开日期:2025-10-21
类型:发明专利
摘要
本发明涉及人工智能技术领域及医疗健康领域,公开了一种基于多模态信息融合的视频生成方法,包括:输入图像信息和文本信息,生成图像特征表示和文本特征表示;对图像特征表示注入噪声,生成含噪潜在表示;将含噪潜在表示输入去噪模型,生成优化后的潜在表示;将文本特征表示输入去噪模型,与优化后的潜在表示进行语义融合,生成语义潜在表示;将语义潜在表示输入解码器,生成视频帧序列并输出。本发明通过对图像特征表示和文本特征表示的多模态融合,确保生成的视频在语义上与输入内容一致;通过注入噪声和去噪优化,增强视频生成的多样性和细节质量;通过解码器生成视频帧序列,保证视频的视觉连贯性和自然过渡。
技术关键词
多模态信息融合 视频生成方法 去噪模型 生成图像特征 语义 输入解码器 视频帧 多通道图像数据 文本编码器 图像编码器 生成程序 局部纹理特征 随机噪声 视频生成装置 自然语言文本 初始化解码器 序列
系统为您推荐了相关专利信息
1
基于机器学习的合同风险识别方法及系统
风险识别方法 合同文本数据 法律知识图谱 动态 蒙特卡洛
2
基于机器视觉的广告设计图检测方法及装置
图像类别 合规性 直方图 评分算法 生成算法
3
一种基于主题图技术的知识图谱构建方法
知识图谱构建方法 知识图谱模型 主题 构建知识图谱 数据
4
视频文本行的检测增强方法、装置、电子设备
视觉特征 语义特征 视频 语义向量 图像
5
基于结构化存储的会话数据加载方法、装置、设备及介质
会话 数据加载方法 数据获取请求 数据访问 索引
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号