基于多模态信息融合的视频生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510043052

申请日期：2025-01-10

公开号：CN119906872B

公开日期：2025-10-21

类型：发明专利

摘要

本发明涉及人工智能技术领域及医疗健康领域，公开了一种基于多模态信息融合的视频生成方法，包括：输入图像信息和文本信息，生成图像特征表示和文本特征表示；对图像特征表示注入噪声，生成含噪潜在表示；将含噪潜在表示输入去噪模型，生成优化后的潜在表示；将文本特征表示输入去噪模型，与优化后的潜在表示进行语义融合，生成语义潜在表示；将语义潜在表示输入解码器，生成视频帧序列并输出。本发明通过对图像特征表示和文本特征表示的多模态融合，确保生成的视频在语义上与输入内容一致；通过注入噪声和去噪优化，增强视频生成的多样性和细节质量；通过解码器生成视频帧序列，保证视频的视觉连贯性和自然过渡。

技术关键词

多模态信息融合视频生成方法去噪模型生成图像特征语义输入解码器视频帧多通道图像数据文本编码器图像编码器生成程序局部纹理特征随机噪声视频生成装置自然语言文本初始化解码器序列

系统为您推荐了相关专利信息

基于机器学习的合同风险识别方法及系统

风险识别方法合同文本数据法律知识图谱动态蒙特卡洛

基于机器视觉的广告设计图检测方法及装置

图像类别合规性直方图评分算法生成算法

一种基于主题图技术的知识图谱构建方法

知识图谱构建方法知识图谱模型主题构建知识图谱数据

视频文本行的检测增强方法、装置、电子设备

视觉特征语义特征视频语义向量图像

基于结构化存储的会话数据加载方法、装置、设备及介质

会话数据加载方法数据获取请求数据访问索引

基于多模态信息融合的视频生成方法、装置、设备及介质

站点导航

APP 下载