摘要
本发明涉及计算机视觉和深度学习技术领域,具体涉及多模态融合的实时视频超分辨率重建方法及其系统,包括以下步骤:获取低分辨率视频序列;采用CLIP模型提取视觉特征和文本特征,并进行双模态特征融合,生成指导特征;通过多模态融合模块对所述指导特征与所述低分辨率视频进行特征对齐;采用轻量化残差模块提取高质量特征;通过帧间信息流传播融合多帧特征,并采用自适应卡尔曼滤波进行运动补偿;将所述高质量特征与特征融合后的信息结合重建高清图像,通过引入CLIP模型提取视觉和文本特征,实现了多模态信息的融合,增强了语义理解能力,提高了超分辨率重建的质量和细节表现。
技术关键词
超分辨率重建方法
实时视频
视觉特征
卡尔曼滤波
残差模块
多模态
特征学习网络
运动补偿模块
双模态
文本
序列
深度学习技术
多尺度
高清
重建系统
特征提取模块
多层感知机