摘要
本发明公开了一种基于多尺度编解码器的多模态视频序列分割方法,步骤包括:提取图像特征和文本特征;获取同时包含图像与语言语义信息的联合特征表示;提取出在不同空间分辨率下的多尺度融合特征序列;得到时空建模后的特征表示序列;得到统一语义空间下的跨尺度融合特征表示;得到前景特征;对分割掩码进行视觉可视化生成语义分割图。该多模态视频序列分割方法能够实现图像和语言语义的深度交互,建立上下文和语义关系,通过多模态协同机制引入跨模态信息交互,增强模型在复杂动态场景中的鲁棒性与稳定性,有效提升图像序列分割模型在分割任务中的分割效果和泛化能力。
技术关键词
视频序列分割方法
编解码器
融合特征
语义
多尺度特征提取
图像特征提取
文本
特征金字塔
编码器
多模态特征融合
码头
多模态协同
多头注意力机制
输出特征
特征提取能力
预训练模型
系统为您推荐了相关专利信息
分布特征
数据分布
分类方法
样本
支持向量机模型
无线通信网络数据处理
大语言模型
智能通信网络
资源编排方法
通信网络资源
标量特征
邻域
三维计算机视觉技术
特征值
三维点云数据
网络流量分析
管理系统
协议
网络流量数据
非结构化特征