基于S1iME框架的多模态感知与视频理解方法

正文

推荐专利

申请号：CN202510135509

申请日期：2025-02-07

公开号：CN120067983A

公开日期：2025-05-30

类型：发明专利

摘要

本发明公开了基于S1iME框架的多模态感知与视频理解方法，包括如下步骤：S1、接收视频、音频和文本数据，对数据进行预处理，生成结构化多模态数据；S2、特征提取，生成多模态特征表示；S3、利用跨模态自注意力机制，进行特征对齐和融合；S4、输入短期记忆模块，结合长期记忆模块，生成时间增强的多模态特征表示；S5、通过推理模块进行时序建模，生成推理特征表示；S6、利用生成模块，生成多模态理解结果；S7、通过自监督学习机制优化框架，进行偏差对比与特征校正；S8、输出视频理解结果。本发明通过基于S1iME框架的多模态感知与视频理解方法，实现了多模态数据的动态融合和深层次时序推理，显著提升了视频理解、情感分析和事件预测的准确性。

技术关键词

视频理解方法多模态特征门控循环单元融合特征记忆注意力机制非线性动态权重分配线性变换矩阵框架预测特征加权特征语义时序残差系数

系统为您推荐了相关专利信息

一种断路器设备的可靠性诊断方法、介质及系统

断路器设备诊断方法断路器机械故障融合特征方程

一种基于多模态特征融合的手术机器人实时影像配准方法

三维卷积神经网络影像配准方法轻量化卷积神经网络多模态特征融合特征提取器

一种文献数据多标签自动分类方法及系统

自动分类方法多标签自动分类系统文本 BERT模型

基于缓存的数据查询解析结果优化方法及系统

索引原始查询语句查询特征数据查询请求模板特征

一种基于层次聚类的无监督硅片表面缺陷检测方法及装置

硅片表面缺陷检测补丁融合策略图像无监督聚类分析

基于S1iME框架的多模态感知与视频理解方法

站点导航

APP 下载