一种基于因果掩码的视频会议多模态数据对齐方法、装置、设备及介质

正文

推荐专利

申请号：CN202511261692

申请日期：2025-09-05

公开号：CN120763869A

公开日期：2025-10-10

类型：发明专利

摘要

本申请公开了一种基于因果掩码的视频会议多模态数据对齐方法、装置、设备及介质，涉及计算机技术领域，包括：对在线视频会议中的原始音频、原始视频流和原始文档进行特征提取与融合，基于得到的多模态融合特征进行时序划分得到三重时序窗口；确定与三重时序窗口对应的初始权重值，利用预设约束条件对初始权重值进行归一化调整得到调整后权重；利用发言方的发言标识对预设时序偏移矩阵进行索引，基于索引结果对三重时序窗口的原始时序进行校正，并利用预设因果掩码机制确定与三重时序窗口对应的目标注意力结果，基于所述目标注意力结果对多模态融合特征进行多层级对齐融合得到多模态对齐结果。提高多模态对齐技术的精度并避免未来信息泄露。

技术关键词

数据对齐方法在线视频会议多模态融合特征时序注意力轻量级神经网络校正视频流索引视觉特征提取语义特征提取层级音频编码器对齐技术机制视频编码器矩阵

系统为您推荐了相关专利信息

一种甘蔗产量智能预测方法和系统

多模态环境时空融合特征智能预测方法种植区智能预测系统

基于空间呼吸道异常音的远程识别系统

远程识别系统非线性动力学特征多维特征向量深度学习识别模型多模态传感器

面向脑瘫语言迟缓干预的情境式互动教学工具

智能分析模块深度学习神经网络构建虚拟场景数据分析算法交互技术

一种残差式融合语言特征的多模态中文反讽识别方法

交叉注意力机制文本识别方法图文多模态

一种基于多模态情感识别和定制化人像生成的机器人拟人化交互方法

视频内容特征拟人化交互方法多模态情感识别个性化头像面部

一种基于因果掩码的视频会议多模态数据对齐方法、装置、设备及介质

站点导航

APP 下载