一种基于因果掩码的视频会议多模态数据对齐方法、装置、设备及介质

AITNT
正文
推荐专利
一种基于因果掩码的视频会议多模态数据对齐方法、装置、设备及介质
申请号:CN202511261692
申请日期:2025-09-05
公开号:CN120763869A
公开日期:2025-10-10
类型:发明专利
摘要
本申请公开了一种基于因果掩码的视频会议多模态数据对齐方法、装置、设备及介质,涉及计算机技术领域,包括:对在线视频会议中的原始音频、原始视频流和原始文档进行特征提取与融合,基于得到的多模态融合特征进行时序划分得到三重时序窗口;确定与三重时序窗口对应的初始权重值,利用预设约束条件对初始权重值进行归一化调整得到调整后权重;利用发言方的发言标识对预设时序偏移矩阵进行索引,基于索引结果对三重时序窗口的原始时序进行校正,并利用预设因果掩码机制确定与三重时序窗口对应的目标注意力结果,基于所述目标注意力结果对多模态融合特征进行多层级对齐融合得到多模态对齐结果。提高多模态对齐技术的精度并避免未来信息泄露。
技术关键词
数据对齐方法 在线视频会议 多模态 融合特征 时序 注意力 轻量级神经网络 校正 视频流 索引 视觉特征提取 语义特征提取 层级 音频编码器 对齐技术 机制 视频编码器 矩阵
系统为您推荐了相关专利信息
1
一种甘蔗产量智能预测方法和系统
多模态环境 时空融合特征 智能预测方法 种植区 智能预测系统
2
基于空间呼吸道异常音的远程识别系统
远程识别系统 非线性动力学特征 多维特征向量 深度学习识别模型 多模态传感器
3
面向脑瘫语言迟缓干预的情境式互动教学工具
智能分析模块 深度学习神经网络 构建虚拟场景 数据分析算法 交互技术
4
一种残差式融合语言特征的多模态中文反讽识别方法
交叉注意力机制 文本 识别方法 图文 多模态
5
一种基于多模态情感识别和定制化人像生成的机器人拟人化交互方法
视频内容特征 拟人化交互方法 多模态情感识别 个性化头像 面部
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号