摘要
本发明公开了一种多模态视频特征提取方法、装置、设备及介质,应用于城市管理、医疗预测和金融预测等应用场景。其中的方法通过采集设备获取原始的多模态数据,经过预处理后,采用分层多模态分解技术对各模态数据进行多尺度特征提取,生成具有丰富时空信息的分层特征。利用自适应稀疏编码对这些分层特征进行联合稀疏表示优化,动态调整稀疏阈值和字典,实现对多模态特征的高效压缩与判别力提升。将优化后的稀疏编码融合成紧凑的多模态特征向量,输出用于下游分析任务。有效解决了现有技术中因固定字典和静态融合导致的特征表达不充分问题,显著提升了多模态视频特征的表达能力和适应动态场景的能力。
技术关键词
视频特征提取方法
分层特征
多模态
编码
在线字典学习
能量分布特征
视频流
多分辨率
拉普拉斯金字塔
预训练语言模型
复杂度
注意力机制
多尺度特征提取
采集设备
融合特征
文本
音频
跨模态
计算机设备
系统为您推荐了相关专利信息
积木机器人
支持人机交互
声音采集电路
模拟麦克风
陶瓷天线
网页信息分类方法
树形结构
自动化工具
神经网络模型
生成特征向量