摘要
本公开涉及一种数据处理方法、装置、电子设备、存储介质及程序产品;数据处理方法,包括:获取音频数据和视频数据;通过预训练的多模态模型,对音频数据和视频数据进行编码,得到在语义和时间上对齐的音频特征和视频特征;其中,预训练的多模态模型包括:预训练的音频编码器和预训练的视频编码器,预训练的音频编码器的结构与预训练的视频编码器的结构相同,预训练的音频编码器用于对音频数据进行编码,得到音频特征,预训练的视频编码器用于对视频数据进行编码,得到视频特征。该技术方案可以提升基于音视频数据所提取的音视频特征在语义和时间上的对齐度,进而提升涉及音视频数据的多模态任务的数据处理效果。
技术关键词
数据处理方法
音频特征
音频编码器
视频编码器
音视频
样本
采样率
数据处理装置
语义
电子设备
处理器
计算机程序产品
可读存储介质
分辨率
系统为您推荐了相关专利信息
小区
栅格
互联网系统
数据处理方法
生成训练样本
鉴伪方法
多模态特征
视觉特征
音频特征
卷积模块
标注方法
对音视频
音视频记录仪
DTW算法
网络抖动
生物反馈设备
数据处理方法
编码器
映射技术
序列
教育数据管理系统
分析模块
数据存储管理
规划
参数