摘要
本申请涉及一种基于音频的视频描述的生成方法、装置、设备及介质,其中,方法包括:提取视频文件中的视频帧数据以及音频数据,并尝试识别视频帧数据的第一文本信息以及音频数据的第二文本信息;根据是否存在第一文本信息以及第二文本信息判断视频文件中的视频场景;从多模态数据中选取与视频场景对应的目标数据进行融合,得到待识别数据,其中,多模态数据包括与视频帧数据对应的视觉特征表示、与音频数据对应的音频特征表示、第一文本信息以及第二文本信息;通过预设识别模型对待识别数据进行识别,得到与视频文件对应的视频描述。解决了由于忽略了听觉信息导致生成的视频描述不够全面的问题。
技术关键词
视觉特征
视频帧
数据
音频特征
场景
生成方法
多模态
人声
处理器
通信接口
序列
文本识别
情景
存储器
生成装置
识别模块
系统为您推荐了相关专利信息
可编程只读存储器
启动电路
处理器
控制芯片
可读存储介质
智能穿戴设备
数据采集单元
大数据
前馈神经网络
集成传感器
水位预测方法
混合专家网络
离散小波变换
水库
变量