基于音频的视频描述的生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202411892087

申请日期：2024-12-20

公开号：CN119767098A

公开日期：2025-04-04

类型：发明专利

摘要

本申请涉及一种基于音频的视频描述的生成方法、装置、设备及介质，其中，方法包括：提取视频文件中的视频帧数据以及音频数据，并尝试识别视频帧数据的第一文本信息以及音频数据的第二文本信息；根据是否存在第一文本信息以及第二文本信息判断视频文件中的视频场景；从多模态数据中选取与视频场景对应的目标数据进行融合，得到待识别数据，其中，多模态数据包括与视频帧数据对应的视觉特征表示、与音频数据对应的音频特征表示、第一文本信息以及第二文本信息；通过预设识别模型对待识别数据进行识别，得到与视频文件对应的视频描述。解决了由于忽略了听觉信息导致生成的视频描述不够全面的问题。

技术关键词

视觉特征视频帧数据音频特征场景生成方法多模态人声处理器通信接口序列文本识别情景存储器生成装置识别模块

系统为您推荐了相关专利信息

用于雷诺现象预警的多源生理数据采集与分析系统

雷诺现象生理分数阶包络信号

一种芯片的安全启动方法、电路及计算机可读存储介质

可编程只读存储器启动电路处理器控制芯片可读存储介质

一种大数据智能穿戴设备

智能穿戴设备数据采集单元大数据前馈神经网络集成传感器

一种船用板材焊接方法及系统

船用板材焊接方法参数生成执行指令边缘轮廓

基于神经网络与不确定性感知的水库水位预测方法及介质

水位预测方法混合专家网络离散小波变换水库变量

基于音频的视频描述的生成方法、装置、设备及介质

站点导航

APP 下载