基于音频的视频描述的生成方法、装置、设备及介质

AITNT
正文
推荐专利
基于音频的视频描述的生成方法、装置、设备及介质
申请号:CN202411892087
申请日期:2024-12-20
公开号:CN119767098A
公开日期:2025-04-04
类型:发明专利
摘要
本申请涉及一种基于音频的视频描述的生成方法、装置、设备及介质,其中,方法包括:提取视频文件中的视频帧数据以及音频数据,并尝试识别视频帧数据的第一文本信息以及音频数据的第二文本信息;根据是否存在第一文本信息以及第二文本信息判断视频文件中的视频场景;从多模态数据中选取与视频场景对应的目标数据进行融合,得到待识别数据,其中,多模态数据包括与视频帧数据对应的视觉特征表示、与音频数据对应的音频特征表示、第一文本信息以及第二文本信息;通过预设识别模型对待识别数据进行识别,得到与视频文件对应的视频描述。解决了由于忽略了听觉信息导致生成的视频描述不够全面的问题。
技术关键词
视觉特征 视频帧 数据 音频特征 场景 生成方法 多模态 人声 处理器 通信接口 序列 文本识别 情景 存储器 生成装置 识别模块
系统为您推荐了相关专利信息
1
用于雷诺现象预警的多源生理数据采集与分析系统
雷诺现象 生理 分数阶 包络 信号
2
一种芯片的安全启动方法、电路及计算机可读存储介质
可编程只读存储器 启动电路 处理器 控制芯片 可读存储介质
3
一种大数据智能穿戴设备
智能穿戴设备 数据采集单元 大数据 前馈神经网络 集成传感器
4
一种船用板材焊接方法及系统
船用板材 焊接方法 参数 生成执行指令 边缘轮廓
5
基于神经网络与不确定性感知的水库水位预测方法及介质
水位预测方法 混合专家网络 离散小波变换 水库 变量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号