摘要
本发明公开一种文本及音频视频融合行为识别方法、设备及产品,涉及视频图像、语音识别领域,该方法包括利用无线耳麦与网络摄像头获取音频数据和视频数据;利用训练好的YOLOv5模型对视频数据进行目标操作效果检测;并根据目标操作效果检测对应的操作的下达口令文本序列B和操作时间T;根据音频数据和操作时间T截取操作发生之前设定时间的音频文件;利用语音识别网络模型对音频文件进行语音识别,得到语句文本序列A;并对语句文本序列A和下达口令文本序列B进行模糊匹配,得到文本及音频视频数据的匹配情况。本发明能够解决跨媒体行为识别中的数据识别与融合问题,进一步提高数据识别与融合的准确性。
技术关键词
拼音
语音识别网络
文本
序列
识别方法
无线耳麦
口令
动态规划方法
网络摄像头
语句
数据
视频
音频
计算机设备
计算机程序产品
处理器
屏幕
存储器
可读存储介质
系统为您推荐了相关专利信息
深度学习融合
节点
推演方法
地下排水管网
有限元计算技术
交通调度方法
混合整数规划模型
深度强化学习模型
多模态
动态时间规整方法