一种文本及音频视频融合行为识别方法、设备及产品

正文

推荐专利

申请号：CN202410989534

申请日期：2024-07-23

公开号：CN119046867A

公开日期：2024-11-29

类型：发明专利

摘要

本发明公开一种文本及音频视频融合行为识别方法、设备及产品，涉及视频图像、语音识别领域，该方法包括利用无线耳麦与网络摄像头获取音频数据和视频数据；利用训练好的YOLOv5模型对视频数据进行目标操作效果检测；并根据目标操作效果检测对应的操作的下达口令文本序列B和操作时间T；根据音频数据和操作时间T截取操作发生之前设定时间的音频文件；利用语音识别网络模型对音频文件进行语音识别，得到语句文本序列A；并对语句文本序列A和下达口令文本序列B进行模糊匹配，得到文本及音频视频数据的匹配情况。本发明能够解决跨媒体行为识别中的数据识别与融合问题，进一步提高数据识别与融合的准确性。

技术关键词

拼音语音识别网络文本序列识别方法无线耳麦口令动态规划方法网络摄像头语句数据视频音频计算机设备计算机程序产品处理器屏幕存储器可读存储介质

系统为您推荐了相关专利信息

一种基于机理知识与深度学习融合的城市内涝态势推演方法

深度学习融合节点推演方法地下排水管网有限元计算技术

图像处理方法、计算设备、电子设备及存储介质

掩膜矩阵图像生成模型场景对象图像处理方法

信息处理方法、设备、存储介质及程序产品

服务需求信息语义特征音视频音频客服

一种基于多模态的智慧交通调度方法

交通调度方法混合整数规划模型深度强化学习模型多模态动态时间规整方法

增量数据传输过程的安全校核方法和装置、系统及设备

重构模型重构误差序列校核方法编码器

一种文本及音频视频融合行为识别方法、设备及产品

站点导航

APP 下载