一种文本及音频视频融合行为识别方法、设备及产品

AITNT
正文
推荐专利
一种文本及音频视频融合行为识别方法、设备及产品
申请号:CN202410989534
申请日期:2024-07-23
公开号:CN119046867A
公开日期:2024-11-29
类型:发明专利
摘要
本发明公开一种文本及音频视频融合行为识别方法、设备及产品,涉及视频图像、语音识别领域,该方法包括利用无线耳麦与网络摄像头获取音频数据和视频数据;利用训练好的YOLOv5模型对视频数据进行目标操作效果检测;并根据目标操作效果检测对应的操作的下达口令文本序列B和操作时间T;根据音频数据和操作时间T截取操作发生之前设定时间的音频文件;利用语音识别网络模型对音频文件进行语音识别,得到语句文本序列A;并对语句文本序列A和下达口令文本序列B进行模糊匹配,得到文本及音频视频数据的匹配情况。本发明能够解决跨媒体行为识别中的数据识别与融合问题,进一步提高数据识别与融合的准确性。
技术关键词
拼音 语音识别网络 文本 序列 识别方法 无线耳麦 口令 动态规划方法 网络摄像头 语句 数据 视频 音频 计算机设备 计算机程序产品 处理器 屏幕 存储器 可读存储介质
系统为您推荐了相关专利信息
1
一种基于机理知识与深度学习融合的城市内涝态势推演方法
深度学习融合 节点 推演方法 地下排水管网 有限元计算技术
2
图像处理方法、计算设备、电子设备及存储介质
掩膜矩阵 图像生成模型 场景 对象 图像处理方法
3
信息处理方法、设备、存储介质及程序产品
服务需求信息 语义特征 音视频 音频 客服
4
一种基于多模态的智慧交通调度方法
交通调度方法 混合整数规划模型 深度强化学习模型 多模态 动态时间规整方法
5
增量数据传输过程的安全校核方法和装置、系统及设备
重构模型 重构误差 序列 校核方法 编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号