一种基于多模态的风险识别方法、装置、设备及存储介质

正文

推荐专利

申请号：CN202411374926

申请日期：2024-09-29

公开号：CN119295998A

公开日期：2025-01-10

类型：发明专利

摘要

本申请公开了一种基于多模态的风险识别方法、装置、设备及存储介质，基于获取到的视频数据信息，将视频流和音频流拆分，分别提取对应的唇部特征序列以及音频频谱特征序列，基于两种序列计算音唇对比同步率，确保视频中存在的音频内容是由对应用户产生的，进一步地，结合两种序列转换的文本内容，通过计算两个文本内容之间的字符级相似度值，得到视频的风险值，能够避免用户唇动正确，但发言内容却不同的情况，解决了目前仅采用人脸识别技术进行用户身份风险识别，存在的无法准确预警代操作的技术问题。

技术关键词

风险识别方法唇部特征频谱特征序列多模态文本音频特征提取语音识别模型视频流数据存储程序代码面部特征风险识别装置视频处理单元字符 RNN模型 LSTM模型

系统为您推荐了相关专利信息

基于序列-结构双通道神经网络的抗菌肽识别方法及系统

双通道神经网络抗菌肽识别方法序列特征三维结构

一种有害气体浓度智能识别与检测方法

气体解码函数多通道特征一维卷积神经网络解码网络

一种基于大语言模型与FreeMarker生成多模态报告的方法及系统

大语言模型多模态格式化模板机器可读程序

一种基于异构图进行视图多层聚合的字幕生成方法及系统

字幕生成方法节点特征异构融合特征注意力

监控场景内容码流存储方法、装置、电子设备和介质

场景监控图像特征向量交互注意力通道视频帧

一种基于多模态的风险识别方法、装置、设备及存储介质

站点导航

APP 下载