摘要
本申请公开了一种基于多模态的风险识别方法、装置、设备及存储介质,基于获取到的视频数据信息,将视频流和音频流拆分,分别提取对应的唇部特征序列以及音频频谱特征序列,基于两种序列计算音唇对比同步率,确保视频中存在的音频内容是由对应用户产生的,进一步地,结合两种序列转换的文本内容,通过计算两个文本内容之间的字符级相似度值,得到视频的风险值,能够避免用户唇动正确,但发言内容却不同的情况,解决了目前仅采用人脸识别技术进行用户身份风险识别,存在的无法准确预警代操作的技术问题。
技术关键词
风险识别方法
唇部特征
频谱特征
序列
多模态
文本
音频特征提取
语音识别模型
视频流
数据
存储程序代码
面部特征
风险识别装置
视频处理单元
字符
RNN模型
LSTM模型
系统为您推荐了相关专利信息
双通道神经网络
抗菌肽
识别方法
序列特征
三维结构
气体
解码函数
多通道特征
一维卷积神经网络
解码网络