摘要
本申请公开了一种多人面审的音视频识别处理方法、装置、设备及存储介质,对待识别音视频文件进行目标话术的定位,并基于音唇同步模型统计目标话术对应的时间段内各个用户对应的嘴巴运动时长,确定在目标话术的时间段内的核心用户,再通过识别核心用户的身份属性,结合预设列表对目标话术对应文本内容进行报警判断,避免单一的音唇同步模型判断失误的情况。解决了实际场景中代理人对投保人说话并非完全指导话术,而实现对于普通话术不予报警,且由于投保人回答的话术一般很简短,音唇同步模型判断不一定准确,就会导致的误报警的情况出现的技术问题。
技术关键词
音视频
音唇同步
身份
声纹特征
声纹识别模型
核心
存储程序代码
列表
时间段
文本识别
标记
可读存储介质
大语言模型
定位单元
运动
处理器
存储器
计算机
场景
系统为您推荐了相关专利信息
人脸识别模型
中央控制系统
汽车控制方法
图像
身份验证
语音识别文本
多模态信息融合
图像特征识别算法
视频
关键帧提取算法
RPA技术
开发环境搭建
系统集成模块
RPA机器人
密码重置系统
关键词
历史访问记录
决策
TextRank算法
标记
医疗数据处理平台
医院数据处理
数据处理终端
医疗保险数据
医保信息处理技术