摘要
本发明提出了一种基于变体词识别的直播违规行为检测方法,包括:基于语音识别模型和光学字符识别模型,获取直播间的音频和视觉文字,并转化为文本数据;提取文本数据,并进行多层级变体词识别,包括:基于正则匹配的变体词识别、基于统计语言模型的变体词识别和基于大语言模型的变体词识别;基于识别到的变体词,获取变体词的原词,并将原词与敏感词库进行匹配,判断原词是否存在;如果原词存在,则调取变体词前后设定时长的视频数据,并保存为违规证据。本申请采取不同的识别检测方法来应对不同类型的变体词,在不同时间粒度采用不同精细度的变体词识别方法,实现了直播违规行为检测技术中实时性与准确性的平衡。
技术关键词
统计语言模型
大语言模型
语音识别模型
光学字符识别
层级
变体词识别方法
音形
文本
语义
识别检测方法
数据
视觉
可读存储介质
识别结构
处理器
视频
音频
发音
电子设备
听觉
系统为您推荐了相关专利信息
内容推荐系统
光学字符识别
兴趣画像
模型训练模块
时间序列分析方法
车道线检测方法
融合特征
分类网络
多尺度特征融合
层级
图形生成方法
大语言模型
布局图案
对齐模块
图形生成系统