摘要
本发明涉及数据处理领域,具体涉及一种基于搜索自反馈的数据向量化标签处理方法和设备,该方法包括:通过元文件属性提取、光学字符识别、自动语音识别或字幕解析技术提取文本线索;利用语言模型和文本线索生成内容摘要;利用基于BERT架构的NER模型对内容摘要进行分析处理并提取特征,得到标签集合;通过FastText算法对标签集合进行处理,并降维得到候选标签向量;通过标签系统匹配候选标签向量和基础向量,基于基础向量的搜索结果集确定对应候选标签向量的搜索结果;以及收集用户行为数据,通过计算用户兴趣权值,和利用对抗生成网络模拟标注错误案例对标签系统进行优化。如此,针对异质异构数据,可以大大提高标记标签的准确率。
技术关键词
标签系统
FastText算法
自动语音识别
线索
光学字符识别
主成分分析法
基础
数据
解析技术
命名实体识别模型
文本
向量空间模型
归一化方法
标记标签
排序策略
预训练模型
生成标签
存储器
字幕
系统为您推荐了相关专利信息
视频行人重识别
重识别方法
训练集数据
查询特征
关系
光学字符识别方法
印刷体
注意力机制
多任务损失函数
文本识别
启发式算法
大语言模型
蒙特卡洛树搜索
节点
规划