基于搜索自反馈的数据向量化标签处理方法和设备

正文

推荐专利

申请号：CN202510447532

申请日期：2025-04-10

公开号：CN120144876B

公开日期：2025-10-17

类型：发明专利

摘要

本发明涉及数据处理领域，具体涉及一种基于搜索自反馈的数据向量化标签处理方法和设备，该方法包括：通过元文件属性提取、光学字符识别、自动语音识别或字幕解析技术提取文本线索；利用语言模型和文本线索生成内容摘要；利用基于BERT架构的NER模型对内容摘要进行分析处理并提取特征，得到标签集合；通过FastText算法对标签集合进行处理，并降维得到候选标签向量；通过标签系统匹配候选标签向量和基础向量，基于基础向量的搜索结果集确定对应候选标签向量的搜索结果；以及收集用户行为数据，通过计算用户兴趣权值，和利用对抗生成网络模拟标注错误案例对标签系统进行优化。如此，针对异质异构数据，可以大大提高标记标签的准确率。

技术关键词

标签系统 FastText算法自动语音识别线索光学字符识别主成分分析法基础数据解析技术命名实体识别模型文本向量空间模型归一化方法标记标签排序策略预训练模型生成标签存储器字幕

系统为您推荐了相关专利信息

一种关注长短期时间关系的视频行人重识别方法

视频行人重识别重识别方法训练集数据查询特征关系

基于AI视觉分析的玻璃纤维飞丝断丝预警及处置方法

拉丝机炉台定义规则玻璃纤维信号接收设备

一种冗余索并联机器人索力优化方法

索并联机器人雅克比矩阵冗余力矩终端

一种混合手写体与印刷体的光学字符识别方法及系统

光学字符识别方法印刷体注意力机制多任务损失函数文本识别

基于大语言模型的自动启发式算法规划方法

启发式算法大语言模型蒙特卡洛树搜索节点规划

基于搜索自反馈的数据向量化标签处理方法和设备

站点导航

APP 下载