摘要
本发明提供一种关键信息的搜索方法及装置,对目标网站进行爬取得到网页内容;从网页内容中提取出文本信息;判断网页内容是否通过特定关键词爬取得到;若是,则利用正则匹配公式,将文本信息与特定关键词进行匹配,得到文本信息对应的关键信息评价分;若否,则从文本信息中识别出多个预设的关键指标对应的关键指标值,基于每一关键指标的初始评分、每一关键指标对应的权重和加权值算法,计算得到关键信息评价分;若关键信息评价分大于评分阈值,则确定文本信息为关键信息。在本方案中,利用爬虫批量获取网页内容,对可能的关键信息进行判断打分,将关键信息评价分大于评分阈值的信息确定为关键信息,实现了提高效率和持续化搜索关键信息的目的。
技术关键词
分布式爬虫系统
关键词
文本
报文
指标
搜索词
文字识别技术
明文
多线程方式
搜索方法
图片
层次分析法
格式
标签
矩阵
动态
参数
算法
批量
系统为您推荐了相关专利信息
训练样本集
生成模型训练方法
内容概括
生成页面
数据
结构化查询语言
召回方法
模版
数据嵌入
语义向量
仿真模型
场景仿真技术
数据驱动优化
多模态
仿真数据