一种自动化收集和提取企业创新活动信息的方法及系统

AITNT
正文
推荐专利
一种自动化收集和提取企业创新活动信息的方法及系统
申请号:CN202510606653
申请日期:2025-05-12
公开号:CN120524016B
公开日期:2025-10-10
类型:发明专利
摘要
本发明提供了一种自动化收集和提取企业创新活动信息方法及系统,通过S1基于TF‑IDF的关键词抽取算法,建立创新活动信息的特征词库;S2扫描目标网站的网页结构,定位到目标网页并获取网页源代码;S3依据HTML标签进行分块,得到待识别文本块;S4.依据所述特征词库,计算所述待识别文本块与所述目标信息的相关度,依据所述相关度筛选得到创新活动内容;S5.利用爬虫工具抓取创新活动内容;S6.对抓取到的所述目标内容进行质量评价及价值分类;S7将所述高价值的所述目标内容存入企业信息库,将所述低价值的所述目标内容存入备用对照学习库,实现了对企业创新活动信息高效、精准地抓取,并提高这些信息的利用率。
技术关键词
特征词库 识别文本块 网页结构 关键词 密度算法 抽取算法 企业 标签 分块 节点 数据存储模块 网页正文内容 符号 扫描模块 技术创新 识别模块 抓取模块 样本 爬虫
系统为您推荐了相关专利信息
1
热处理工艺知识图谱构建方法及装置
知识图谱构建方法 三元组 实体 有向图结构 数据
2
一种物业数字管家系统
智能工单 画像 决策 物业管理技术 自然语言
3
用户问题的智能交互解答方法、装置和计算机设备
实体 计算机设备 语义 策略 计算机程序产品
4
敏感词筛选排查方法、装置、终端及存储介质
排查方法 文本 可读存储介质 分词 关键词
5
一种基于控制流和数据流知识图谱的API推荐方法
推荐方法 代码分析工具 静态代码分析 关键词 广度优先搜索算法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号