摘要
本发明公开了一种基于语义相似性的新闻网页正文提取方法及系统,属于数据处理技术领域。本发明方法,包括:针对目标新闻网页,基于语义相似性提取出目标新闻网页的新闻标题,并筛选出所述新闻标题的最相关段落;基于所述最相关段落,界定出与所述新闻标题对应的正文范围;在所述正文范围内,提取出新闻网页正文。本发明以标题为线索,使用文本语义作为搜索工具,继而界定正文范围,既强化了正文提取的正确性又保证了完整度。
技术关键词
新闻网页正文
标签文本
文本段落
语义
节点
搜索工具
图片
数据处理技术
处理器
计算机设备
可读存储介质
线索
程序
系统为您推荐了相关专利信息
混合整数规划模型
无人物流车
节点
配送调度方法
变量
混凝土运输罐车
动态调度方法
Dijkstra算法
地理位置信息
工地
钢管混凝土拱桥
建筑信息模型技术
综合评价方法
有限元分析模型
适应性分析方法