一种基于语义相似性的新闻网页正文提取方法及系统

AITNT
正文
推荐专利
一种基于语义相似性的新闻网页正文提取方法及系统
申请号:CN202510278653
申请日期:2025-03-10
公开号:CN119783682B
公开日期:2025-07-29
类型:发明专利
摘要
本发明公开了一种基于语义相似性的新闻网页正文提取方法及系统,属于数据处理技术领域。本发明方法,包括:针对目标新闻网页,基于语义相似性提取出目标新闻网页的新闻标题,并筛选出所述新闻标题的最相关段落;基于所述最相关段落,界定出与所述新闻标题对应的正文范围;在所述正文范围内,提取出新闻网页正文。本发明以标题为线索,使用文本语义作为搜索工具,继而界定正文范围,既强化了正文提取的正确性又保证了完整度。
技术关键词
新闻网页正文 标签文本 文本段落 语义 节点 搜索工具 图片 数据处理技术 处理器 计算机设备 可读存储介质 线索 程序
系统为您推荐了相关专利信息
1
面向复杂操作任务的双臂机器人运动规划方法和系统
节点 关节 运动规划方法 双臂机器人系统 机械臂
2
一种派送员与无人物流车的协同配送调度方法和装置
混合整数规划模型 无人物流车 节点 配送调度方法 变量
3
网络威胁情报处理方法、装置、电子设备以及存储介质
样本 网络威胁情报 实体 三元组 关系
4
一种混凝土运输罐车动态调度方法
混凝土运输罐车 动态调度方法 Dijkstra算法 地理位置信息 工地
5
钢管混凝土拱桥节点综合评估及绿色设计方法与优化系统
钢管混凝土拱桥 建筑信息模型技术 综合评价方法 有限元分析模型 适应性分析方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号