基于序列标注的网页正文定位方法、装置和计算机设备

AITNT
正文
推荐专利
基于序列标注的网页正文定位方法、装置和计算机设备
申请号:CN202411086021
申请日期:2024-08-08
公开号:CN118606591B
公开日期:2024-10-25
类型:发明专利
摘要
本申请涉及一种基于序列标注的网页正文定位方法、装置和计算机设备。首先构建正则表达式从源码中提取出相应的文本片段,由于提取出的片段中仅有小部分包含所要提取的正文内容,针对这些片段还进行了一次分类,依据正文与非正文片段之间的差异筛选出真正包含正文内容的片段。其次,利用训练集对HMM模型中所要用到的所有参数进行了赋值与初始化。最后,利用维特比算法计算出了正文片段中每个单词归属于不同标签的概率,并选取其中最大的概率进行序列标注,依据标签的类别定位出所有属于正文的内容。
技术关键词
HMM模型 标签 网页正文 转移概率矩阵 维特比算法 文本 模型训练模块 定位方法 计算机设备 序列 定位模块 存储器 数据 处理器 样本 参数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号