摘要
本申请涉及一种基于序列标注的网页正文定位方法、装置和计算机设备。首先构建正则表达式从源码中提取出相应的文本片段,由于提取出的片段中仅有小部分包含所要提取的正文内容,针对这些片段还进行了一次分类,依据正文与非正文片段之间的差异筛选出真正包含正文内容的片段。其次,利用训练集对HMM模型中所要用到的所有参数进行了赋值与初始化。最后,利用维特比算法计算出了正文片段中每个单词归属于不同标签的概率,并选取其中最大的概率进行序列标注,依据标签的类别定位出所有属于正文的内容。
技术关键词
HMM模型
标签
网页正文
转移概率矩阵
维特比算法
文本
模型训练模块
定位方法
计算机设备
序列
定位模块
存储器
数据
处理器
样本
参数