摘要
本发明涉及产品标签提取技术领域,具体地说,涉及基于互联网大数据和AI大语言模型的产品标签提取方法。其包括以下步骤:S1、使用爬虫技术抓取互联网上产品的文本数据;S2、采用TF‑IDF算法确定文本数据中的重要词汇,并结合Skip‑Gram模型来捕捉词汇间的语义关联,在捕捉词汇间语义关联的过程中引入反映用户浏览频率的权重和用户的行为特征向量来优化捕捉过程;S3、基于提取的重要词汇和词汇间的语义关联信息,利用大规模预训练的语言模型生成产品标签;S4、结合序列标注模型BERT和条件随机场CRF定位和分类产品标签,输出最终提取的产品标签。本发明技术利用BERT模型和条件随机场(CRF)层相结合的方式,可以有效地对产品标签进行定位和分类。
技术关键词
互联网大数据
生成产品标签
条件随机场
序列标注模型
Viterbi算法
BERT模型
分类产品
语义
转移概率矩阵
文本
爬虫技术
Sigmoid函数
索引
聚类方法
高维向量空间
频率
预训练语言模型
系统为您推荐了相关专利信息
答案
对话策略
多轮对话
依存句法分析
面向电力行业
命名实体识别方法
文本
依存句法
预训练模型
上下文特征
语义
序列
命名实体识别方法
关系
奇异值分解重构
左心室射血分数
左心室容积
智能裁剪
可视化分析图表
关键帧