摘要
本发明公开了一种基于决策咨询服务的关键词提取数据集制作方法,包括以下步骤:S1,使用Python语言中的Selenium库抓取网页文本数据并进行数据清洗;S2,连接MySQL数据库,将抓取的数据按时间、标题、内容等维度存储,以确保数据的结构化管理;S3,对标题和文本内容的数据进行中文分词与去除停用词;S4,在Transformer模型的框架下,引入标题信息融入注意力机制的计算,通过标题向量和注意力的结合,引导模型生成关键词;S6,通过余弦相似度测量关键词与原文本的语义相似度,从而筛选出更为精准的关键词。本发明不仅实现了数据抓取和数据集制作功能,同时通过集成标题注意力机制和余弦相似度,提升了关键词提取的精确性。
技术关键词
数据集制作方法
生成关键词
中文分词
决策
解码器
抓取网页
编码器
中文文本
中文关键词
文档关键词
多头注意力机制
语义
序列
符号
格式
系统为您推荐了相关专利信息
人脸模型
动画生成方法
视频
音频编码器
参数估计算法
回收控制方法
过渡工况
补偿滤波器
废气
PID控制器
模型优化方法
卸载策略
时延
深度强化学习
视点渲染
智能决策方法
仿真系统
构建知识图谱
节点
联邦模型