摘要
本申请公开了一种新闻内容核心导向标注方法、设备及介质,涉及电数字数据处理技术领域。方法包括:将预设的新闻文本数据集划分为已标注文本示例池和未标注文本数据集;对未标注文本数据集进行初步标注,得到弱标注文本数据集;从弱标注文本数据集中筛选目标置信样本,并通过预设的筛选策略,基于目标置信样本,生成带有目标伪标签的目标样本集合;并根据语义近邻样本构建对话提示模板,以基于预设的macBERT模型,通过对话提示模板,输出弱标注文本数据集对应的精炼伪标签;将目标样本集合和待精炼文本作为训练集输入到macBERT模型中进行训练,得到训练完成的文本分类模型,并通过文本分类模型,输出待标注新闻的核心导向标注。
技术关键词
样本
标注方法
标签
文本分类模型
高斯混合模型
数据
核心
语义
非易失性计算机存储介质
计算机可执行指令
模板
标注设备
训练集
代表
处理器通信
策略
分阶段
系统为您推荐了相关专利信息
食品安全风险评估
样本
粮油食品
原型
注意力机制
图像特征向量
训练样本集
医学
模型训练方法
标签
AI大数据
智能营销系统
数据采集模块
生成系统
视频采集模块
营销策略优化方法
文本
数据采集模块
大语言模型
分析模块