摘要
本申请公开了一种基于内容的新闻去重方法及装置、非易失性存储介质。其中,该方法包括:获取待处理新闻集合,将文本结构相似度大于或者等于预设相似度的待处理新闻删除,得到剩余待处理新闻;确定每条剩余待处理新闻的内容要素和类目体系,并将内容要素和类目体系完全相同的多条剩余待处理新闻归类为一个待去重集合;对于待去重集合中的每条目标剩余待处理新闻,采用第一提示词触发文本分析模型输出与目标剩余待处理新闻相关的多个提问问题,得到问题列表,并采用第二提示词触发文本分析模型输出目标剩余待处理新闻的摘要信息;根据问题列表的第一语义相似度和摘要信息的第二语义相似度在待去重集合中确定待删除新闻。
技术关键词
文本分析模型
非易失性存储介质
语义
摘要
列表
去重方法
层级
指纹
计算机程序产品
信息编码
处理器
字符
模块
存储器
电子设备
词语
频率
指令
系统为您推荐了相关专利信息
表达式
Softmax函数
融合特征
分支
两阶段