摘要
本发明公开了一种基于LLM的科学文献主题发现方法及装置。本方法为:1)获取每一科学文献样本的文本表征并利用文本编码器对其进行编码,得到对应科学文献样本的文档表征矩阵;2)对各科学文献样本进行聚类,得到不同主题的聚类结果;计算每个科学文献样本的熵值,选取高不确定性样本;3)计算每一高不确定性样本与其他科学文献样本之间的语义相似性,构建多个三元组任务;利用各三元组任务通过对比学习方法微调文本编码器;4)使用文本编码器对每一科学文献样本的文本表征进行编码,得到对应科学文献样本的文档表征矩阵;5)利用各科学文献样本的文档表征矩阵对各科学文献样本进行主题聚类,生成各科学文献样本的聚类标签和主题划分结果。
技术关键词
样本
文本编码器
主题发现方法
三元组
学习方法
矩阵
主题语义
聚类方法
采样模块
无监督
摘要
存储计算机程序
论文
标签
系统为您推荐了相关专利信息
算法优化方法
自动驾驶系统
人类驾驶员
计算机程序指令
计算机程序产品
耦合动力学模型
相关性分析方法
降阶模型
气动力
非线性方法