一种基于文本重复度的文本处理方法、设备及存储介质

正文

推荐专利

申请号：CN202410997378

申请日期：2024-07-24

公开号：CN118690738B

公开日期：2025-02-07

类型：发明专利

摘要

本发明涉及电数字数据处理技术领域，特别是涉及一种基于文本重复度的文本处理方法、设备及存储介质。所述方法包括：获取第i类待采样文本ai，ai包括的待采样文本的数量为qi，ai包括的qi个待采样文本的标签相同；获取第i类的采样数量si；如果qi>si，则从ai中随机获取si个待采样文本构成第i类的判别采样文本Bi；对Bi进行分组，得到分组结果Ri，Ri包括v个组；根据Ri包括的组之间的文本相似度获取Bi中文本之间的重复度simi；如果simi≤sim0，则将Bi确定为第i类的目标采样文本。本发明提高了获取采样文本的效率和提高了基于采样得到的文本进行训练的语义分析模型的推理能力。

技术关键词

文本处理方法电数字数据处理技术语义分析模型可读存储介质处理器标签存储器计算机电子设备

系统为您推荐了相关专利信息

一种天车调度方法、装置、设备、介质及产品

任务分配策略天车调度方法动态调度算法状态传感器运动

一种网表构建方法、计算机介质、设备和程序产品

中介层功能元件信号线 EDA设计技术凸块

一种钢筋混凝土排水管道更换方法及系统

套管工具牵引机构排水管道切割机构处理器设备

基于差分隐私的异构联邦微调语言模型构建方法及系统

语言模型构建方法差分隐私客户端模型更新异构

可抑制生成式大模型幻觉问题的RAG查询方法、系统、介质和产品

查询方法单轮检索策略文本生成模型交互式语音

一种基于文本重复度的文本处理方法、设备及存储介质

站点导航

APP 下载