一种基于文本重复度的文本处理方法、设备及存储介质

AITNT
正文
推荐专利
一种基于文本重复度的文本处理方法、设备及存储介质
申请号:CN202410997378
申请日期:2024-07-24
公开号:CN118690738B
公开日期:2025-02-07
类型:发明专利
摘要
本发明涉及电数字数据处理技术领域,特别是涉及一种基于文本重复度的文本处理方法、设备及存储介质。所述方法包括:获取第i类待采样文本ai,ai包括的待采样文本的数量为qi,ai包括的qi个待采样文本的标签相同;获取第i类的采样数量si;如果qi>si,则从ai中随机获取si个待采样文本构成第i类的判别采样文本Bi;对Bi进行分组,得到分组结果Ri,Ri包括v个组;根据Ri包括的组之间的文本相似度获取Bi中文本之间的重复度simi;如果simi≤sim0,则将Bi确定为第i类的目标采样文本。本发明提高了获取采样文本的效率和提高了基于采样得到的文本进行训练的语义分析模型的推理能力。
技术关键词
文本处理方法 电数字数据处理技术 语义分析模型 可读存储介质 处理器 标签 存储器 计算机 电子设备
系统为您推荐了相关专利信息
1
一种天车调度方法、装置、设备、介质及产品
任务分配策略 天车调度方法 动态调度算法 状态传感器 运动
2
一种网表构建方法、计算机介质、设备和程序产品
中介层 功能元件 信号线 EDA设计技术 凸块
3
一种钢筋混凝土排水管道更换方法及系统
套管工具 牵引机构 排水管道 切割机构 处理器设备
4
基于差分隐私的异构联邦微调语言模型构建方法及系统
语言模型构建方法 差分隐私 客户端 模型更新 异构
5
可抑制生成式大模型幻觉问题的RAG查询方法、系统、介质和产品
查询方法 单轮 检索策略 文本生成模型 交互式语音
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号