一种基于规则库的司法文书向量化分段和段落标注方法

正文

推荐专利

申请号：CN202510272959

申请日期：2025-03-10

公开号：CN120197623A

公开日期：2025-06-24

类型：发明专利

摘要

本发明公开了一种基于规则库的司法文书向量化分段和段落标注方法，包括：S1：构建包含分段规则和段落标注规则的规则库；S2：获取待标注的司法文书；S3：通过正则表达式为预处理后的司法文书中的各个文书部分匹配对应的分段规则和段落标注规则；S4：根据分段规则的匹配结果对司法文书进行分段，得到若干个文书段落；S5：根据段落标注规则的匹配结果对各个文书段落进行段落标注，得到每个文书段落的标注信息；S6：对所有带标注信息的文书段落进行向量化后，作为司法文书的标注结果进行输出。经过本发明向量化的司法文书，能够提高大语言模型对其含义和司法判断逻辑的理解，提升利用大语言模型人工智能技术辅助生成司法文书的准确度和质量。

技术关键词

标注方法标注规则同义词规则分段机器学习算法语义规则大语言模型大规模语料库文本规范化 BERT模型样本构建决策树同义词库机器学习模型人工智能技术格式模式逻辑

系统为您推荐了相关专利信息

面向双跨平台多团队SaaS应用场景的分布式权限控制方法及系统

权限控制方法团队分布式一致性算法分布式架构负载均衡策略

一种基于贝蒂曲线的数据驱动光伏发电估计方法及系统

对象估计方法数据光伏发电功率重构

脉冲噪声下非圆EBNC-PFLOM联合优化DOA估计方法

DOA估计方法脉冲噪声协方差矩阵阵列信号处理技术阵列结构

一种页岩气藏水平井生产对邻井压裂干扰的分析方法

天然裂缝水平井分段多簇压裂气液两相流动水力应力场

一种考虑温度和充电电流的锂离子电池健康状态估计方法

注意力机制并行神经网络时间卷积网络混合网络锂离子电池

一种基于规则库的司法文书向量化分段和段落标注方法

站点导航

APP 下载