摘要
本申请公开了一种司法数据卷宗生成方法、系统及计算机程序产品,通过获取电子卷宗图像数据和音频数据;将电子卷宗图像数据进行预处理;采用OCR技术识别预处理后的电子卷宗图像数据,得到第一文本数据;采用语言识别技术识别音频数据,得到第二文本数据;将第一文本数据和第二文本数据进行融合,得到融合数据;利用预先训练好的大语言模型分析融合数据,并提取融合数据的关键信息;根据关键信息对融合数据进行分类,并为每份融合数据分配相应的标签,得到结构化存储的司法数据卷宗。本申请提供的一种司法数据卷宗生成方法、系统及计算机程序产品克服了传统的正则表达式和NLP技术存在的局限性,提高了司法卷宗结构化的准确性和效率。
技术关键词
生成方法
图像内容分类
语言识别技术
法律知识图谱
计算机程序产品
文本
音频
电子
跨模态学习
深度学习算法
识别模块
图像处理技术
数据获取模块
生成系统
案件
数据分类
动态更新
标签