摘要
本发明属于合同文档翻译领域,提供了一种基于大模型的合同文档翻译方法及系统,获取目标合同文档,对目标合同文档内的图片进行识别,转换为文本,对目标合同文档内的文本以识别到的换行符作为分块的标志,以页码为最大单位,进行初步分块,形成多个文本块,初步分块时识别各分块内的字符特征,根据识别的字符特征,对文本块进行修正,将属于同一自然段的文本块进行合并,将不连贯文本的文本块进行拆分;利用预训练的大模型,对修正后的各文本块,进行翻译,将翻译后的各文本块,以和其对应的字符特征相符的形式,写入新文件,得到翻译后的合同文档。本发明提高了翻译文档的专业性、正确性和可读性。
技术关键词
文本
文档翻译方法
字符
分块
列表
文档翻译系统
字体
坐标
专业知识库
标志
序列
图片
机器翻译
生成方法
识别模块
格式
语义
矩形