摘要
本发明公开一种版式一致的中‑英PDF文档翻译系统,识别中文PDF文档中的模块类别;提取各模块中的各类信息;基于中文文本信息和区域信息,采用基于大语言模型的长度受限机器翻译方法生成英文译文;对于用英文译文覆盖后的图片、表格和公式模块,在英文PDF文档中以图片形式写入原中文PDF对应的区域;对于正文、列表、图表标题、文章标题和节标题模块,将翻译后的英文文本按照最终确定的字号、字体和颜色,以段落的形式写入英文PDF文档中文原文对应的区域;对于脚注、页眉和页脚模块,按照区域信息直接将中文原文写入英文PDF文档。本发明实现了译文与原文的版式精准对齐,特别适用于学术论文等技术文档的高保真翻译需求。
技术关键词
英文PDF文档
文档翻译系统
机器翻译方法
中文文本
大语言模型
模块
字体
图表
文章
图片
解析工具
列表
表格
颜色
受限