摘要
本发明属于文本翻译技术领域,提供一种包含复杂特征的PDF文本翻译方法及系统。所述方法包括:初始化PDF解析引擎,读取PDF文件并提取所述PDF文件的基本信息;判断所述PDF文件是否为复杂文档,记录复杂特征;对所述复杂文档中的图像进行预处理,并根据所述复杂特征调用相应的文本检测模型进行文本区域识别;提取所述文本区域中文本的布局信息,通过翻译模型对所述文本区域中的文本进行翻译,得到最终的翻译结果后根据所述布局信息进行排版,自定义输出目标译文文件。本发明能够智能识别PDF文档中的复杂内容,并在翻译过程中完整保留原始文档格式;同时支持多语言翻译,保证PDF文档翻译的准确性。
技术关键词
文本翻译方法
文本区域识别
文本检测模型
翻译模型
自定义输出
图文混排
文本翻译系统
文本翻译技术
非标准
布局
页面
排版
图片
表格
文本识别
图像增强
边缘检测
字体
系统为您推荐了相关专利信息
文本翻译方法
字段
户型结构
指标
计算机程序产品