一种包含复杂特征的PDF文本翻译方法及系统

正文

推荐专利

申请号：CN202510102590

申请日期：2025-01-22

公开号：CN120163169A

公开日期：2025-06-17

类型：发明专利

摘要

本发明属于文本翻译技术领域，提供一种包含复杂特征的PDF文本翻译方法及系统。所述方法包括：初始化PDF解析引擎，读取PDF文件并提取所述PDF文件的基本信息；判断所述PDF文件是否为复杂文档，记录复杂特征；对所述复杂文档中的图像进行预处理，并根据所述复杂特征调用相应的文本检测模型进行文本区域识别；提取所述文本区域中文本的布局信息，通过翻译模型对所述文本区域中的文本进行翻译，得到最终的翻译结果后根据所述布局信息进行排版，自定义输出目标译文文件。本发明能够智能识别PDF文档中的复杂内容，并在翻译过程中完整保留原始文档格式；同时支持多语言翻译，保证PDF文档翻译的准确性。

技术关键词

文本翻译方法文本区域识别文本检测模型翻译模型自定义输出图文混排文本翻译系统文本翻译技术非标准布局页面排版图片表格文本识别图像增强边缘检测字体

系统为您推荐了相关专利信息

手语翻译方法、装置、设备、存储介质及程序产品

手语翻译方法翻译模型语音面部场景类别

一种基于多模态信息融合的视频检索方法及系统

多模态信息融合关键帧视频检索方法文本摘要

文本翻译方法、电子设备、存储介质与计算机程序产品

文本翻译方法字段户型结构指标计算机程序产品

轨道交通领域的RAG数据解析方法、装置、设备、介质

表格数据解析方法格式坐标元素

语音生成方法和装置

语句语音生成方法文本发音计算机程序产品

一种包含复杂特征的PDF文本翻译方法及系统

站点导航

APP 下载