一种基于智能文本检测的PDF优化翻译方法及系统

正文

推荐专利

申请号：CN202510965077

申请日期：2025-07-14

公开号：CN120893451A

公开日期：2025-11-04

类型：发明专利

摘要

本发明提供一种基于智能文本检测的PDF优化翻译方法，包含：步骤1：解析PDF文档，分别识别PDF文档中的文本区域和图像区域，提取所述PDF文档中文本区域的原生文本块及其结构化位置信息，步骤2：对图像区域的图像文本块进行光学识别，将识别结果与所述原生文本块合并为统一的结构化数据集；步骤3：采用窗口翻译策略结合上下文进行机器翻译，并提取目标译文；翻译时动态关联相邻文本块，并通过边界标记符界定目标文本范围；步骤4：根据目标译文长度动态优化文本布局，并将翻译结果回填至原始位置。本发明能够精准地将翻译文本无缝回填至原图像的相应位置，同时确保原图的内容不受遮挡，避免因文本覆盖导致的视觉混乱或信息丢失。

技术关键词

文本翻译方法图像翻译系统坐标光学识别模块计算机视觉算法机器翻译模型块边界动态布局标记策略字体输入结构聚类算法页面覆盖层

一种基于智能文本检测的PDF优化翻译方法及系统

站点导航

APP 下载