你见过一个翻译软件,
能把一个pdf的文字、表格、公式都翻译出来,还保持原本的排版吗?
每一次看 deepseek、mcp 这些论文时,
铺天盖地的英文,看得我就脑壳疼。
也用过一些AI翻译,但大多都是一段一段的或者排版是错乱的,我需要仔细分辨对应的语句,也就是说,我脑子里还是做了一遍翻译,实际上花的时间也没少。
那今天就要和大家隆重介绍,能够精准翻译并排版的
Github 全站全开发语言 Trending 榜登上了第三名,同期的第一名第二名是微软的 markitdown mcp 和 Meta 的 Llama 大语言模型。
感受到这个含金量了吧!
话不多说,我们来具体看几个case:
比如说,我先给了一个32页论文,这种包含了很多排版方式的论文首页,BabelDOC 几乎都能1:1复刻一下来,甚至就连引用文献的数字角标都保持了下来。
仔细看,下方这里引用和标注的位置,虽然中间那条横线不见了,但是位置和字号还有小角标都很保持住了,我截取了文章中多处引用位置,都很完美。
在看一些学术论文时,里面经常会插入很多公式,翻译一遇到这种东西,简直就是噩梦,基本上乱码无疑。
比如这个页面,满屏的公式、图片还有带颜色的文本框,可以说是地狱级难度,BabelDOC 就是能轻轻松松的复制下来,让他们在该在的位置,有着该有的颜色。
再有就是表格啊、页眉页码啊,这些排版都能翻译并复刻下来:
接下来,我们玩个难一点的,
搞一个排版很复杂的,带有很多色块,文字大小和位置花样很多的英文PDF,看看 BabelDOC 还能不能保持。
真的很神,复杂排版也不在话下。
色块、文字,logo都能一一对应上,原文的设计全部重现。
美中不足的是,一旦英文变成特殊字体就没办法翻译出来,
但好在可以直接无痛导出中英文对照版pdf,因为排版位置一一对应上,直接就能对比原文来看翻译,省时省力。
还要提一句,即使我上传的是几百页的文章,
BabelDOC 都能稳定翻译输出,而且用时很短,一百多页的文章,几分钟就翻译好了。
所以,BabelDOC 为什么能有这样的性能呢?
当一个程序打开 PDF 文档时,我们可以大致把打开的过程想象为下图的流程:
为了做好翻译和排版复原,BabelDOC PDF 在上述流程中增加了几个关键步骤
2.识别完成后,提取文本并交给大模型进行翻译
3.最后,把翻译好的文字和第一步识别记录下来的排版情况进行比对,智能匹配对应的字体、行距等样式,确保文本能够适应新的布局。
这时候走到第五步,通过智能渲染的方式,将翻译好的文字调整好大小尺寸,连同上面说的的数学公式、图片、表格等重新排版一遍,写入新文档。
到这一步,经过 BabelDOC PDF 处理好的翻译文档就这样新鲜出炉了
而这个 BabelDOC 功能就是由沉浸式翻译推出的。
沉浸式翻译相信很多人都知道,非常无敌好用的翻译插件,
能实时视频翻译,我熬夜追 openai 直播的时候都用它 :
不开玩笑,可以说是我的十大爱用插件之一!
经常看我文章的朋友不知道有没有注意到,我的截图经常会有这个小图标,
好用啊,真的好用。
只需要我们进入这里🔗 immersivetranslate.Com
根据需要根据自己的浏览器版本,点击安装按钮,跳转至插件安装界面:
然后按照提示一步步安装就可以了:
当你看到自己的扩展栏,拥有这个小图标,
恭喜你,成功拥有了沉浸式翻译插件:
点击图标,就可以选择进行平时翻译的大模型,
常用的大模型基本都包圆了!
如果要使用上面提到的 BabelDOC,
点击图标,在底部选择任意一项,进入就能够看到 BabelDOC,直接上传文件,选择模型进行翻译就可以了,非常简单。
高亮提示,免费版和付费版只有翻译大模型和额度区别。
目前,免费版⽤⼾每⽉享有 1000 ⻚ 的PDF解析翻译额度,可以使⽤智谱4等⼤模型进⾏翻译,无痛保存文件。
Pro 会员 享有每⽉ 10000 ⻚ 额度,接⼊ DeepSeek 、GPT、gemini 等等⾼级翻译模型。
讲道理,日常用1000页完全够够了。
把一件事情做到极致是一件很牛的事情,
在翻译这件事情,沉浸式翻译一直都是 Top 级别,
但就是这样,他们也仍然还在不断超越自己。
我在排行榜上看到一众外国软件上冒出一个中文名字的时候,
心里真的感慨,
这大概就是坚持一件事并把这件做精的意义吧。
宝藏插件之所以是宝藏,
是有原因的,
我永远爱它!
文章来自于微信公众号 “卡尔的AI沃茨”,作者 :AI沃茨
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales