图片来源:Reducto
如果你曾将收据照片上传至报销系统,或在线阅读过PDF 格式的书籍,那么你可能已经使用过光学字符识别技术 ——这项已有数十年历史的技术能将打印体、手写体或印刷体文本图像转换为计算机可编辑的文本。
OCR 可能听起来不是最性感的赛道。但这对 Andreessen Horowitz——过去两年里最活跃的 AI 初创公司投资方之一,来说已经足够有趣,以至于他们领投了 Reducto 的新一轮融资。
这家初创公司将 OCR 与新兴 AI 技术结合来理解文档。距离 Reducto 宣布上一轮由 Benchmark 领投、投后估值 2 亿美元的融资仅过去六个月。
最新的7500 万美元 B 轮融资将使 Reducto 的估值(含本轮投资)翻三倍至 6 亿美元。联合创始人兼首席执行官 Adit Abraham 表示,此次融资使 Reducto 总融资额达到 1.08 亿美元,且银行仍有超 1 亿美元存款,意味着这家成立两年的公司消耗资金不足 800 万美元。
这家位于旧金山的初创公司将传统OCR 技术与视觉语言模型 (VLMs)相结合,后者是一种新型 AI 模型,能够理解和生成文本、图像及视频。
亚伯拉罕表示,这种技术能更好地理解金融、医疗、法律和保险等领域的复杂文档,并将其转换为可输入大型语言模型的格式。
亚伯拉罕指出,这些领域的文档远比普通PDF 复杂得多。例如,律师经常将四页内容缩印到一页上以缩短冗长文件(如证词笔录);医生可能在病历图表某处画条线延伸至页面底部,手写补充信息;或者供应商只在多页发票的第一页标注抬头。
他解释道,所有这些情况对传统OCR 软件而言都过于复杂。而如今的视觉语言模型在解析这类文档时表现更出色,能像人类一样理解内容。
与此同时,视觉语言模型(VLMs)自身也存在缺陷,这正是 Reducto 将其与传统 OCR 软件结合的原因。Abraham 表示,与其他生成式模型类似,VLM 存在虚构信息的倾向,即所谓的"幻觉"。例如,VLM 擅长识别表格中的复选框,但有时会随意判定其是否被勾选。这种情况下,使用经过验证的传统 OCR 软件更为可靠。
Abraham 指出,VLM 还能用于比照 Reducto 软件输出与原始文档,确保不存在差异或错误。
Abraham 表示,这意味着 Reducto 解析的每份文档都需经过 13 个左右模型的处理,这些模型既包含 Reducto 自研的用于识别页面结构或表格行列的模型,也包含由 OpenAI、Anthropic 和 Google 提供的第三方模型。
目前仅有22 名员工的 Reducto 远非唯一致力于帮助企业将文档转化为可输入 AI 模型数据的公司。当下最主流的 OCR 软件由大型云服务商提供,例如 Amazon Textract 和 Microsoft Azure AI Document Intelligence,这些服务商同样宣称在其服务中运用了 AI 技术。
Reducto 声称其软件比传统 OCR 解决方案更精准。
这一优势使其赢得了法律 AI 初创公司 Harvey、为投行开发 AI 的 Rogo 以及数据标注公司 Scale AI 等客户。
尽管创始人 Abraham 拒绝透露当前具体营收数据,但他表示公司月收入较一年前增长了七倍——这样的成绩相当亮眼。
参考资料
https://www.theinformation.com/articles/startup-using-ai-translate-documents-data?rc=p2bxcy
文章来自于微信公众号“Z Potentials”。