摘要
本发明公开一种基于模型协作自适配翻译多国语言的方法及装置,该方法通过OCR引擎对上传的图片文档进行版面解析,定位各内容块矩形框坐标并生成矩形块,将矩形块内容识别转换为纯文本后,与翻译prompt模版拼装,利用大模型引擎生成目标语种翻译内容,再替换对应矩形框内容,重复操作后合成新文档返回用户。OCR引擎采用引入卷积神经网络的模型,大模型引擎采用Transformer架构,还涉及双向文本对齐算法和波束搜索算法等。该方法解决了传统翻译工具无法处理图片文档及泛化能力弱的问题,可高效准确地实现图片文档的多语言翻译,保证版面一致性,适用于办公、工程、跨境电商等多场景。
技术关键词
文本
上下文语义理解
搜索算法优化
损失函数优化
图片
模型预测值
矩形
坐标
矩阵
注意力机制
传播算法
语义特征
模块
序列
翻译工具
模版
波束
系统为您推荐了相关专利信息
运维
命名实体识别模型
命名实体模型
训练语言模型
对象
大语言模型
智能评估方法
智能评估系统
构建用户画像
题库数据
大语言模型
光学字符识别
文档识别方法
位置指示信息
键值