摘要
本发明公开了翻译文稿字数统计方法。方法包括:获取待统计翻译文稿;将待统计翻译文稿进行文本、页眉页脚、图片、图形的分项,以得到分项结果;对分项结果中的文本进行字数统计;对分项结果中的页眉页脚应用基于MD5 Hash值加和的去重算法,统计不重复的页眉页脚字数;对分项结果中的图片采用图片翻译识别模型进行识别图片是否被翻译,且对被翻译的图片采用OCR识别技术进行文本识别,对识别结果进行字数统计;对分项结果中的图形采用对应的统计策略进行字数统计,对所有统计结果进行求和,以得到翻译文稿总字数;输出翻译文稿总字数。通过实施本发明的方法可自动化处理文件中图片文字的统计问题,且支持各类复杂图形中文字的统计。
技术关键词
字数统计方法
图片
OCR识别技术
Visio图形
文本识别
格式
文本字数统计
OCR文字识别技术
深度学习模型
大语言模型
计算机设备
拷贝
算法
策略
处理器
列表
存储器
样本
元素