摘要
本发明提供一种多模态翻译方法及系统,用于自然语言处理领域,该方法包括:获取用户输入的图像,通过ResNet模型提取图像特征,并将图像特征输入LSTM模型,通过LSTM模型生成图像字幕;获取用户输入的长文本,通过GPT模型处理长文本的上下文,提取长文本摘要信息,所述长文本为字符数量超过预设值的文本;将图像字幕和长文本摘要信息输入Seq2Seq模型,输出翻译后的目标语言文本;通过分类模型判断长文本风格,根据长文本风格对所述GPT模型进行微调,基于微调后的GPT模型对目标语言文本进行风格优化。该方案不仅可以有效提高多模态数据翻译效率,而且能够保障翻译结果的准确性,并适应不同文化背景的翻译需求。
技术关键词
文本
LSTM模型
翻译方法
字幕
多模态
图像
风格
注意力机制
摘要提取模块
可读存储介质
翻译系统
回归方法
解码器
字符
编码器
自然语言
处理器
优化器