摘要
本发明公开了一种基于多模态的文本摘要生成方法,属于数据处理技术领域,具体包括:采集图像数据和文本数据,并分别进行预处理;基于卷积神经网络提取图像的视觉特征;使用自然语言处理技术对文本数据进行特征提取,通过词袋模型、TF‑IDF获取文本的语义特征,所述语义特征包括词频和逆文档频率;将图像和文本的特征进行融合,得到一个综合的多模态特征向量;融合方法包括简单拼接、加权融合、MLP模态融合;构建文本生成模型,以将多模态特征向量作为输入,生成摘要文本;使用ROUGE评估指标对生成的摘要文本进行评估;根据评估结果,对模型进行优化;本发明实现了生成具有准确度和流畅度的多模态摘要文本。
技术关键词
文本摘要生成方法
多模态
卷积神经网络提取
文本生成模型
语义特征
词袋模型
图像数据预处理
融合方法
视觉特征
文本特征向量
ReLU函数
图像特征向量
频率
分词
自然语言
前馈神经网络
滤波器
系统为您推荐了相关专利信息
训练场景
动态语义特征
模型构建方法
数据模块
时序特征
内容框架
展示单元
内容分发节点
多模态
内容生成方法
巡检机器人系统
自主导航系统
多传感器融合
视觉摄像头
超声波传感器
图像
节点特征
路径规划算法
电路板检测方法
相机镜头