摘要
本发明公开了多模态自然语言理解与生成系统及方法。方法包括:构建跨模态预训练模块,训练多模态编码器,建立跨模态联想映射空间;进行混合提示微调,构建完型填空模板;根据意图推理网络,提取用户多轮对话意图表征,检索外部知识库进行细粒度推理;构建统一语义表征框架,将文本、图像、语音嵌入统一空间,生成多模态意图感知的查询向量;基于键值记忆的知识查询模块,生成实体级多模态回复,优化对话模型语义理解与生成能力。本发明提升了多模态信息理解与生成能力,实现了图像与文本信息深度关联与理解,增强了下游任务适应性,提高了任务完成准确性和效率,实现了多模态信息统一语义表征,为信息检索与利用提供了支持。
技术关键词
自然语言理解
跨模态
意图
推理网络
生成系统
文本
语义
图像
多轮对话
模块
主题分类器
锚点
注意力机制
实体
编码器
多模态特征
记忆机制
键值
系统为您推荐了相关专利信息
图案生成方法
饮品制作
图像生成模型
拉花
语义实体
智能问答平台
AI开放平台
工作模块
数据存储模块
开放接口调用
序列数据处理方法
层级
动作传感器
多尺度特征金字塔
融合特征
智能生成方法
报告
权限管理模块
数据抓取技术
智能生成系统