一种针对全模态大模型的模态对齐方法及其系统

正文

推荐专利

申请号：CN202510766248

申请日期：2025-06-10

公开号：CN120745797A

公开日期：2025-10-03

类型：发明专利

摘要

本申请公开了一种针对全模态大模型的模态对齐方法，方法包括：构建和训练全模态大模型，全模态大模型用于统一接收文本、视觉和语音模态的输入，基于大语言模型，根据文本进行多模态对齐；将视觉模态输入全模态大模型，采用序列维度的拼接方法，将视觉特征与文本嵌入进行拼接，进行视觉模态对齐；将语音模态输入全模态大模型，通过语音与文本映射机制实时生成中间文本结果，将语音特征与文本进行映射，进行语音模态对齐。本发明方法推动了全模态大模型在实时多模态交互场景中的性能提升和应用拓展。

技术关键词

对齐方法文本语音特征拼接方法大语言模型时序分类方法对齐模块序列语音编码器对齐系统令牌生成用户视觉特征提取多模态交互

系统为您推荐了相关专利信息

用于组态软件人机交互界面开发的批量化处理方法

组态软件人机交互界面格式语句批量

实体关系抽取方法、装置、设备、介质及程序产品

非结构化文本实体关系抽取方法大语言模型标记三元组

一种知识增强大语言模型驱动的再制造工艺智能规划方法

大语言模型智能规划方法文本废旧零部件数学模型

节点复制

节点存储事务序列呼叫会话控制功能大语言模型

一种基于人工智能技术的用户满意度分析方法及系统

满意度分析方法人工智能技术数据多模态语音编码器

一种针对全模态大模型的模态对齐方法及其系统

站点导航

APP 下载