摘要
本公开提供了一种基于大模型的跨模态问答处理方法、装置及存储介质,涉及语音交互处理、大模型、机器学习与自然语言处理等人工智能技术领域。具体实现方案包括:对用户输入的目标语音进行活性检测;响应于检测到所述目标语音暂停输入时,获取所述目标语音中语音暂停时刻之前第一输入语音对应的第一文本;基于所述第一文本和所述第一输入语音,采用预先训练的语音问答处理系统,执行文本响应处理。本公开的技术,能够有效地提高问答处理的准确性和问答处理的效率。
技术关键词
语音问答系统
文本
大语言模型
语音编码器
答案
注意力
活性检测
混音系统
语义
参数
人工智能技术
计算机程序产品
训练装置
处理器通信
模块
自然语言
指令