摘要
本发明公开了基于本地化多任务工作流的实时语音交互数字人智能体,包括本地工作系统、线上大模型、本地语音识别系统、多任务机制系统和本地语音播放器;所述本地工作系统包括短期记忆层、意图识别路由、RAG本地知识库、危机识别、情绪图谱和心理报告生成;所述多任务机制系统包括数字人前端通信任务线程、大模型问答任务线程、字幕任务、指令任务和TTS处理任务。本发明通过线上大模型与本地化处理结合的混合架构,有效兼顾实时语音交互性能与心理健康服务效果,打破单一架构的局限。线上语音合成技术保障发音准确、情感自然且响应迅速,本地双通道语音识别配合优化机制,显著提升识别精准度,同时支持语音检测与热词打断,优化交互灵活性。
技术关键词
多任务机制
实时语音
语音识别系统
工作系统
语音播放器
心理健康服务
意图识别
字幕
图谱
交互性
记忆
报告
发音
指令
文本
系统为您推荐了相关专利信息
语音识别方法
注意力机制
语音识别模型
大规模语音数据
线性
智能应答系统
手持式设备
实时语音
客户
长短期记忆网络
智能语义理解
语音识别文本
语音识别方法
校准
生成对抗网络
语音翻译方法
多语言
低资源语言
神经网络架构
机器翻译技术