摘要
本发明实施例提供了一种基于离线环境搭建AI数字人的方法及系统。该方法首先采用容器化部署的自动语音识别模块识别外部的音频信号转换为文本信息,并通过HTTP接口传输至大语言模型,避免云端API的网络延迟与中断风险;然后基于预编排的离线会话流逻辑解析文本信息为目标文本信息,容器化部署的会话流模块可独立运维,减少模块间故障影响;再利用文本转语音模块将目标文本信息转化为音频文件,并同步利用音频驱动面部动画技术生成对应于音频信号的3D模型数据,消除云端传输导致的音画不同步问题;最后利用本地渲染引擎融合数据,避免依赖云端渲染资源引发的队列拥堵,通过全流程离线部署与本地资源协同显著提升服务可靠性。
技术关键词
自动语音识别
USB声卡
大语言模型
文本信息传输
麦克风阵列采集
动画技术
信号
机器可读程序
离线
外放设备
语言模块
搭建模块
意图识别
音频线
渲染资源
系统为您推荐了相关专利信息
意图
协同控制方法
智能体交互
环境状态信息
大语言模型
推荐方法
水利
图谱
OCR文字识别技术
语音识别技术
答案生成方法
生成提示词
手机
文本段落
生成答案