@18612183942
2026-01-22T01:30:25.000000Z
字数 1776
阅读 32
接口地址:wss://xiaojinghoutai.shuziwenlv.com/DashScope/VoiceChatWebSocket
客户端与服务端首先通过 WebSocket建立连接,随后客户端发送开始录音指令。服务端在收到指令后,会判断是否需要向客户端推送欢迎语音。客户端开始录音后,可直接将音频流通过已建立的WebSocket连接发送至服务端。服务端在处理过程中,会向客户端反馈任务相关的报文信息。
调用方:客户端
响应方:服务端
接口说明:本指令用于客户端向服务端发送开始录音指令,收到指令后,服务端开始建立和阿里云的语音识别连接。
报文:
{"cmd":"start-record","deviceId":"1000000001","sessionId":"","taskId":"task_1768440418334_fbsi00cyy"}
注意:asrFormatType: 10 wav 20 opus ttsFormatType: 10 mp3 20 opus
客户端开始录音后,可直接将音频流通过已建立的WebSocket连接发送至服务端。
调用方:客户端
响应方:服务端
接口说明:本指令用于客户端向服务端发送停止录音指令,服务端后到指令后结束和阿里云的语音识别任务。
报文:
{"cmd":"stop-record","taskId":"task_1768440418334_fbsi00cyy"}
客户端与服务端建立 WebSocket 连接后,服务端确认连接并进入指令监听状态。收到客户端发送的 “开始录音” 指令后,服务端将启动语音识别、AI问答及文本转语音(TTS)任务,并返回相关任务报文。其中,文本转语音功能将直接通过已建立的 WebSocket 连接,将语音流实时推送至客户端。收到客户端发送的 “停止录音” 指令后,服务端不再接收客户端的语音流。
服务端收到开始录音指令后,自动判断是否需要发送欢迎语,如果需要发送,会通过建立的websocket连接直接发送。
调用方:服务端
响应方:客户端
接口说明:本指令用于服务端向客户端反馈语音识别任务的状态。
任务开始报文:
{"type":"asr-started","msg":"任务开启成功","taskId":"task_1768440418334_fbsi00cyy"}
流式输出报文:
{"type":"asr-reponse","msg":"上午,","duration":0,"taskId":"task_1768440418334_fbsi00cyy"}
识别成功报文:
{"type":"asr-reponse","msg":"上午好啊。","duration":2,"taskId":"task_1768440418334_fbsi00cyy"}
调用方:服务端
响应方:客户端
接口说明:本指令用于服务端向客户端反馈AI问答任务的状态。
流式输出报文:
{"type":"chat-response","msg":"上午好","taskId":"task_1768440418334_fbsi00cyy"}
问答结束报文:
{"type":"chat-finished","taskId":"task_1768440418334_fbsi00cyy","msg":"完成大模型对话"}
调用方:服务端
响应方:客户端
接口说明:本指令用于服务端向客户端反馈文本转语音任务的状态,其中音频流通过建立的websocket连接直接发送。
任务开始报文:
{"type":"tts-started","taskId":"task_1768440418334_fbsi00cyy","msg":"tts任务开始","volume":50}
任务结束报文:
{"type":"tts-finished","taskId":"task_1768440418334_fbsi00cyy","msg":"tts任务结束"}
任务失败报文:
{"type":"tts-error","taskId":"task_1768440418334_fbsi00cyy","msg":"request timeout after 23 seconds."}