[关闭]
@18612183942 2026-01-22T01:30:25.000000Z 字数 1776 阅读 32

硬件接口文档

接口地址:wss://xiaojinghoutai.shuziwenlv.com/DashScope/VoiceChatWebSocket

1 客户端报文

客户端与服务端首先通过 WebSocket建立连接,随后客户端发送开始录音指令。服务端在收到指令后,会判断是否需要向客户端推送欢迎语音。客户端开始录音后,可直接将音频流通过已建立的WebSocket连接发送至服务端。服务端在处理过程中,会向客户端反馈任务相关的报文信息。

1.1 开始录音

调用方:客户端
响应方:服务端
接口说明:本指令用于客户端向服务端发送开始录音指令,收到指令后,服务端开始建立和阿里云的语音识别连接。
报文

{"cmd":"start-record","deviceId":"1000000001","sessionId":"","taskId":"task_1768440418334_fbsi00cyy"}

注意:asrFormatType: 10 wav 20 opus ttsFormatType: 10 mp3 20 opus

1.2 发送音频流

客户端开始录音后,可直接将音频流通过已建立的WebSocket连接发送至服务端。

1.3 停止录音

调用方:客户端
响应方:服务端
接口说明:本指令用于客户端向服务端发送停止录音指令,服务端后到指令后结束和阿里云的语音识别任务。
报文

{"cmd":"stop-record","taskId":"task_1768440418334_fbsi00cyy"}

2 服务端报文

客户端与服务端建立 WebSocket 连接后,服务端确认连接并进入指令监听状态。收到客户端发送的 “开始录音” 指令后,服务端将启动语音识别、AI问答及文本转语音(TTS)任务,并返回相关任务报文。其中,文本转语音功能将直接通过已建立的 WebSocket 连接,将语音流实时推送至客户端。收到客户端发送的 “停止录音” 指令后,服务端不再接收客户端的语音流。

2.1 欢迎语

服务端收到开始录音指令后,自动判断是否需要发送欢迎语,如果需要发送,会通过建立的websocket连接直接发送。

2.2 语音识别

调用方:服务端
响应方:客户端
接口说明:本指令用于服务端向客户端反馈语音识别任务的状态。
任务开始报文

{"type":"asr-started","msg":"任务开启成功","taskId":"task_1768440418334_fbsi00cyy"}

流式输出报文

{"type":"asr-reponse","msg":"上午,","duration":0,"taskId":"task_1768440418334_fbsi00cyy"}

识别成功报文

{"type":"asr-reponse","msg":"上午好啊。","duration":2,"taskId":"task_1768440418334_fbsi00cyy"}

2.3 AI问答

调用方:服务端
响应方:客户端
接口说明:本指令用于服务端向客户端反馈AI问答任务的状态。
流式输出报文

{"type":"chat-response","msg":"上午好","taskId":"task_1768440418334_fbsi00cyy"}

问答结束报文

{"type":"chat-finished","taskId":"task_1768440418334_fbsi00cyy","msg":"完成大模型对话"}

2.4 文本转语音

调用方:服务端
响应方:客户端
接口说明:本指令用于服务端向客户端反馈文本转语音任务的状态,其中音频流通过建立的websocket连接直接发送。
任务开始报文

{"type":"tts-started","taskId":"task_1768440418334_fbsi00cyy","msg":"tts任务开始","volume":50}

任务结束报文

{"type":"tts-finished","taskId":"task_1768440418334_fbsi00cyy","msg":"tts任务结束"}

任务失败报文

{"type":"tts-error","taskId":"task_1768440418334_fbsi00cyy","msg":"request timeout after 23 seconds."}
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注