准备环节

@MatheMatrix 2025-04-29T08:20:40.000000Z 字数 1330 阅读 1014

可以在 ZStack AIOS 上体验最新的 Qwen3 模型了！

Qwen3 已于今天早上发布，如何在 ZStack AIOS 上立刻体验最新的 Qwen3 模型？

由于 Qwen3 模型的支持需要较新的推理框架（vllm、sglang 等），因此本篇文章将先向大家介绍如何一步步升级推理模板，管理员或者 AI 开发者完成推理模板升级后可以共享给云平台所有用户，所有用户即可体验最新的 Qwen3 模型。

- 准备环节
  - 创建推理模板
  - 配置推理镜像
- 启动 Qwen3 模型
  - 下载模型
  - 运行模型

创建推理模板

首先进入到 ZStack AIOS 模型平台，克隆一个系统自带 SGlang 的推理模板
image.png-183.5kB
最新的 SGLang 版本为名字改为 SGLang-0.4.6.post1，实例配置设置为 “云主机”
image.png-70.2kB

配置推理镜像

下面使用一个 Qwen2.5 模型来配置这个推理模板，例如 Qwen2-0.5B 或平台内置的 Qwen2-7B 均可，主要是验证新版本 SGLang 的可用性。创建推理服务的时候推理模板选择 SGLang-0.4.6.post1：
image.png-179.5kB
启动后进入 juypter notebook，选择 terminal，执行：

pip install sglang[all]==0.4.6.post1 -U
wget https://bj20013.api.aliyunfile.com/v2/redirect\?id\=9b8b2fa73e484893a5f567e6be22c1921745913012094149418 -O flashinfer_python-0.2.3+cu124torch2.6-cp38-abi3-linux_x86_64.whl
pip install flashinfer_python-0.2.3+cu124torch2.6-cp38-abi3-linux_x86_64.whl
dnf -y install gcc-toolset-9-gcc gcc-toolset-9-gcc-c++
systemctl restart zstack_ai.service
echo -e "\nsource /opt/rh/gcc-toolset-9/enable" >> /etc/profile

image.png-716.4kB
执行完 systemctl restart zstack_ai.service 之后模型服务会显示启动中，是正常的
image.png-129.5kB
检查模型输出正常：
image.png-101.5kB
下面我们进入模型服务的“配置信息”页面，找到这个实例，创建一个实例镜像：
image.png-161.4kB
将云主机停止，点击创建镜像，命名为 SGLang-0.4.6.post1-image
image.png-44.9kB
然后编辑刚刚创建的推理模板，将云主机镜像改为刚刚封装的这个 SGLang-0.4.6.post1-image
image.png-90.7kB
image.png-189.4kB