阅读对象
这份手册写给客户 IT 团队 / 系统集成商 / 数据中心运营方。如果你需要把 LYG Ark 装进你的机房, 这是你需要的工程文档。
LYG.AI 工程师会全程驻场协助前两次部署。这份手册是离开后你也能复用的标准 SOP。
一、硬件选型决策树
你的负载特征?
├─ 推理 QPS < 100 / 模型规模 < 30B
│ └─> Ark-2U-Standard (1-2 张推理卡)
├─ 推理 QPS 100-500 / 模型规模 30B-70B
│ └─> Ark-4U-Pro (4-8 张推理卡)
└─ 推理 QPS > 500 / 多模型并行
└─> Ark Cluster (多台 4U 协同, 需要专门设计)
SIZING · 容 量 选 型
三档配置对应的典型负载场景
维度
Ark-2U-Standard
Ark-4U-Pro
Ark Cluster
QPS 范围
< 100
100 - 500
> 500
模型尺寸
< 30B
30B - 70B
多模型并行
典型客户
中小金融机构 / 央企试点
股份制银行 / 大型央企
大行 / 国有大行
机柜功率峰值
1.5 - 2.6 kW
3.0 - 6.0 kW
按节点累加
详细选型表 (含具体型号 / 报价区间) 在 NDA 后开放 · 联系 sales@lyg.ai
更详细的选型表见附录 A (略, 通过销售获取)。
二、机柜安装清单
部署前确认机柜环境:
- 机柜空间: 2U / 4U / 多台累计
- 电力: 双路冗余, 单路最大 800W (2U) 或 2000W (4U)
- 制冷: 进风温度 < 30°C, 湿度 < 70%RH
- 网络端口: 2 × 业务网口 + 1 × 管理网口 + 1 × IPMI/BMC 网口
- 机柜物理安全: 门锁 + 摄像头覆盖 + 出入记录
设备进场清单 (LYG 标准发货箱):
- Ark 主机 × 1 (含原厂封条)
- 1+1 冗余电源线 × 2
- 业务网线 × 2 + 管理网线 × 1
- OOB 配置 USB 钥匙 × 1 (含一次性 root 凭证, 部署后需销毁)
- 部署确认表 × 1 (验签需客户 IT 负责人签字)
三、网络规划
Ark 需要至少 2 个网段:
业务 VLAN (Business)
- 与客户业务应用同 VLAN 或可路由
- Ark 在该 VLAN 内暴露推理 API (gRPC + REST)
- 推荐: 该 VLAN 通过客户内网 ACL 限制能访问 Ark 的源 IP 白名单
管理 VLAN (Management)
- 仅运维管理员可访问的 VLAN
- Ark 在该 VLAN 内暴露 SSH (限白名单)、SNMP、IPMI
- 该 VLAN 不可路由到公网
出向策略
Ark 的默认出向策略是 deny all。仅以下场景可能需要放通:
- 客户 SIEM 推送 (推荐用 syslog 上行)
- 客户 CMDB 同步 (推荐用主动拉取, 即客户 CMDB 来连 Ark)
- 客户内部 NTP / DNS
四、初始化向导 (Day 0)
通电后通过 IPMI/BMC 接 OOB 控制台, 走以下向导:
1. 设置根管理员密码 (16 位以上, 客户 IT 负责人自己设)
2. 设置网络参数 (业务 IP / 管理 IP / 默认网关 / DNS)
3. 设置时区 (默认 Asia/Shanghai)
4. 接入客户 PKI (上传客户根 CA, 用于 mTLS)
5. 设置审计日志推送目标 (客户 SIEM IP + 端口 + 格式)
6. 设置升级策略 (默认: 关闭自动升级, 仅离线升级)
7. 跑自检套件 (硬件 / 网络 / 安全 / 性能基线)
自检套件全绿后, 销毁 OOB 配置 USB 钥匙, 部署进入运营态。
五、日常运维 SOP
巡检 (周度)
- 健康指标: GPU 温度、电源冗余、磁盘 SMART
- 性能指标: 推理 P50/P99 延迟、QPS、错误率
- 安全指标: 失败认证次数、可疑日志条目
应急 (按需)
- 单台 GPU 故障: 自动隔离故障卡, 调度迁移到健康卡 (Ark 内置)
- 整机失联: 切换到备机 (主备模式), 通知 LYG 工程师二线
- 可疑攻击: 锁定相关源 IP, 抓包导出, 联系 LYG security@lyg.ai
升级 (季度)
- LYG.AI 发布升级包 (加密 + 数字签名)
- 客户 IT 负责人离线校验签名
- 灰度: 先在备机升级, 验证 1 周后切主, 主机升级
- 失败回滚: 一键回滚到前一版本, 数据无损
六、故障树 / Troubleshooting
详细故障树请参考完整版手册 (通过 LYG security@lyg.ai 申请加密版)。常见问题:
- 推理延迟突增 → 检查 GPU 使用率 / 模型版本是否变更 / 客户业务侧请求模式
- 认证失败激增 → 立刻锁定相关 IP, 调审计日志
- 磁盘空间告警 → 检查审计日志归档周期 (默认 90 天, 可调)
- 网卡断连 → 走标准网络故障排查, Ark 不会主动写无效配置
七、与 LYG 工程团队的协作模式
- L1 (客户 IT 一线): 巡检 / 告警响应 / 常规配置 / 灰度上线
- L2 (LYG.AI 二线): 性能优化 / 升级支持 / 故障定级 / 安全事件
- L3 (LYG.AI 工程总部): 内核级问题 / 重大故障定位 / 模型问题
L2/L3 工作模式: 客户主动召唤 (邮件 / 工单 / 紧急电话), LYG 工程师不会主动远程登录 Ark, 所有协助操作都需要客户 IT 负责人发起 jump host 通道并录像。
这份手册是 v2026.02 版本。修订记录在 LYG 客户运维门户。问题反馈: docs@lyg.ai