LYG Ark 硬件选型方法:给 CIO 的 12 项工程检查清单

写给谁

如果你是金融机构、央企、能源公司或政务系统的 CIO / 数字化负责人 / 数据中心架构师,正在评估"在自家机房部署企业 AI 一体机", 这份清单是给你的。

本文整理 12 个"前 10 分钟就该问清"的问题。问得越具体, 后续部署的麻烦越少 — 这与方案商讨厌的"细问"恰恰相反。

本文不推销 LYG Ark, 这是一份通用方法论, 任何企业 AI 一体机评估都适用。

物理与电力 (4 项)

✓ 1. 机柜功率密度匹配

当前机房单机柜可承受功率密度? (常见: 5-8 kW / 机柜, 高密度: 15-25 kW)
AI 一体机典型功率: 2U 满载 1.5-3 kW, 4U 满载 3-6 kW, 8U GPU 集群可达 10-15 kW
陷阱: 机房标称的 "5 kW / 机柜" 是上限, 不是工作点 — 长期持续运行的 AI 一体机不应超过 70% 标称值

✓ 2. 散热与温控

机房冷热通道隔离做了吗? 进风温度低于 27℃ 吗?
AI 推理负载在峰值时段, 进风温度上升对 GPU 性能的影响是非线性的 (38℃ 进风可能让 GPU 降频 15-25%)
陷阱: 很多企业机房在春秋季节空调"省电模式"运行, 这对 AI 一体机是慢性毒药 — 工作温度必须监控告警

✓ 3. UPS 容量与切换时间

UPS 续航容量? 切换时间 < 4ms 还是 < 16ms?
AI 推理在切换瞬间被打断不致命, 但显存里的模型状态丢失意味着重新加载, 用户感知到的"系统卡顿"会被放大
陷阱: 老机房的 UPS 标称容量与 AI 一体机峰值功率经常不匹配; 加一台 AI 一体机要重新算总电流余量

✓ 4. 物理位置与防误触

一体机放在哪个机柜? 谁有物理访问权限?
金融 / 央企客户的 AI 一体机通常需要独立机柜 + 电子门禁日志
陷阱: "和 ERP 服务器放一起" 在合规审计时是大问题 — 至少要逻辑隔离 + 访问日志

网络与互联 (3 项)

✓ 5. 北向 / 南向带宽

一体机对内 (业务系统接入侧) 与对外 (公网 / VPN) 带宽?
AI 推理的请求/响应延迟主要由网络往返决定 — 同机房内 < 1ms, 跨机房 < 10ms, 跨数据中心 > 50ms
陷阱: AI 一体机部署在 DMZ 但业务系统在内网, 中间防火墙的吞吐成了瓶颈

✓ 6. 与已有身份认证 / SSO 的集成

LDAP / AD / OAuth2 / SAML 哪种?
AI 一体机的访问控制必须接入企业 SSO, 不能用一体机独立账号 (合规噩梦)
陷阱: 部分 AI 一体机供应商默认走自己的账号体系, 推延对接成本到部署后

✓ 7. 出网 (egress) 策略

AI 一体机需要访问外部 (模型更新 / 安全补丁) 吗? 走哪个出口?
金融客户通常禁止生产 AI 一体机直接出网 — 模型更新需要通过隔离区中转
陷阱: "我们用的开源模型不需要联网" 是错误假设 — 安全补丁、CUDA driver、Kernel patch 都需要出网

安全与合规 (3 项)

✓ 8. 等保 / 行业合规级别要求

你的业务系统是等保几级? AI 一体机的合规级别要不低于此
金融核心系统通常等保三级, 央企关键业务通常等保二级或三级
陷阱: AI 一体机标称"支持等保三级"和"已通过等保三级测评"是两件事 — 务必看测评报告

✓ 9. 数据加密与密钥管理

静态数据加密 (AES-256 / 国密 SM4)?
传输层加密 (TLS 1.2+ / 国密 GMSSL)?
密钥管理: 一体机内 HSM 还是企业 KMS?
陷阱: "加密"两个字背后差异极大 — 算法 / 密钥位长 / 密钥生命周期 / 旋转策略都要问

✓ 10. 审计日志与可追溯

每一次推理 / 每一次数据访问都有审计日志吗?
日志保留多久? 是写入一体机本地还是企业 SIEM?
日志能否被关闭或篡改 (合规上必须是不能)
陷阱: "支持审计日志" 不等于"强制审计日志" — 监管要求是后者

国产化与生态 (2 项)

✓ 11. 国产化适配清单

CPU 国产 (海光 / 鲲鹏 / 飞腾) 还是 Intel/AMD?
GPU / 加速卡国产 (寒武纪 / 昇腾 / 海光 DCU) 还是 NVIDIA?
OS 国产 (麒麟 / 统信 / 中科方德) 还是 RHEL / Ubuntu?
数据库国产 (达梦 / 人大金仓 / OceanBase) 还是 PostgreSQL / Oracle?
陷阱: "全栈国产化" 4 项必须都国产 — 单点 Intel CPU 或 NVIDIA GPU 都会让合规审查不通过

✓ 12. Vendor Lock-in 风险评估

模型层: 是绑定一家基础模型还是支持 BYO Model?
推理层: 是绑定特定 GPU 还是支持替代?
数据层: 数据 schema 是否标准化, 能不能迁移?
训练层: 微调流水线是否可复用?
陷阱: 三年合同到期才发现 "迁移成本 = 重做一次"

收尾:这 12 项的优先级

建议排查顺序:

优先级	项
必查 (不通过则一票否决)	1 / 2 / 8 / 9 / 10 / 11
应查 (影响后期 TCO)	3 / 6 / 7 / 12
选查 (影响交付速度)	4 / 5

如果你的技术评审会议只有 30 分钟, 至少把"必查"6 项问到具体数字 (不是定性回答)。

LYG Ark 在这 12 项上的回答

我们承诺在与客户技术评审会议时, 每一项都给具体数字而非定性形容词:

标准 2U 配置功率: 1.8 kW (TYP) / 2.6 kW (PEAK)
工作温度范围: 10-35℃ (推荐 18-27℃ 进风)
等保三级与国产化适配: 进行中 (具体进展见 Trust Center)
加密: 静态 SM4 + 传输 GMSSL, HSM 可选
审计: 推理 / 数据访问 / 配置变更三类日志, 默认强制开启, 保留期 ≥ 1 年
国产化清单: 见 Trust Center 全栈兼容表

完整的硬件 spec / 合规证明 / 部署架构图, 在 NDA 后开放查阅。预约技术评审会议: sales@lyg.ai。