| 方向 | 代表主体 | 进展关键词 | 观察重点 |
|---|---|---|---|
| NPU/AI 加速 | 华为昇腾等 | 国产 NPU、超节点、模型适配 | 适合关注大规模训练与推理的自主可控路径。 |
| GPU/通用加速 | 寒武纪、摩尔线程、沐曦等 | 训练推理适配、生态兼容、编译优化 | 关键在开发者工具链和主流框架兼容度。 |
| CPU/互联/服务器 | 海光、鲲鹏、服务器厂商 | 集群通信、内存带宽、整机交付 | 模型推理成本取决于整机与集群效率。 |
技术变量
国产算力落地最关键的四件事
模型结构适配
MoE、长上下文、低精度推理会改变显存、互联和算子优化重点。
编译与算子库
没有稳定的编译器、算子库和性能分析工具,硬件峰值很难转化为业务吞吐。
推理服务框架
批处理、KV Cache、前缀缓存、路由和多租户隔离决定线上成本。
生态迁移成本
开发者是否能从 CUDA/主流框架平滑迁移,是国产硬件规模化的重要门槛。
参考与核对方向
以下链接用于后续事实核对与持续更新,页面内容采用公开资料概括,不替代厂商正式公告。