AD
首页 > 资讯 > 正文

国内首个光互连光交换GPU超节点——光跃LightSphere X发布

[2025-07-30 10:20:36] 来源: 编辑: 点击量:
评论 点击收藏
导读: 2025世界人工智能大会(WAIC)“智算云启,共绘生态”论坛上,上海仪电(集团)有限公司(以下简称“上海仪电”)联合上海曦智科技有限公司(简称“曦智科技&rdquo

 2025世界人工智能大会(WAIC)“智算云启,共绘生态”论坛上,上海仪电(集团)有限公司(以下简称“上海仪电”)联合上海曦智科技有限公司(简称“曦智科技”)、上海壁仞科技股份有限公司(简称“壁仞科技”)、中兴通讯股份有限公司(简称“中兴通讯”),正式发布国内首个光互连光交换GPU超节点——光跃LightSphere X。该超节点基于曦智科技全球首创的分布式光交换技术,采用硅光技术的光互连光交换芯片和壁仞科技自主原创架构的大算力通用GPU液冷模组与全新载板互连,并搭载中兴通讯高性能AI国产服务器及仪电智算云平台软件,构建起高带宽、低延迟、灵活可扩展的自主可控智算集群新范式,即将于上海仪电智算中心落地。

 
 
 
 
        光跃LightSphere X凭借其突破性原始创新荣膺2025 WAIC SAIL大奖,并作为本年度最具代表性的创新项目,成为SAIL四大评价维度(Superior, Application, Innovation, Leading)中“Innovation”(创新)维度的标杆案例。
 
创新技术直击算力与网络核心痛点
        万亿参数大模型与多模态训练的崛起,正推动算力集群迈入“万卡协同”时代。超节点架构通过深度整合GPU资源,在超节点内构建起低延迟、高带宽的统一算力实体,已成为支撑这一演进的关键技术路径。
 
        当前业界一种常见方案是通过提升单机柜功耗来部署更多GPU,但受限于数据中心单机柜的功耗天花板,单机柜GPU密度提升存在瓶颈。对此,光跃LightSphere X采用光互连技术,通过增加机柜数量构建超节点,突破传统互连方式下超节点的物理限制。相比铜缆,光缆的远距离传输优势可实现交付与机柜解耦,其核心价值在于:突破单机柜功耗束缚,支持万卡级弹性扩展,兼容现有机房设施降低部署成本,并可按算力需求动态调整超节点规模,实现分阶段建设。
 
        同时,光跃LightSphere X全球首创的分布式光交换(dOCS,distributed Optical Circuit Switch)技术则进一步提升了超节点的灵活度和系统可扩展性,从而达到提升系统性价比的目的。不同于传统的集中式交换,其通过在每个GPU上集成光交换功能,灵活切换GPU间互连拓扑结构。这不仅可实现故障场景下的拓扑实时重构,提高大模型训推性能,降低GPU冗余成本,还能按模型算力需求动态调整超节点规模,切换拓扑网络。此外,分布式设计支持GPU高带宽通讯域弹性扩展。光跃LightSphere X将实现2千卡规模部署。
 
        得益于多计算芯粒(Chiplet)与CoWoS 2.5D封装协同设计的GPU模组,光跃LightSphere X拥有强大算力。该模组基于自主原创架构大算力(单卡1P级)通用GPU液冷模组,极大地增强了集群训推性能。通过自主研发智算云平台软件灵活配置超节点网络拓扑,支持密集通信和更大TP&EP,高效适应各种大模型需求,大幅提高节点的可扩展性。OCS UBB采用独创的革新载板设计,超低损板材多层架构,互联拓扑丰富灵活。该训推一体架构可动态分配计算资源,既满足千亿参数大模型训练的高吞吐需求,又保障推理任务的低时延响应。
 
        光跃LightSphere X的上层软件平台同样值得关注。其智算集群统一管理平台通过深度融合调度引擎与训推框架,实现了对超节点全生命周期的智能管控。智算平台能够依据不同模型特征,进行超节点拓扑智能配置,显著提升训练性能;基于全局资源可观测体系,实现故障节点秒级替换与分钟级断点续训,保障模型长稳运行。此外,通过软硬协同的系统级工程优化,进一步释放了超节点在性能和效率等方面的综合潜能。
查看更多:

为您推荐