欢迎光临深圳市710公海寰宇机电设备有限公司官方网站!
咨询热线:13265717552

深圳市710公海寰宇机电设备有限公司
手机:13265717552(微信同号)
联系人:赵先生
深圳市龙华区观澜街道桂花社区桂花路103号-107号(单号)505

710公海寰宇(中国)有限公司- 成本下探30%,中科曙光IB产品冲击RoCE性价比「护城河」
  • 作者:
  • 来源:
  • 日期 : 2026-03-31 13:08:26

   导语:于RoCE及英伟达IB以外,高速收集的第三个选项呈现了。

智算集群的设置装备摆设瓶颈,正于履历转移。

已往两年,行业还有聚焦于算力范围上,恍如谁拿到了更多GPU,谁就把握了AI竞争的入场券。但当万卡集群逐渐落地,一个更隐藏的瓶颈浮出水面:收集。

中科曙光高级副总裁李斌算了如许一笔账:“本来以CPU为中央的计较单位,双路的计较节点插一张网卡就够了;此刻以GPU为中央的计较节点,一台呆板要配八张甚至更多的网卡。”

由此算下来,如今收集的用量比拟以往的数据中央,提高了十到二十倍。

数目膨胀暗地里,智算集群也对于收集机能提出更苛刻的要求:

万卡集群的练习,需要收集时延于纳秒级内,且传输精度做到无损。而实际是,不管选择英伟达主导的IB(InfiniBand)线路,还有是运维繁杂的RoCE线路,海内用户都必然水平上“受制在人”。

成本下探30%,中科曙光IB产品冲击RoCE性价比「护城河」

恰是如许的配景下,中科曙光用时三年推出国产原生IB架构高速收集产物scaleFabric,试图于智算收集的咽喉要道上,盘踞一席之地。

IB及RoCE,二分全国?

跟着AI需求飙涨,行业已经经逐渐发明,年夜范围计较体系的效率不等在体系的峰值算力,于集群现实运行中,靠近一半的算力会被华侈失。

也就是说,单卡算力再强,假如收集没法于划定时间内完成数据互换,年夜部门算力只能于等候中被华侈。MFU(模子算力使用率)的天花板,很年夜水平上是由收集决议的。

今朝,万卡集群高速互联需求下,市场能满意的技能线路重要有两条:IB(InfiniBand)及RoCE(RDMA over Converged Ethernet)。前者是专为高机能计较设计的原生RDMA架构,后者则是基在以太网的RDMA技能方案。

过往,两者的场景及区分还有比力泾渭分明:

IB机能卓着但价格昂贵,是超算及顶级AI集群的首选;RoCE成本较低,且互联网厂商于CPU云时代便以以太网为基础,成熟的运维系统也让他们于智算时代更偏向在继承沿用以太网线路。

然而,AI带来算力需求发作确当下,跟着智算集群范围从千卡迈向万卡甚至十万卡,RoCE的天赋短板最先闪现——

IB互换机采用VCT互换,可实现“边收边转”,互换时延可节制于300纳秒之内;而RoCE互换机则采用“存储-转发”互换,需完备吸收数据包后再转发,时延遍及于500纳秒以上。

于流量节制机制上,IB采用基在信用的邃密化流控,发送前会确认吸收端资源,从泉源防止丢包;RoCE依靠的PFC(Priority Flow Control)暂停机制则是粗粒度流控,轻易呈现丢包、PFC死锁或者风暴,必需依靠堵塞节制且需人工调优水线。

只管RoCE厂商于追逐IB的机能,但用户也已经经于“用脚投票”。例如,于感触感染到IB的机能上风后,微软如今已经最先将部门焦点AI练习营业从以太转向了IB。

然而,对于在海内智算用户而言,选择IB一样面对困境:

英伟达一家独年夜,采购价格昂扬,且供货周期及产物迭代其实不不变。而且,英伟达于B300等最新芯片中已经标配CX8收集模块,这象征着采购其芯片,往往就被强迫绑定利用英伟达自家的IB收集产物。

面临机能较减色的RoCE与高价垄断的IB,国产算力高速收集需要一条新前途。

国产IB的正式突围

中科曙光scaleFabric,试图打破这一僵局。

这是海内首款全栈自研原生IB架构高速收集产物:从底层的112G SerDes IP、互换芯片、网卡,到上层的互换机硬件及治理软件,全是自立研发产物,用时三年研发。

从公然的机能数据看,scaleFabric对于标的是英伟达今朝主流的NDR(指 400Gb/s InfiniBand 收集)产物。

机能层面,中国科学院计较技能研究所王展暗示,通讯层面上,曙光的产物基本上及英伟达于统一程度。其端到端通讯时延于0.93微秒,互换机转发时延260纳秒,与英伟达NDR持平;单端口带宽到达800G,较RoCE主流互换机领先一到两代,整机互换容量64T;于典型AI练习使命中,实测收集效率晋升40%以上。

靠得住性层面,因为采用了原生IB的信用流控机制,scaleFabric实现了真无损收集,防止了RoCE方案中常见的PFC风狂风险。曙光吐露,该产物已经于近万卡范围的集群中连续不变运行跨越10个月。

固然,对于用户而言,最敏感的变量依然是成本。曙光吐露,于划一范围集群中,scaleFabric的总体收集成本较入口IB方案可降低约30%。

这一价格上风一旦被验证,RoCE赖以保存的“性价比护身符”将遭到巨年夜打击。

不外,这套国产IB产物的降生也并不是坦途。

中科曙光高速收集互联产物部总工程师万伟直言,研发中的第一个难点是链路技能:开初各人想买现成的IB方案,可是底子不切合要求,末了只能招团队从零做起。

其次,于方针设定上,团队并不是简朴对于标英伟达IB,而是立志于要害规格上实现逾越,这也带来了巨年夜的技能挑战。万伟感触,所幸团队终极于国度的撑持下患上以霸占难关、取患上乐成。

李斌增补说,当前业界存于RoCE、ScaleOut、ScaleUP等多种技能线路,百花齐放,而曙光的选择是于原生RDMA架构基础上,为超年夜范围体系上的机能及扩大性做深度考量。

他对于市场竞争格式有苏醒的判定:“今朝这个市场的重要玩家还有是英伟达。咱们对于在产物的定位,是期待于IB的技能线路能实现技能上的国产化替换,实现营业上真实的市场占比替换。咱们但愿打破一家独年夜的场合排场,把整个技能做开放,市场的蛋糕各人同享。”

只管英伟达的领先职位地方短时间难以撼动,但国产IB的冲破,已经为智算收集自立之路点亮但愿。

雷峰网雷峰网(公家号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-710公海寰宇(中国)有限公司



13265717552
地址:深圳市龙华区观澜街道桂花社区桂花路103号-107号(单号)505
 
本站部分图文来源网络,如有侵权问题请通知我们处理!