以太网在人工智能网络中的关键作用
导语:人工智能(AI)技术的快速发展正在彻底改变云计算和IT行业。自2022年11月Chat GPT上线以来,AI领域经历了投资热潮,吸引了大量关注。各大云服务提供商纷纷推出新产品和服务,以满足日益增长的AI需求,而许多大型企业也在积极探索生成式AI(GenAI)等AI用例,以提高运营效率和投资回报率。 然而,AI的快速发展对云服务提供商和企业数据中心的基础设施提出了更高的要求。数据作为AI发展的关键“燃料”,必须得到有效的收集、保护和传输。探索新AI应用的组织必须应对这些挑战。为了支持AI所需的海量数据和计算资源,我们需要构建更高效、更可靠的网络基础设施。 在此背景下,以太网技术凭借其成熟而广泛的生态系统,正在成为AI网络基础设施的重要支撑。以太网显示出强大的潜力,可以满足AI的高要求并提供统一的平台,这对AI的经济可行性产生了重大影响。它可以跨各种网络和云实现一致的运营模型,避免维护多个基础设施所产生的高昂成本。 AI网络发展的关键要求 速度:AI业务的快速增长推动了数据中心和边缘网络对更高速度的需求,推动网络向400Gbit/s甚至800Gbit/s等新一代网络迈进。 隐私和安全:网络必须高效处理数据,同时确保多租户环境中的高端加密和安全,以保护数据隐私。 边缘推理:随着企业部署大型语言模型(LLM)或小型语言模型(SLM)和混合私有AI云,推理能力的前端部署将成为关注点。 短作业完成时间(JCT)和低延迟:优化网络以提供无损传输,通过拥塞管理和负载平衡确保高效的带宽利用率,是实现快速JCT的关键。 灵活的集群:在AI数据中心,处理器集群可以配置成各种拓扑。优化性能需要避免层或区域之间的超额订阅以减少JCT。 多租户支持:出于安全原因,AI网络需要分离数据流。 标准化架构:AI 网络通常由后端基础设施(训练)和前端(推理)组成。以太网的通用性允许后端和前端集群之间的技术重用。 以太网技术的持续创新 以太网技术不断创新发展,以满足人工智能对网络规模的更高要求。一些关键的技术进步包括: 数据包喷射:该技术允许每个网络流同时访问到目的地的所有路径。数据包的灵活排序充分利用了所有以太网链路,实现了最佳负载平衡,仅在人工智能工作负载中带宽密集型操作需要时才强制排序。 拥塞管理:基于以太网的拥塞控制算法对于人工智能工作负载至关重要。它们可以防止热点并在多条路径上均匀分配负载,确保人工智能流量的可靠传输。 统一和优化的企业基础设施 企业需要部署统一的人工智能网络基础设施和运营模式,以降低人工智能服务和应用的成本。采用基于标准的以太网作为支撑技术是核心要素。它确保前端和后端系统之间的兼容性,避免不同架构带来的标准化过程障碍和经济影响。例如,Arista 主张建立一个“人工智能中心”,在那里通过无损网络高效地训练 GPU。训练好的AI模型连接到AI推理集群,让终端用户可以方便地查询这些模型。 以太网的市场优势 以太网凭借其开放性、灵活性和适应性在AI部署方面表现出强大的竞争力。其性能超越了InfiniBand,随着超级以太网联盟(UEC)的增强,其优势将进一步扩大。此外,以太网更具成本效益,拥有更广泛和更开放的生态系统,为后端和前端集群提供通用性、统一的操作和技能集,以及集群之间的平台重用机会。随着AI用例和服务的不断扩展,以太网基础设施的机会将大大增加,无论是在超大规模LLM的核心还是在企业边缘。AI就绪的以太网可以满足需求,并提供基于行业特定私有数据的AI推理。 总而言之,以太网技术在AI网络基础设施中起着至关重要的作用。它可以满足AI在速度、安全性、边缘推理等方面的多方面需求。以太网通过持续的技术创新和广泛的生态系统支持,为企业提供更高效、更经济的解决方案,促进人工智能的广泛应用和发展。