當前位置:數據中心技術專區 → 正文

數據中心如何作為計算單元使其自動化開放網絡

責任編輯:cres 作者:Ami Badani |來源:企業網D1Net  2021-03-15 13:40:19 原創文章 企業網D1Net

數據中心已經從物理服務器發展到虛擬化系統,現在發展到可組合的基礎設施,而在這些基礎設施中,諸如存儲和持久性內存之類的資源已從服務器中分離出來。與此同時,數據處理已經從僅在CPU上運行演變為在GPU、DPU或FPGA上運行,以進行數據處理和聯網任務的加速計算。同樣,軟件開發模型已經從單臺計算機上運行的程序演變為在數據中心上運行的分布式代碼,這些代碼已實現為云原生的、容器化的微服務。
 
在這個新世界中,開發人員需要一個可編程的數據中心結構來組合各種處理器類型和資源,以構建組織完成任務所需的平臺。
 
數據中心的第一個時代是以CPU為中心和靜態的數據中心,通常是在一臺計算機上運行一個應用程序。軟件在CPU上運行,程序員開發的代碼只能在一臺計算機上運行。由于資源分配是靜態的,因此服務器通常配置過多且未充分利用。
 
在數據中心的第二個時代,虛擬化成為常態,每臺服務器上都在運行許多虛擬機。其資源是動態的,虛擬機是按需創建的。當需要更多CPU、內存或存儲時,可以將工作負載遷移到不同服務器上的虛擬機。
 
其計算處理仍然主要由CPU執行,僅偶爾使用GPU或FPGA來加速特定任務。幾乎所有內容都在軟件中運行,并且應用程序開發人員仍然大部分時間只能在一臺計算機上進行編程。第二個時代的數據中心仍然以CPU為中心,只是偶爾會加速運行。
 
數據中心就是計算機
 
如今,正在進入數據中心的第三個時代,人們稱之為加速分解基礎設施(ADI),它建立在可組合基礎設施、微服務和特定領域處理器的基礎上。
 
以下分別討論這些重要元素:
 
·加速:根據最佳選擇,不同的處理器可以加速不同的工作負載。CPU運行通用的單線程工作負載,GPU并行處理工作負載,數據處理單元(DPU)管理數據的處理和低延遲移動,以使CPU和GPU高效地獲得所需的數據。例如,CPU可以運行數據庫,GPU可以進行人工智能(AI)和視頻處理,而DPU可以快速、高效、安全地將正確??的數據交付到需要的地方。
 
GPU加速的人工智能和機器學習現在被廣泛使用:用于改善網上購物、5G無線、醫療研究、安全、軟件開發、視頻處理,甚至數據中心運營。云計算、容器以及合規性問題的快速增長要求DPU加快網絡、存儲訪問和安全性。
 
·分解:將計算、內存、存儲和其他資源分成多個池,并以適當的數量動態分配給服務器和應用程序。應用程序本身通常是由交互微服務構建的,而不是作為一個整體的代碼塊構建的。這樣可以更輕松地以正確的資源比例編寫應用程序,并根據需要更改該比例。
 
使用加速分解基礎設施(ADI)模型,GPU、DPU和存儲可根據需要連接到任何服務器、應用程序或虛擬機。使用Nvidia公司的GPUDirect和Magnum IO等技術,可使CPU和GPU在網絡上相互訪問和存儲,其性能幾乎都與同一臺服務器相同??梢詫⒄_數量和類型的GPU分配給需要它們的工作負載。每臺服務器中的DPU管理和加速常見的網絡、存儲、安全性、壓縮以及深度數據包檢查任務,以保持數據的快速和安全移動,而不會給CPU或GPU造成負擔。
 
采用加速分解基礎設施(ADI),數據中心是計算的新單元——由GPU和DPU完全可組合和加速。
 
要對數據中心進行編程,必須對網絡進行編程
 
采用加速分解基礎設施(ADI),數據中心是計算的新單元,而網絡結構提供了一個靈活、自動化的編程框架,可以動態地組成工作負載資源。這意味著不僅要對CPU、GPU和DPU進行編程,還要對網絡結構本身進行編程——將DevOps的優勢擴展到網絡中,這種方法稱為“基礎設施即代碼”。
 
該結構必須可編程、可擴展、快速、開放、功能豐富、自動化友好和安全。它必須在CPU、GPU和存儲之間提供多條高帶寬路徑,并具有對流量類別進行優先級排序的能力。借助在Spectrum交換機上運行的Cumulus Linux和SONiC以及基于BlueField的DPU,Nvidia公司提供了一流的端到端光纖解決方案,可以在整個數據中心堆棧上進行優化的編程。這些解決方案(當然還有許多由Nvidia GPU支持的平臺和軟件框架)可為客戶提供出色水平的數據中心性能、靈活性、可組合性、可編程性,從而支持Nvidia公司聯合創始人兼首席執行官黃仁勛的發展愿景。數據中心是計算的新單元,在Nvidia公司完成對Mellanox Technologies的收購并計劃收購Cumulus Networks的過程中,對此進行了詳細討論。
 
使用加速分解基礎設施(ADI),每個應用程序都可以在由CPU、GPU和存儲資源構建的虛擬服務器上運行,并且DPU可以加快訪問和安全性。
 
開放式網絡操作系統支持分解基礎設施
 
傳統上,交換機被設計為專有的“黑盒”,其中網絡操作系統(NOS)鎖定在特定的交換機硬件平臺上,要求客戶購買并將其部署在一起。
 
Nvidia公司的方法是提供最佳的開放式端到端解決方案??蛻艨梢允褂镁哂凶罴呀粨Q機ASIC(頻譜)的交換機,并選擇滿足其需求的最佳網絡操作系統 (NOS):Cumulus Linux、Mellanox Ony、SONiC或其他??蛻羯踔量梢赃x擇在骨干交換機上運行SONiC,而在機架式和園區交換機上使用Cumulus Linux。與此同時,Nvidia公司出售電纜和收發器,并且不會鎖定客戶,允許他們根據需要采購其他電纜和光學器件。
 
與專有的閉合交換機模型不同,開放式網絡允許客戶從最佳的軟件和硬件中選擇,以獲得他們所需的正確功能、性能和可管理性。
 
現在,人工智能、云計算和HPC工作負載可以通過最佳資源(包括GPU、CPU、DPU、內存、存儲和高速連接)靈活地跨整個數據中心的任何部分運行。對于這種加速的彈性計算的需求,而在過去,由于每臺服務器都有自己專用的、孤立的資源,應用程序開發人員只能在單臺服務器上編寫程序。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:數據中心

原創文章 企業網D1Net

數據中心如何作為計算單元使其自動化開放網絡 掃一掃
分享本文到朋友圈

關于我們聯系我們版權聲明友情鏈接廣告服務會員服務投稿中心招賢納士

企業網版權所有©2010-2021 京ICP備09108050號-6

^
1111