


直播結(jié)束,大家稍后可在視頻區(qū)觀看回放視頻。
直播結(jié)束,大家稍后可在視頻區(qū)觀看回放視頻。
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
簽到
1
簽到
簽到
簽到
簽到
通過AI優(yōu)化業(yè)務(wù)流程和決策支持的核心技術(shù)有哪些?
影響AI應(yīng)用效果的核心技術(shù)包括:AI模型的選型及調(diào)優(yōu);高質(zhì)量的數(shù)據(jù)采集及數(shù)據(jù)治理;高效能的、支持AI工程化部署和擴容的AI基礎(chǔ)設(shè)施平臺;行業(yè)領(lǐng)域知識積淀等。
簽到
AI-First戰(zhàn)略與企業(yè)的數(shù)字化轉(zhuǎn)型有什么聯(lián)系?
Dell AI-First戰(zhàn)略目標(biāo)是幫助企業(yè)用戶通過預(yù)驗證的AI解決方案體系,更快速、更高效地實現(xiàn)AI應(yīng)用的工程化落地,從而借助AI技術(shù)幫助企業(yè)用戶加速數(shù)字化轉(zhuǎn)型進程。
簽到
簽到
請問哪些企業(yè)已經(jīng)成功應(yīng)用了AI-First戰(zhàn)略,取得了什么顯著成果?
過往我們已經(jīng)看到很多企業(yè)用戶借助AI技術(shù)和Dell AI解決方案,實現(xiàn)AI應(yīng)用的場景化落地,幫助企業(yè)用戶實現(xiàn)降本增效,比如制造行業(yè)用戶通過AI技術(shù)實現(xiàn)工業(yè)產(chǎn)品質(zhì)檢、行業(yè)知識庫搭建、工藝參數(shù)優(yōu)化、預(yù)測性維護等;零售行業(yè)用戶通過AI技術(shù)實現(xiàn)精準(zhǔn)營銷、商品智能識別分類與貨損防護;金融行業(yè)用戶將AI技術(shù)應(yīng)用于保險理賠、風(fēng)控、算法交易等領(lǐng)域。
簽到
戴爾如何通過技術(shù)基礎(chǔ)設(shè)施支持AI-First戰(zhàn)略?
Dell AI-First技術(shù)戰(zhàn)略包含基礎(chǔ)設(shè)施、數(shù)據(jù)、開放生態(tài)、服務(wù)、應(yīng)用場景用例等多個維度,在AI基礎(chǔ)設(shè)施涉及的領(lǐng)域包含AI異構(gòu)計算、非結(jié)構(gòu)化數(shù)據(jù)存儲、網(wǎng)絡(luò)、數(shù)據(jù)保護、數(shù)據(jù)中心基礎(chǔ)設(shè)施,以及前端AI PC、AI工作站等。全棧式AI解決方案,涉及到IT基礎(chǔ)設(shè)施領(lǐng)域的很多組件,只有經(jīng)過有效的整合、適配和預(yù)驗證工作,才能幫助企業(yè)在構(gòu)建AI平臺的進程中減少工程化的困難和挑戰(zhàn)。
簽到
AI-First戰(zhàn)略在系統(tǒng)架構(gòu)和IT資源方面需要做哪些調(diào)整來支持AI應(yīng)用的計算、存儲和網(wǎng)絡(luò)需求?
AI時代,特別是針對LLM的預(yù)訓(xùn)練/微調(diào)和推理部署,在IT系統(tǒng)層面,需要應(yīng)對的挑戰(zhàn)和改變包括但不限于:1)AI應(yīng)用所消耗的計算力呈現(xiàn)指數(shù)級增長,更大規(guī)模的AI異構(gòu)計算平臺的部署與運維;2)AI計算從單機計算向大規(guī)模分布式訓(xùn)練的轉(zhuǎn)化;3)AI訓(xùn)練及推理過程中海量非結(jié)構(gòu)化數(shù)據(jù)的存儲與數(shù)據(jù)保護;4)AI分布式訓(xùn)練過程中對多機通信的帶寬壓力;5)高功耗的GPU加速服務(wù)器需要進行數(shù)據(jù)中心基礎(chǔ)設(shè)施的供電、散熱及承重的重新設(shè)計。
簽到
目前企業(yè)在推行AI-First戰(zhàn)略過程中面臨的最大技術(shù)挑戰(zhàn)是什么?
支撐AI應(yīng)用開發(fā)與模型訓(xùn)練的數(shù)據(jù)準(zhǔn)備;AI平臺的快速搭建、快速投產(chǎn)。
AI-First戰(zhàn)略對不同行業(yè)的應(yīng)用場景有哪些不同?
AI在不同行業(yè)的應(yīng)用場景是比較多元的,有一些通用的場景如人臉識別、智能視頻分析、智能客服、對話式機器人、行業(yè)知識庫等,更多的是與行業(yè)領(lǐng)域結(jié)合的行業(yè)應(yīng)用場景,比如金融行業(yè)的算法交易、智能風(fēng)控、智能閃賠;制造行業(yè)的產(chǎn)品質(zhì)檢、工藝參數(shù)優(yōu)化、自動化排產(chǎn);零售行業(yè)的無人貨架、智能稱重、商品識別、精準(zhǔn)營銷等;醫(yī)療/法律領(lǐng)域的專業(yè)知識問答機器人、專業(yè)文案生成等。
簽到
簽到
簽到
簽到
AI-First戰(zhàn)略怎么幫助企業(yè)在競爭中領(lǐng)先?
我們寄希望通過全棧式的AI平臺解決方案,幫助企業(yè)用戶縮短AI應(yīng)用的開發(fā)周期,更快投產(chǎn),更快實現(xiàn)業(yè)務(wù)成效。
簽到
簽到
簽到
簽到
如何評估企業(yè)在AI-First戰(zhàn)略中的技術(shù)成熟度?
我們認為可以從幾個不同的維度來進行成熟度評估:人員,包括掌握AI技術(shù)的人力儲備及技術(shù)經(jīng)驗;數(shù)據(jù),用于支撐AI應(yīng)用開發(fā)和模型迭代的數(shù)據(jù)量及數(shù)據(jù)質(zhì)量;用例,AI應(yīng)用場景的選型、技術(shù)實現(xiàn)的難度、AI應(yīng)用效果的預(yù)期等。
簽到
簽到
簽到
簽到
現(xiàn)代化AI數(shù)據(jù)中心的硬件架構(gòu)有哪些關(guān)鍵組件?
現(xiàn)代化的AI數(shù)據(jù)中心的硬件組件,包括AI異構(gòu)計算平臺、AI數(shù)據(jù)存儲平臺、網(wǎng)絡(luò)通信平臺、集群管理與資源調(diào)度軟件平臺、AI數(shù)據(jù)中心基礎(chǔ)設(shè)施等。
簽到
如何利用高性能計算(HPC)優(yōu)化AI數(shù)據(jù)中心的整體性能?
HPC在AI數(shù)據(jù)中心的應(yīng)用場景,主要在AI模型預(yù)訓(xùn)練和大規(guī)模微調(diào)場景,通過多機并行實現(xiàn)AI GPU分布式訓(xùn)練,硬件層面需要高效能的網(wǎng)絡(luò)和I/O存儲設(shè)備支持,軟件層面需要在框架軟件或者加速庫軟件針對AI模型機制進行集群邏輯拓撲和通信機制的優(yōu)化,如當(dāng)前廣泛使用的NVIDIA NCCL、DeepSpeed正在做的工作,以提升GPU分布式訓(xùn)練過程中的實際并行加速效率。
簽到
簽到
數(shù)據(jù)中心的冷卻系統(tǒng)在AI計算中的重要性體現(xiàn)在哪里?
目前在AI計算中,GPU是使用最為廣泛的加速技術(shù),而GPU屬于高功耗的部件,配套GPU服務(wù)器以及數(shù)據(jù)中心冷卻系統(tǒng),包括智能風(fēng)冷,以及液冷技術(shù)(冷板式/浸沒式),針對不同功耗、不同密度的GPU計算硬件,設(shè)計針對性的冷卻解決方案。
簽到
簽到
簽到
戴爾的PowerEdge服務(wù)器如何滿足AI工作負載的特殊需求?戴爾的PowerEdge服務(wù)器設(shè)計是否上考慮了AI工作負載的高算力需求?采用了什么加速器?
Dell在過去4代PowerEdge服務(wù)器平臺上,都有專門針對GPU設(shè)計的服務(wù)器機型。在這些機型上,針對服務(wù)器的供電、散熱設(shè)計,以及GPU之間的通信機制,iDRAC帶外管理面向GPU的實時監(jiān)控,都與通用的x86服務(wù)器有所不同。Dell目前可以支持NVIDIA、AMD、Intel等廠商的AI加速技術(shù)。
簽到
簽到
簽到
在數(shù)據(jù)中心中,如何處理AI模型訓(xùn)練對算力和存儲的高要求?
算力層面,通過橫向擴展的GPU計算集群,多機GPU分布式訓(xùn)練,提供更高的計算性能,目前在大規(guī)模AI模型訓(xùn)練中都在采用這樣的架構(gòu)技術(shù)。存儲層面,需要采用橫向擴展的并行或者分布式存儲架構(gòu),以實現(xiàn)更高的存儲帶寬和容量擴展,同時在存儲協(xié)議支持、多租戶支持、動態(tài)數(shù)據(jù)存儲訪問特性上,需要做更全面的技術(shù)支持。
簽到
數(shù)據(jù)中心現(xiàn)代化對于企業(yè)實施AI戰(zhàn)略有何幫助?其中哪些是AI應(yīng)用所需要的關(guān)鍵條件?通過現(xiàn)代化改造,企業(yè)如何更好地支持AI模型的訓(xùn)練和部署?
我們會把AI數(shù)據(jù)中心的關(guān)鍵組件,以四個漢字概括:算、網(wǎng)、存、管。
如何通過網(wǎng)絡(luò)優(yōu)化來提升AI數(shù)據(jù)中心的吞吐量和降低延遲?
提升單端口的通道帶寬;提高單臺AI計算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機制。提升單端口的通道帶寬;提高單臺AI計算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機制。通過對無損網(wǎng)絡(luò)的支持,解決基于流的擁塞控制和流量均衡。提升單端口的通道帶寬;提高單臺AI計算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機制。提升單端口的通道帶寬;提高單臺AI計算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機制。通過對無損網(wǎng)絡(luò)的支持,解決基于流的擁塞控制和流量均衡。
在多租戶環(huán)境下,如何確保AI數(shù)據(jù)中心的安全性和穩(wěn)定性?
存儲系統(tǒng)層面,需要更好的支持多租戶的實現(xiàn)機制;同時,在系統(tǒng)管理平臺軟件層面,需要對用戶角色、資源訪問權(quán)限、數(shù)據(jù)訪問權(quán)限,做更精細化地設(shè)置與管理。
在邊緣計算與數(shù)據(jù)中心的結(jié)合中,AI應(yīng)用如何獲益?
AI與邊緣計算的結(jié)合,是目前AI技術(shù)應(yīng)用的一個熱點和趨勢,讓AI技術(shù)更快速響應(yīng)業(yè)務(wù),降低網(wǎng)絡(luò)通信壓力。在邊緣場景實現(xiàn)AI技術(shù),可能需要比數(shù)據(jù)中心場景,需要做更多的AI模型輕量化工作(如模型量化、壓縮、剪枝等),配套AI模型應(yīng)用的硬件平臺可能也需要對部署環(huán)境有更強的適應(yīng)能力(如機箱尺寸、溫度濕度等環(huán)境適應(yīng)能力)。
如何確保數(shù)據(jù)中心的擴展性以滿足不斷增長的AI需求?
需要要求AI數(shù)據(jù)中心的各個組件,包括網(wǎng)絡(luò)架構(gòu)、存儲架構(gòu)、機房設(shè)施硬件架構(gòu)等,在設(shè)計之出就要有充分的可擴展性,這也是Dell AI-First技術(shù)藍圖和參考架構(gòu)的價值所在。
簽到
簽到
簽到
簽到
簽到
簽到
戴爾與NVIDIA合作的硬件和軟件技術(shù)有哪些核心亮點?
Dell和NVIDIA是全球戰(zhàn)略合作伙伴,在Dell AI-First技術(shù)戰(zhàn)略藍圖中,與NVIDIA的技術(shù)合作是非常重要的環(huán)節(jié)。包括NVIDIA AI軟件套件包NVIDIA AI Enterprise,是Dell AI解決方案重要的軟件組件部分。Dell PowerScale數(shù)據(jù)存儲系統(tǒng),今年年初通過了NVIDIA SuperPOD的官方存儲認證,是業(yè)界首款基于以太網(wǎng)的SuperPOD存儲認證系統(tǒng)。Dell計算平臺,提供對NVIDIA全系列數(shù)據(jù)中心GPU的選型支持。
AI工廠在數(shù)據(jù)處理和模型訓(xùn)練上提供了哪些技術(shù)優(yōu)勢?
AI factory和多租戶的AI數(shù)據(jù)中心主要是場景不同,AI factory主要專注于基座大模型的預(yù)訓(xùn)練和定制化大模型的微調(diào),而多租戶的AI數(shù)據(jù)中心面向需求更廣泛些。美國的主要基座大模型startup基本都是租用云服務(wù)商的基礎(chǔ)設(shè)施,AI factory在物理隔離上要簡單些。
簽到
NVIDIA的GPU技術(shù)如何在AI工廠中加速深度學(xué)習(xí)模型的訓(xùn)練?
簽到
簽到
簽到
簽到
簽到
Dell AI Factory如何實現(xiàn)多種AI工具和平臺的集成?
首先,Dell AI Factory是一套預(yù)驗證的解決方案架構(gòu),各個軟件組件是經(jīng)過預(yù)先測試和驗證的,以保證版本之間的軟件兼容性;另外,Dell也可以提供如PowerAnsible 實現(xiàn)快速部署和自動化運維的軟件工具包。
簽到
簽到
AI優(yōu)化的以太網(wǎng)Fabric架構(gòu)如何提升數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬和穩(wěn)定性?
通過rail或spine+leaf的網(wǎng)絡(luò)架構(gòu),采用高密度400G.或800G交換機,400G到GPU server的連接,來增加帶寬實現(xiàn)高速互聯(lián)
簽到
在AI計算中,如何通過以太網(wǎng)Fabric降低通信延遲和提高吞吐量?
通過RoCE V2,cut through switching,dynamic routing,基于流的擁塞控制和流量均衡來降低延遲和提高網(wǎng)絡(luò)帶寬效能
AI優(yōu)化的Fabric網(wǎng)絡(luò)架構(gòu)如何支持生成式AI模型的大規(guī)模分布式訓(xùn)練?
在AI fabric 的scalability方面,通過Rail或spine+leaf的兩層甚至三層架構(gòu),來支持大規(guī)模GPU cluster
AI工廠中的高性能計算如何提升生成式AI的應(yīng)用效果?
現(xiàn)在AI工廠的應(yīng)用主要集中在哪些領(lǐng)域?
AI工廠不是指專注某些特殊應(yīng)用,很多客戶由于各種原因無法使用GPU多租戶的方式,選擇自建AI工廠
戴爾的網(wǎng)絡(luò)解決方案如何幫助企業(yè)實現(xiàn)AI優(yōu)化的Fabric部署
Dell的Broadcom Tomahawak4或5的400G,800G交換機加上SONiC 的OS對AI的支持,可以實現(xiàn)8000GPU以內(nèi)的fabric需求
戴爾推薦哪些服務(wù)器型號適用于高性能計算和人工智能工作負載?
簽到
戴爾的Live Optics工具如何協(xié)助基礎(chǔ)設(shè)施規(guī)劃,它有哪些獨特功能?
在配置算力基礎(chǔ)架構(gòu)時,應(yīng)如何考慮散熱管理以確保設(shè)備的可靠性和性能?
通過AI優(yōu)化業(yè)務(wù)流程和決策支持的核心技術(shù)有哪些?
影響AI應(yīng)用效果的核心技術(shù)包括:AI模型的選型及調(diào)優(yōu);高質(zhì)量的數(shù)據(jù)采集及數(shù)據(jù)治理;高效能的、支持AI工程化部署和擴容的AI基礎(chǔ)設(shè)施平臺;行業(yè)領(lǐng)域知識積淀等。
AI-First戰(zhàn)略與企業(yè)的數(shù)字化轉(zhuǎn)型有什么聯(lián)系?
Dell AI-First戰(zhàn)略目標(biāo)是幫助企業(yè)用戶通過預(yù)驗證的AI解決方案體系,更快速、更高效地實現(xiàn)AI應(yīng)用的工程化落地,從而借助AI技術(shù)幫助企業(yè)用戶加速數(shù)字化轉(zhuǎn)型進程。
請問哪些企業(yè)已經(jīng)成功應(yīng)用了AI-First戰(zhàn)略,取得了什么顯著成果?
過往我們已經(jīng)看到很多企業(yè)用戶借助AI技術(shù)和Dell AI解決方案,實現(xiàn)AI應(yīng)用的場景化落地,幫助企業(yè)用戶實現(xiàn)降本增效,比如制造行業(yè)用戶通過AI技術(shù)實現(xiàn)工業(yè)產(chǎn)品質(zhì)檢、行業(yè)知識庫搭建、工藝參數(shù)優(yōu)化、預(yù)測性維護等;零售行業(yè)用戶通過AI技術(shù)實現(xiàn)精準(zhǔn)營銷、商品智能識別分類與貨損防護;金融行業(yè)用戶將AI技術(shù)應(yīng)用于保險理賠、風(fēng)控、算法交易等領(lǐng)域。
戴爾如何通過技術(shù)基礎(chǔ)設(shè)施支持AI-First戰(zhàn)略?
Dell AI-First技術(shù)戰(zhàn)略包含基礎(chǔ)設(shè)施、數(shù)據(jù)、開放生態(tài)、服務(wù)、應(yīng)用場景用例等多個維度,在AI基礎(chǔ)設(shè)施涉及的領(lǐng)域包含AI異構(gòu)計算、非結(jié)構(gòu)化數(shù)據(jù)存儲、網(wǎng)絡(luò)、數(shù)據(jù)保護、數(shù)據(jù)中心基礎(chǔ)設(shè)施,以及前端AI PC、AI工作站等。全棧式AI解決方案,涉及到IT基礎(chǔ)設(shè)施領(lǐng)域的很多組件,只有經(jīng)過有效的整合、適配和預(yù)驗證工作,才能幫助企業(yè)在構(gòu)建AI平臺的進程中減少工程化的困難和挑戰(zhàn)。
AI-First戰(zhàn)略在系統(tǒng)架構(gòu)和IT資源方面需要做哪些調(diào)整來支持AI應(yīng)用的計算、存儲和網(wǎng)絡(luò)需求?
AI時代,特別是針對LLM的預(yù)訓(xùn)練/微調(diào)和推理部署,在IT系統(tǒng)層面,需要應(yīng)對的挑戰(zhàn)和改變包括但不限于:1)AI應(yīng)用所消耗的計算力呈現(xiàn)指數(shù)級增長,更大規(guī)模的AI異構(gòu)計算平臺的部署與運維;2)AI計算從單機計算向大規(guī)模分布式訓(xùn)練的轉(zhuǎn)化;3)AI訓(xùn)練及推理過程中海量非結(jié)構(gòu)化數(shù)據(jù)的存儲與數(shù)據(jù)保護;4)AI分布式訓(xùn)練過程中對多機通信的帶寬壓力;5)高功耗的GPU加速服務(wù)器需要進行數(shù)據(jù)中心基礎(chǔ)設(shè)施的供電、散熱及承重的重新設(shè)計。
目前企業(yè)在推行AI-First戰(zhàn)略過程中面臨的最大技術(shù)挑戰(zhàn)是什么?
支撐AI應(yīng)用開發(fā)與模型訓(xùn)練的數(shù)據(jù)準(zhǔn)備;AI平臺的快速搭建、快速投產(chǎn)。
AI-First戰(zhàn)略對不同行業(yè)的應(yīng)用場景有哪些不同?
AI在不同行業(yè)的應(yīng)用場景是比較多元的,有一些通用的場景如人臉識別、智能視頻分析、智能客服、對話式機器人、行業(yè)知識庫等,更多的是與行業(yè)領(lǐng)域結(jié)合的行業(yè)應(yīng)用場景,比如金融行業(yè)的算法交易、智能風(fēng)控、智能閃賠;制造行業(yè)的產(chǎn)品質(zhì)檢、工藝參數(shù)優(yōu)化、自動化排產(chǎn);零售行業(yè)的無人貨架、智能稱重、商品識別、精準(zhǔn)營銷等;醫(yī)療/法律領(lǐng)域的專業(yè)知識問答機器人、專業(yè)文案生成等。
AI-First戰(zhàn)略怎么幫助企業(yè)在競爭中領(lǐng)先?
我們寄希望通過全棧式的AI平臺解決方案,幫助企業(yè)用戶縮短AI應(yīng)用的開發(fā)周期,更快投產(chǎn),更快實現(xiàn)業(yè)務(wù)成效。
如何評估企業(yè)在AI-First戰(zhàn)略中的技術(shù)成熟度?
我們認為可以從幾個不同的維度來進行成熟度評估:人員,包括掌握AI技術(shù)的人力儲備及技術(shù)經(jīng)驗;數(shù)據(jù),用于支撐AI應(yīng)用開發(fā)和模型迭代的數(shù)據(jù)量及數(shù)據(jù)質(zhì)量;用例,AI應(yīng)用場景的選型、技術(shù)實現(xiàn)的難度、AI應(yīng)用效果的預(yù)期等。
現(xiàn)代化AI數(shù)據(jù)中心的硬件架構(gòu)有哪些關(guān)鍵組件?
現(xiàn)代化的AI數(shù)據(jù)中心的硬件組件,包括AI異構(gòu)計算平臺、AI數(shù)據(jù)存儲平臺、網(wǎng)絡(luò)通信平臺、集群管理與資源調(diào)度軟件平臺、AI數(shù)據(jù)中心基礎(chǔ)設(shè)施等。
如何利用高性能計算(HPC)優(yōu)化AI數(shù)據(jù)中心的整體性能?
HPC在AI數(shù)據(jù)中心的應(yīng)用場景,主要在AI模型預(yù)訓(xùn)練和大規(guī)模微調(diào)場景,通過多機并行實現(xiàn)AI GPU分布式訓(xùn)練,硬件層面需要高效能的網(wǎng)絡(luò)和I/O存儲設(shè)備支持,軟件層面需要在框架軟件或者加速庫軟件針對AI模型機制進行集群邏輯拓撲和通信機制的優(yōu)化,如當(dāng)前廣泛使用的NVIDIA NCCL、DeepSpeed正在做的工作,以提升GPU分布式訓(xùn)練過程中的實際并行加速效率。
數(shù)據(jù)中心的冷卻系統(tǒng)在AI計算中的重要性體現(xiàn)在哪里?
目前在AI計算中,GPU是使用最為廣泛的加速技術(shù),而GPU屬于高功耗的部件,配套GPU服務(wù)器以及數(shù)據(jù)中心冷卻系統(tǒng),包括智能風(fēng)冷,以及液冷技術(shù)(冷板式/浸沒式),針對不同功耗、不同密度的GPU計算硬件,設(shè)計針對性的冷卻解決方案。
戴爾的PowerEdge服務(wù)器如何滿足AI工作負載的特殊需求?戴爾的PowerEdge服務(wù)器設(shè)計是否上考慮了AI工作負載的高算力需求?采用了什么加速器?
Dell在過去4代PowerEdge服務(wù)器平臺上,都有專門針對GPU設(shè)計的服務(wù)器機型。在這些機型上,針對服務(wù)器的供電、散熱設(shè)計,以及GPU之間的通信機制,iDRAC帶外管理面向GPU的實時監(jiān)控,都與通用的x86服務(wù)器有所不同。Dell目前可以支持NVIDIA、AMD、Intel等廠商的AI加速技術(shù)。
簽到
在數(shù)據(jù)中心中,如何處理AI模型訓(xùn)練對算力和存儲的高要求?
算力層面,通過橫向擴展的GPU計算集群,多機GPU分布式訓(xùn)練,提供更高的計算性能,目前在大規(guī)模AI模型訓(xùn)練中都在采用這樣的架構(gòu)技術(shù)。存儲層面,需要采用橫向擴展的并行或者分布式存儲架構(gòu),以實現(xiàn)更高的存儲帶寬和容量擴展,同時在存儲協(xié)議支持、多租戶支持、動態(tài)數(shù)據(jù)存儲訪問特性上,需要做更全面的技術(shù)支持。
數(shù)據(jù)中心現(xiàn)代化對于企業(yè)實施AI戰(zhàn)略有何幫助?其中哪些是AI應(yīng)用所需要的關(guān)鍵條件?通過現(xiàn)代化改造,企業(yè)如何更好地支持AI模型的訓(xùn)練和部署?
我們會把AI數(shù)據(jù)中心的關(guān)鍵組件,以四個漢字概括:算、網(wǎng)、存、管。
如何通過網(wǎng)絡(luò)優(yōu)化來提升AI數(shù)據(jù)中心的吞吐量和降低延遲?
提升單端口的通道帶寬;提高單臺AI計算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機制。提升單端口的通道帶寬;提高單臺AI計算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機制。通過對無損網(wǎng)絡(luò)的支持,解決基于流的擁塞控制和流量均衡。提升單端口的通道帶寬;提高單臺AI計算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機制。提升單端口的通道帶寬;提高單臺AI計算服務(wù)器網(wǎng)口與AI加速卡的配比;通過GPU Direct RDMA技術(shù)降低通信延遲;軟件和模型層面優(yōu)化數(shù)據(jù)并行與模型并行的通信機制。通過對無損網(wǎng)絡(luò)的支持,解決基于流的擁塞控制和流量均衡。
在多租戶環(huán)境下,如何確保AI數(shù)據(jù)中心的安全性和穩(wěn)定性?
存儲系統(tǒng)層面,需要更好的支持多租戶的實現(xiàn)機制;同時,在系統(tǒng)管理平臺軟件層面,需要對用戶角色、資源訪問權(quán)限、數(shù)據(jù)訪問權(quán)限,做更精細化地設(shè)置與管理。
在邊緣計算與數(shù)據(jù)中心的結(jié)合中,AI應(yīng)用如何獲益?
AI與邊緣計算的結(jié)合,是目前AI技術(shù)應(yīng)用的一個熱點和趨勢,讓AI技術(shù)更快速響應(yīng)業(yè)務(wù),降低網(wǎng)絡(luò)通信壓力。在邊緣場景實現(xiàn)AI技術(shù),可能需要比數(shù)據(jù)中心場景,需要做更多的AI模型輕量化工作(如模型量化、壓縮、剪枝等),配套AI模型應(yīng)用的硬件平臺可能也需要對部署環(huán)境有更強的適應(yīng)能力(如機箱尺寸、溫度濕度等環(huán)境適應(yīng)能力)。
如何確保數(shù)據(jù)中心的擴展性以滿足不斷增長的AI需求?
需要要求AI數(shù)據(jù)中心的各個組件,包括網(wǎng)絡(luò)架構(gòu)、存儲架構(gòu)、機房設(shè)施硬件架構(gòu)等,在設(shè)計之出就要有充分的可擴展性,這也是Dell AI-First技術(shù)藍圖和參考架構(gòu)的價值所在。
戴爾與NVIDIA合作的硬件和軟件技術(shù)有哪些核心亮點?
Dell和NVIDIA是全球戰(zhàn)略合作伙伴,在Dell AI-First技術(shù)戰(zhàn)略藍圖中,與NVIDIA的技術(shù)合作是非常重要的環(huán)節(jié)。包括NVIDIA AI軟件套件包NVIDIA AI Enterprise,是Dell AI解決方案重要的軟件組件部分。Dell PowerScale數(shù)據(jù)存儲系統(tǒng),今年年初通過了NVIDIA SuperPOD的官方存儲認證,是業(yè)界首款基于以太網(wǎng)的SuperPOD存儲認證系統(tǒng)。Dell計算平臺,提供對NVIDIA全系列數(shù)據(jù)中心GPU的選型支持。
AI工廠在數(shù)據(jù)處理和模型訓(xùn)練上提供了哪些技術(shù)優(yōu)勢?
AI factory和多租戶的AI數(shù)據(jù)中心主要是場景不同,AI factory主要專注于基座大模型的預(yù)訓(xùn)練和定制化大模型的微調(diào),而多租戶的AI數(shù)據(jù)中心面向需求更廣泛些。美國的主要基座大模型startup基本都是租用云服務(wù)商的基礎(chǔ)設(shè)施,AI factory在物理隔離上要簡單些。
NVIDIA的GPU技術(shù)如何在AI工廠中加速深度學(xué)習(xí)模型的訓(xùn)練?
Dell AI Factory如何實現(xiàn)多種AI工具和平臺的集成?
首先,Dell AI Factory是一套預(yù)驗證的解決方案架構(gòu),各個軟件組件是經(jīng)過預(yù)先測試和驗證的,以保證版本之間的軟件兼容性;另外,Dell也可以提供如PowerAnsible 實現(xiàn)快速部署和自動化運維的軟件工具包。
AI優(yōu)化的以太網(wǎng)Fabric架構(gòu)如何提升數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬和穩(wěn)定性?
通過rail或spine+leaf的網(wǎng)絡(luò)架構(gòu),采用高密度400G.或800G交換機,400G到GPU server的連接,來增加帶寬實現(xiàn)高速互聯(lián)
在AI計算中,如何通過以太網(wǎng)Fabric降低通信延遲和提高吞吐量?
通過RoCE V2,cut through switching,dynamic routing,基于流的擁塞控制和流量均衡來降低延遲和提高網(wǎng)絡(luò)帶寬效能
AI優(yōu)化的Fabric網(wǎng)絡(luò)架構(gòu)如何支持生成式AI模型的大規(guī)模分布式訓(xùn)練?
在AI fabric 的scalability方面,通過Rail或spine+leaf的兩層甚至三層架構(gòu),來支持大規(guī)模GPU cluster
AI工廠中的高性能計算如何提升生成式AI的應(yīng)用效果?
戴爾的網(wǎng)絡(luò)解決方案如何幫助企業(yè)實現(xiàn)AI優(yōu)化的Fabric部署
Dell的Broadcom Tomahawak4或5的400G,800G交換機加上SONiC 的OS對AI的支持,可以實現(xiàn)8000GPU以內(nèi)的fabric需求
戴爾推薦哪些服務(wù)器型號適用于高性能計算和人工智能工作負載?
簽到
戴爾的Live Optics工具如何協(xié)助基礎(chǔ)設(shè)施規(guī)劃,它有哪些獨特功能?
在配置算力基礎(chǔ)架構(gòu)時,應(yīng)如何考慮散熱管理以確保設(shè)備的可靠性和性能?
戴爾科技集團 AI 企業(yè)技術(shù)架構(gòu)師
全球 CTO 大使
戴爾科技集團
企業(yè)級解決方案拓展經(jīng)理
NVIDIA 解決方案架構(gòu)師
戴爾科技集團網(wǎng)絡(luò)產(chǎn)品經(jīng)理
戴爾科技集團企業(yè)級解決方案
拓展經(jīng)理
8 路 GPU 服務(wù)器
支持 NVIDIA 高性能 AI GPU 加速卡
極致加速的 AI/ML/DL 能力
零信任安全模式
簡化、自動化和集中化一對多管理
多矢量散熱技術(shù),動態(tài)調(diào)節(jié)冷卻風(fēng)強度
人工智能革命已經(jīng)到來,數(shù)據(jù)中心是這場革命能否實現(xiàn)全球擴展的試驗場,目前數(shù)據(jù)中心是否為此做好準(zhǔn)備?
讓一起來聆聽用戶真實的心聲,并通過一段漫畫之旅,以及行業(yè)“智囊”們的深度解讀,全面了解面向AI 的數(shù)據(jù)中心的挑戰(zhàn),行業(yè)用戶的思考,以及戴爾科技如何通過強大的現(xiàn)代化可擴展的數(shù)據(jù)中心解決方案來助力企業(yè)數(shù)字化轉(zhuǎn)型。