利用新的 Azure AI 基礎架構的進步和可用性來擴展生成式 AI

作者: Nidhi Chappell ,Azure AI 基礎設施總經理,Eric Boyd公司副總裁,AI 平台
生成式人工智慧是一項強大的變革性技術,有潛力推動從製造到零售、從金融服務到醫療保健等眾多產業的發展。我們對硬體和人工智慧基礎設施的早期投資正在幫助客戶實現生成人工智慧所能提供的效率和創新。我們的Azure AI 基礎設施是我們擴展產品的支柱,Azure OpenAI 服務處於這項轉型的最前沿,為開發人員提供在 Azure 上建置下一代人工智慧應用程式所需的系統、工具和資源平台。透過生成式人工智慧,使用者可以創造更豐富的使用者體驗、推動創新並提高企業生產力。 

作為我們致力於為客戶帶來 AI 變革力量的承諾的一部分,今天我們宣布更新如何為企業提供 Azure AI 基礎設施和應用程式支援。隨著Azure OpenAI服務的全球擴張,我們正在多個新區域推出OpenAI最先進的模型GPT-4和GPT-35-Turbo,為全球企業提供無與倫比的生成式AI能力。我們的 Azure AI 基礎設施為這種可擴展性提供了動力,我們將繼續對其進行投資和擴展。我們也推出了 ND H100 v5 虛擬機系列,配備 NVIDIA H100 Tensor Core 圖形處理單元 (GPU) 和低延遲網絡,推動企業進入 AI 應用的新時代。

以下是這些進步如何在整個堆疊中擴展 Microsoft 的統一 AI 方法。

ND H100 v5 虛擬機器系列全面上市:前所未有的 AI 處理與規模
今天,我們的 Azure ND H100 v5 虛擬機器 (VM) 系列正式上市,該系列配備了最新的 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 網路。該 VM 系列是根據 Microsoft 在提供超級運算效能和規模方面的豐富經驗精心設計的,以應對尖端 AI 工作負載呈指數級增長的複雜性。作為我們對生成式人工智慧持續深入投資的一部分,我們正在利用人工智慧優化的 4K GPU 集群,並將在明年增加到數十萬個最新 GPU。

ND H100 v5 現已在美國東部和美國中南部 Azure 區域推出。企業可以在Microsoft Learn上註冊對存取新 VM 的興趣或查看有關 ND H100 v5 VM 系列的技術詳細資訊。

目前,ND H100 v5 VM 包括以下功能:

AI 超級運算 GPU:這些虛擬機器配備 8 個 NVIDIA H100 Tensor Core GPU,可提供比前幾代更快的 AI 模型效能,為企業提供無與倫比的運算能力。
新一代電腦處理單元 (CPU):了解 CPU 效能對於 AI 訓練和推理的重要性,我們選擇第四代 Intel Xeon 可擴充處理器作為這些虛擬機器的基礎,以確保最佳的處理速度。
低延遲網路:採用NVIDIA Quantum-2 ConnectX-7 InfiniBand(每個GPU 400Gb/s,每個虛擬機器3.2 Tb/s 的跨節點頻寬)確保跨GPU 的無縫效能,與全球高效能超級電腦的功能相匹配。
優化主機到 GPU 的效能:借助 PCIe Gen5 為每個 GPU 提供 64GB/s 的頻寬,Azure 在 CPU 和 GPU 之間實現了顯著的效能優勢。
大規模記憶體和記憶體頻寬:DDR5 記憶體是這些虛擬機器的核心,可提供更高的資料傳輸速度和效率,使其成為具有較大資料集的工作負載的理想選擇。
這些虛擬機器已經證明了它們的效能優勢,與前幾代的 FP16 相比,使用新的 8 位元 FP8 浮點資料類型時,矩陣乘法運算的速度提高了六倍。ND H100 v5 虛擬機器在 BLOOM 175B 端到端模型推理等大型語言模型中實現了高達兩倍的加速,展示了其進一步優化 AI 應用程式的潛力。
Azure OpenAI 服務邁向全球:在全球擴展尖端模型
我們很高興地宣布 Azure OpenAI 服務在全球擴展,將 OpenAI 的尖端模型(包括 GPT-4 和 GPT-35-Turbo)帶給全球更廣泛的受眾。我們的新生活區域澳洲東部、加拿大東部、美國東部 2、日本東部和英國南部的服務擴展了我們對尋求強大生成人工智慧能力的組織的影響力和支持。隨著這些區域的增加,Azure OpenAI 服務現已在更多地點推出,補充了我們在美國東部、法國中部、美國中南部和西歐的現有可用性。Azure OpenAI 服務的反應非常好,自上次揭露以來,我們的客戶群幾乎增加了兩倍。我們現在自豪地為超過 11,000 名客戶提供服務,本季平均每天吸引 100 名新客戶。這一顯著的成長證明了我們的服務為渴望利用人工智慧潛力來滿足其獨特需求的企業帶來的價值。

作為此次擴展的一部分,我們將提高 Azure OpenAI 最先進的生成式 AI 模型 GPT-4 在新區域的可用性。這項增強功能使更多客戶能夠利用 GPT-4 的功能來產生內容、文件智慧、客戶服務等。透過 Azure OpenAI 服務,組織可以將其營運推向新的高度,推動各產業的創新和轉型。

開發生成式人工智慧的負責任方法
Microsoft 對負責任的 AI的承諾是 Azure AI 和機器學習的核心。這個人工智慧平台整合了強大的安全系統,並利用人類回饋機制來負責任地處理有害輸入,確保為使用者和最終消費者提供最大程度的保護。企業可以申請存取 Azure OpenAI 服務,並釋放生成式 AI 的全部潛力,將其營運推向新的高度。

我們邀請世界各地的企業和開發者加入我們這趟變革之旅,讓我們引領人工智慧創新。Azure OpenAI 服務證明了 Microsoft 致力於讓 AI 對各種規模的企業都易於存取、可擴展且具有影響力。讓我們共同擁抱生成式 AI 的力量和 Microsoft 對負責任的 AI 實踐的承諾,以在全球範圍內推動積極影響和成長。

客戶靈感
生成式人工智慧正在徹底改變各個行業,包括內容創建和設計、加速自動化、個人化行銷、客戶服務、聊天機器人、產品和服務創新、語言翻譯、自動駕駛、詐欺偵測和預測分析。我們的客戶利用生成式人工智慧進行創新的方式為我們帶來了啟發,並期待看到世界各地的客戶如何利用這些技術進行建構。

梅賽德斯-奔馳正在 Azure OpenAI 服務的支援下,為駕駛員創新車內體驗。升級後的「Hey Mercedes」功能比以往更加直觀和對話。畢馬威 (KPMG)是一家全球專業服務公司,利用我們的服務來改善其服務交付模式、實現智慧自動化並增強編碼生命週期。Wayve使用 Azure 機器學習和 Azure 的 AI 基礎設施訓練用於自動駕駛的大規模基礎神經網路。微軟合作夥伴SymphonyAI推出 Sensa Copilot,使金融犯罪調查人員能夠減輕非法活動對經濟和組織造成的負擔。透過自動收集、整理和匯總財務和第三方信息,Sensa Copilot 可以識別洗錢行為,並促進調查人員快速有效地進行分析。了解所有 Azure AI 和 ML 客戶案例。

技術丨思科的 NVMe-oF 的部署錦囊都在這裡了

技術丨思科的 NVMe-oF 的部署錦囊都在這裡了
思科聯天下
今天就來看看如何選擇合適的 NVMe-oF 技術,以及思科的解決方案和不同金融情境下的建議。

對於計劃升級基礎設施以支援 NVMe-oF 的金融業 IT 架構師來說,主要問題是採用何種技術架構。 自然,答案將取決於他們當前基礎設施的內容,以及他們對未來的計劃和預算。

另一個關鍵因素是時機。 NVMe/RoCEv2 目前顯示出潛力,但在準備好可靠地承擔企業級關鍵工作負載之前,它可能還需要幾年的時間來發展。 當技術成熟時,NVMe/TCP 看起來也可能提供出色的性價比,但這同樣需要幾年的時間。

目前,大多數 IT 架構師得出結論,FC 為企業關鍵任務工作負載提供了最成熟的資料傳輸協議,使 NVMe/FC 成為正確的儲存網路架構選項。

複雜的協定棧不是儲存的最佳選擇

NVMe 協定比 SCSI 協定更有效的原因之一是 NVMe 的協定堆疊明顯更簡單。 協定堆疊的簡化性也非常重要,因此我們可以比較不同的 NVMe 結構的協定堆疊。 光纖通道、RoCEv2 和 TCP 的堆疊在下面的儲存 Fabric 協定全棧圖中可以看到差異。

IP/乙太網路相對於光纖通道的複雜性是顯而易見的。 協定中有幾個關鍵問題導致了這種複雜性:乙太網路和 IP(以及 TCP/UDP)在比光纖通道 FC 更獨立的層中實現傳輸管道。 IP 網路的設計初衷是必須支援具有數十億個節點的全球範圍位址分配和路由,需要多個複雜的層面和演算法支援。 光纖通道 FC 是為資料中心規模設計的,有其自身的複雜性,但比 IP 的全球規模要簡單得多。

乙太網路是在網路早期作為一種最佳共享介質開發的。 該協議演變了多種用於避免環路、快速地址學習等的零碎機制。 多年來,流量控制逐漸加強。 相較之下,光纖通道的開發人員能夠從這些早期的經驗教訓中吸取教訓,從而創建一個整體上更一致的協定。

對協定棧的要求。 光纖通道一直專注於高級資料中心用例,因此沒有朝向更大的規模發展。

在這裡承認TCP 和RoCEv2 堆疊的複雜性並不一定會增加微不足道的延遲;許多堆疊複雜性由啟用RDMA 的專用NIC 或TCP offload 在「硬體」 中處理(儘管通常涉及基於ASIC 的處理器核心)引擎 。 但複雜的堆疊在實際部署中會轉化為配置管理、互通性、故障排除與分析等多方面的挑戰。

IP/乙太網路複雜性的遺留問題代表了優質、無損環境中的挑戰:設備的預設行為以及支援人員的經驗和培訓主要面向主流市場。 雖然應該可以利用一些高級操作來配置乙太網路和 IP 設備,但這種操作不是正常的預設設置,通常也不是網路維運中不同角色的能力所及。 相較之下,光纖通道始終被設計為簡單的高可用網絡,這在 NVMe 環境中和幾十年來在 SCSI 環境中一樣都是如此。

新堆疊建立新的安全目標

在光纖通道 SAN 中維護高價值儲存資產的優勢之一是此類結構難以透過 IP 網路存取。 從 IP 協定到穩定的光纖通道協定棧,根本沒有路徑。 攻擊者無法透過 IP 發送光纖通道訊框來探測 SAN。 因此,經常出現的小安全漏洞不會轉換為儲存卷的零日漏洞。 複雜且相對未經驗證的 RoCEv2 和 TCP 堆疊開闢了新的威脅面,這些威脅面相對可透過 IP 訪問,從而增加了整個組織 IP 網路中安全機制管理的複雜性。

企業儲存架構遷移的考慮

NVMe over Fibre Channel 提供光纖通道傳輸的效能和穩健性,以及在同一基礎架構上同時運作 FCP 和 FC‑NVMe 協定的能力。 這種雙協定方法使 IT組織能夠將其儲存磁碟區從 SCSI 順利過渡到 NVMe,有了 NVMe over Fibre Channel,當組織開始採用 NVMe 時,無需推倒和取代 SAN,也無需創建昂貴的新基礎設施。 雙協定 HBA 和驅動程式堆疊意味著每個儲存應用程式都可以根據需要逐步遷移。 SCSI 資產可以逐卷從 SCSI 遷移到 NVMe。 低風險的效能敏感磁碟區可以先遷移,風險敏感的捲可以保留到以後。 此外,可以在頂級企業陣列上建立和維護關鍵資產的主副本,同時可以將營運副本發佈到相同 SAN 中的低成本陣列,以供其他應用程式使用。

金融業應用可以透過多種方式受益於 NVMe 技術。 所以,建議路線圖應該適用於多種 NVMe 解決方案實施。

決定部署哪種類型的NVMe over Fabrics 協定取決於應用,您的資料中心技術設施能力以及這些應用程式對NVMe over RoCE、NVMe over FC 或NVMe over TCP的準備情況,完善的解決方案將支援所有這些協定 ,

思科針對 NVMe-oF 部署的建議

建議NVMe/FC 協定和SCSI/FC 協定使用相同的光纖通道基礎設施,並使用不同的VSAN 來保持NVMe 和SCSI FC 流量之間的分離, NVMe/FC 提供更高的效能和更好的錯誤復原( SLER),目前光纖通道速度為64G,128G 標準正在研究中。

整體的方案示意如下:

Cisco MDS 提供豐富的基於ASIC 的NVMe/FC 分析功能,以及用於進一步分析NVMe 幀的專用附加NPU,目前基於以太網技術的NVMe over ROCEv2 和NVMe over TCP 還沒有基於晶片級別的可以分析NVMe 幀的 能力。

思科的 MDS SAN 解決方案能提供對 NVMe/FC 完整的支援

這是客戶在涉及 SAN 的對話中最常見且最關心的問題。 Cisco MDS SAN 完全支援 NVMe。

•透明支援 —— 無需額外的硬體/指令
•可與任何目前使用 Cisco NX-OS 8.x 版本的 16G/32G 交換矩陣交換器或目前 Cisco MDS 9700 16G/32G 模組搭配使用
•無需額外許可證
•無需額外功能即可識別 NVMe 指令

針對 NVMe 的整體部署方案,思科提出了 NVMe-Anywhere 整體解決方案

此方案建議通常 NVMe/RoCEv2 使用無損乙太網路部署在機架內, 流量工程透過 DSCP、PFC、ECN、DCQCN、IB/CNP 功能進行管理,以發揮 NVMe/RoCEv2 的最佳效能。 對 NVMe/RoCEv2 進行故障排除需要了解 Infiniband TH 協定。 NVMe/RoCEv2 不能用於長距離(NVMe/TCP 是更好的選擇),因此在一部分場合可以部署 NVMe/TCP 解決方案。 採用思科的N9K 解決方案實現NVMe/RoCEv2和NVMe/TCP的同時,N9K支援FC/FCoE 的特性,配合思科MDS 交換器可以實現全端全連通的NVMe over Fabric 資料中心解決方案,實現真正的NVMe-Anywhere 才是客戶現實環境的最佳選擇,同時相容於現有SAN 環境,實現無縫遷移,多層存儲,新舊設備共存,充分體現投資保護。

在思科 NVMe-Anywhere 整體解決方案下,思科提出針對 NVME-oF 的選擇建議:

•將企業級關鍵任務應用程式部署在 NVMe/FC 光纖通道環境中;
• 關鍵業務的儲存遷移可以在統一的 FC 結構上直接進行,從 SCSI 遷移到 NVMe/FC;
• 對於某些考慮較低成本或較長距離需求的 NVMe 儲存資料流量,可以使用 NVMe/TCP ;
• 針對 cloud native 相容的部分應用場景,可以考慮採用 NVMe/RoCEv2 作為 DAS 替代,目前狀態下流量應盡可能限制在機架層級(低於 TOR 交換器);
• 儲存網路要具備 NVMe 流量的可視分析能力;
• 透過統一的融合管理平台管理混合結構 (Ethernet/FC) 。

綜上,在目前的階段下,針對金融業的應用特點,大部分使用情境以確保關鍵業務的可靠性和安全性為首要目標。 因此,選擇成熟、穩定、安全的 NVMe/FC 技術作為關鍵業務場景的首選,對於非關鍵業務場景可以考慮其他類型的 NVMe-oF 技術。 思科公司憑藉完備的產品線和經驗豐富的技術支援能力,可以幫助金融業客戶採用 NVMe 技術支援各種類型的應用,實現 NVMe-Anywhere。

1V0-21.20:Associate VMware Data Center Virtualization

考試 1V0-21.20:關聯 VMware 數據中心虛擬化
語言:英語

問題數量:51

格式:單項選擇和多項選擇,監考

期間:135 分鐘

及格分數:300

通過分數- VMware 考試的評分範圍為 100-500,確定的原始分數縮放至 300。除了評分問題外,您的考試可能還包含不評分問題,這是標準測試實踐。您不會知道哪些問題不計分,您的考試結果將僅反映您在計分問題上的表現。

價錢:125 美元
考試指南
關聯 VMware 數據
中心虛擬化
考試詳情
VMware 數據中心虛擬化助理考試 (1V0-21.20),獲得 VMware 認證技術助理 –
數據中心虛擬化 2023 (VCTA-DCV 2023) 認證是一項包含 51 項的考試,使用分級考試的及格分數為 300 分
方法。 考試時間為135分鐘。
考試交付
這是通過 Pearson VUE 提供的監考考試。 欲了解更多信息,請訪問 Pearson VUE 網站。
認證信息
有關實現要求和建議的詳細信息以及完整列表,請參閱 VMware
學習服務 – 認證網站。
最低資格候選人
最低資格候選人具有操作 vSphere 的基本實踐經驗。 最低合格候選人也
擁有 vSphere、客戶操作系統以及存儲、網絡和硬件知識的應用知識。
考試部分
VMware 考試藍圖部分現已標準化為以下七個部分,其中一些部分可能不包含在
期末考試藍圖取決於考試目標。
第 1 節 – 架構和技術
第 2 部分 – 產品和解決方案
第 3 節 – 規劃和設計
第 4 部分 – 安裝、配置和設置
第 5 節 – 性能調整、優化和升級
第 6 節 – 故障排除和修復
第 7 節 – 行政和運營任務
如果下面的列表中缺少某個部分,請注意,這是因為考試沒有該部分的可測試目標。 這
測試活動結束時,您的分數報告中可能會引用客觀編號,以便在以下情況下進行進一步準備:
需要重新參加考試。

數據表 | 2
關聯 VMware 數據中心虛擬化
本考試包含的部分
第 1 節 – 架構和技術
Objective1.1:確定物理資源如何呈現給多個虛擬機。
目標 1.2:確定如何在多個虛擬機之間共享虛擬資源。
目標 1.3:識別 1 類和 2 類虛擬機管理程序的示例。
目標 1.4:確定 vSphere 解決的業務挑戰。
目標 1.5:識別 vSphere 環境的組件。
目標 1.6:識別 vSphere 虛擬網絡組件和類型。
目標 1.7:確定 vSphere 存儲訪問協議的特徵。
目標 1.8:確定 vSphere 存儲技術的特徵。
目標 1.9:識別不同虛擬機文件的用途。
目標 1.10:確定可以在虛擬機上運行的操作系統類型。
目標 1.11:確定虛擬機快照、克隆和模板的用例。
目標 1.12:了解 vSphere vlVlotion 和 Storage vMotion 技術的功能
目標 1.13:確定 vSphere vMotion 和 Storage vMotion 技術的用例
目標 1.14:確定 vSphere High Availability 和容錯的特徵。
目標 1.15:確定高可用性和災難恢復的用例。
目標 1.16:了解 VMware Distributed Resource Scheduler (DRS) 的功能。
目標 1.17:給定 DRS 分數,確定其含義。
目標 1.18:確定增強型 vMotion 兼容性 (EVC) 的用例。
第 2 部分 – VMware 產品和解決方案 – 本部分沒有可測試的目標
第 3 節 – 規劃和設計 – 本節沒有可測試的目標
第 4 部分 – 安裝、配置和設置
目標 4.1:確定虛擬交換機配置選項。
目標 4.2:確定如何配置不同類型的數據存儲。
目標 4.3:了解如何配置 vSphere HA。
目標 4.4:了解如何配置 vSphere DRS。
目標 4.5:了解如何配置 EVC。
第 5 部分 – 性能調整、優化、升級 – 本部分沒有可測試的目標
第 6 節 – 故障排除和修復 – 本節沒有可測試的目標
第 7 節 – 行政和運營任務
目標 7.1:了解如何創建和管理 VIVI 快照。
目標 7.2:確定如何管理 VIVI 模板和克隆。
目標 7.3:確定配置虛擬機時的注意事項。
目標 7.4:確定可對不同清單對象執行的選項。

數據表 | 3
關聯 VMware 數據中心虛擬化
目標 7.5:識別基於角色的用戶管理的概念
目標 7.6:識別影響 vSphere 的虛擬網絡問題。
目標 7 .7:識別影響 vSphere 的虛擬存儲問題。
目標 7.8:確定監控警報、任務和事件的目的。
“目標 7.9:確定如何監控 vSphere 集群和 SDRS 集群。
目標 7.10:確定如何執行和監控 vMotion。 Storage vMotion 和冷遷移。
目標 7.11:給定 vSphere 環境。 確定如何使用性能圖表來監控環境。
目標 7.12:Identify the purpose for VMware Tools.