如今,許多組織使用資料湖和資料倉儲的複雜組合來建立資料驅動流程的基礎。他們運行並行管道來處理計劃批次的數據或即時串流數據,通常會添加用於分析、商業智慧和數據科學的新工具。
Databricks旨在降低這種複雜性。 Databricks 架構以單一雲端原生平台而聞名,涵蓋資料工程、資料管理和資料分析的所有領域。
繼續閱讀以了解 Databricks 的所有架構
複雜性以及它如何幫助您的團隊利用組織中資料的潛力。
什麼是 Databricks 架構?
Databricks 架構簡單且雲端原生。它旨在輕鬆地將客戶的 Databricks 帳戶與 AWS、Google 或 Azure 等主要雲端供應商的當前雲端帳戶整合。
Databricks 平台用途廣泛,每一步都使
用開源解決方案,以適應團隊探索和處理資料的多種不同方式,所有這些都在一個流暢且統一的平台內,並具有Autoloader等方便的功能。
從技術上講,Databricks 是一個混合平台即服務 (PaaS) 通用且與資料無關的平台。使用者通常在自己的雲端服務供應商帳戶中安裝單一租用戶資料平面(虛擬網路和運算),而多租用戶控制平面在 Databricks 內運行,因此稱為混合 PaaS。這樣,您就可以獲得 PaaS 平台的優勢,同時保留對本地資料處理叢集的控制。
Databricks 與資料無關是什麼
意思?本質上,該平台並不關心您在其上處理哪些數據。您可以放心地添加原始程式碼、業務邏輯和資料集,而不會遇到建議「截斷使用者 ID」或類似內容的訊息。
架構
架構的整體 瑞士 WhatsApp 號碼數據 概述。來源:Databricks 文檔
Databricks 架構的元件
此設計有兩層:控制平面和資料
平面(目前稱為計算平面)。
控制平面
控制平麵包含 的後端服務,例如用於帳戶管理和工作區的圖形介面和 REST API。您可以在那裡找到 Databricks 為您的帳戶處理的所有後端服務。這也包括筆記本命令和其他幾個工作區自訂,它們保存在此處並靜態加密。
資料平面(目前稱為計算平面)
資料平面(目前稱為計算平面)負責外部/客戶端通訊和資料處理。
請注意,雖然通常將客戶的雲端帳戶用於資料平面和資料存儲,但 還支援資料平面位於其雲端且客戶的雲端帳戶包含資料儲 語對於建立和維持強大的品牌影 存的平台架構。
計算平面基本上是處理資料的地方。大多數 計算使用您的 AWS 帳戶(傳統運算平面)中的運算資源。這是指您的 AWS 帳戶的網路及其關聯的運算資源。 使用傳統的筆記本和作業計算平面,以及專業和標準Databricks SQL倉庫。
安全架構的主要特性
優先考慮安全性,採用加密、存取控制、資料治理和架構安全措施等功能來保護和確保資料完整性。
Databricks 安全架構旨在提供強大的資料保護機制,同時確保平台完整性。該設計包括各種安全措施和最佳實踐,以保護敏感資料 迴聲資料庫 並防止對資料湖、資料倉儲或 Lakehouse 進行不必要的存取。
安全架構的基本元件如下:
存取控制具有強大的存取控制
方法來管理使用者權限並防止未經授權的存取。基於角色的存取控制 (RBAC) 和細粒度的存取控制讓團隊可以限制使用者權限並有效管理資料存取。
包含多種用於不同類型安全性物件的存取控制技術。
例如,對工作區級安全物件的存取會透過存取控制清單進行管理。您可以使用它們來控制誰有權存取工作區物件(資料夾、筆記本、實驗和模型)、叢集、池、作業、Delta Live Tables 管道、警報、儀表
板查詢和 SQL 倉庫所有工作區管
理員使用者以及具有授權的使用者都可以管理存取控制清單。
對於帳戶級安全項目,Databricks 提供基於帳戶角色的存取控制。您也可以使用Unity Catalog或 Hive 元存儲表存取控制來管理對資料安全性物件的存取。
Databricks 也提供可以直接指派給使用者、服務主體和群組的管理角色和權限。請注意,存取控制需要高級計劃或更高版本。