2024 年資料工程:預測

當 2024 年正式開始時,我意識到我對數據格局的發展方向有一些想法,其他人可能會感興趣。

這是我的「預測」的回顧。

我承認,這是我相信會發生的事情和我希望看到發生的事情的混合體,但作為人類,有時很難區分兩者。

為了使清單更易於使用我將其分

為兩個不同的部分:資料湖和服務層

資料湖
我相信今年我們將在分析、OLAP 和資料工程領域看到以下內容:

從 Hadoop 繼續前進
等工具變得非常流行,JVM 和 C/Python 在分析領域的完全統治地位開始出現裂痕。我相信 JVM 以外的創新步伐將會加快,將現有的基於 hadoop 的架構送入遺留抽屜。

雖然大多數公司已經不直

接使用Hadoop ,但目前大部分的技術仍然建立在 Hadoop 的鷹架上:Apache Spark 完全依賴Hadoop 的 I/O 實作來存取其底層資料。許多 Lakehouse 架構要么基於Apache Hive 風格的表,要么更直接地基於Hive Metastore及其接口,以在其存儲層之上創建表格抽象。

現代化數位基礎設施

來源:XKCD,依據
奧茲·卡茨 (Oz Katz) 稍作修改。 Cloudera 的標誌是的商標。
雖然 Hadoop 和 Hive 本質上並不壞,但它們不再代表最先進的技術。這次,它們完全基於 JVM,如今 JVM 的效能令人難以置信,但如果您希望充分利用CPU 的最佳效能,而 CPU 的速度並沒有變得更快,那麼它們仍然不是最佳選擇。

此外,Apache Hive 透過抽象 Hadoop 的底層分散特性並在分散式檔案系統之上公開熟悉的 SQL( -ish )表抽象,標誌著大數據處理方面向前邁出了一大步,它確實開始顯示出它的年齡和規模。

我相信今年我們將看到

從這些根源出發:Databricks 已經有了 Apache Spark 的無 JVM 實作(請參閱:Photon),而新的表格式(例如 Apache Iceberg)也正在遠 卡塔爾 WhatsApp 號碼數據 離我們集體的 Hive 根源通過實現表目錄的開放規範,以及為 I/O 層 提供更現代的方法。

元商店之戰隨著 Hive 緩慢而

穩定地成為過去,以及 Delta Lake 和 Iceberg 等 Open Table 格式變得無處不在,任何資料架構中的核心元件——「元儲存」也正在被取代。物件儲存或檔案系統上的檔案及其代表的表格和實體之間的間接層。

雖然表格格式是開放的,但它們的元儲存似乎變得越來越專有和鎖定。

Databricks 正在積極推動使用者使用自己的 也有自己的目錄實作。這些不能互通,並且在許多方面成

WhatsApp數據

為希望利用新表格式提供的開放

性的用戶鎖定供應商的一種手段。我相信,在某個時刻,鐘擺會擺回來——因為用戶將推動更加標準化和靈活性。

我的共同創辦人Einat Orr 博士和我 先規劃你的內容解他們在社群 寫了一篇關於元儲存供應商鎖主題的全面分析,我強烈建議您閱讀。

大數據工程作為一種實踐將會成熟
隨著分析和資料工程變得越來越普遍,集體知識的品質不斷增長,最佳實踐也開始出現。

2023 年,我們看到促進資料工

程結構化開發-測試-發布方法的工具變得更加主流。dbt現已非常流行並已建立。從遠大前程、蒙特卡羅以及其他品質和可觀測性平台等工具的成功來看,可觀測性和監控現在也被視為不僅僅是錦上添花。 LakeFS(您目前正在閱 迴聲資料庫 讀其部落格)提倡對資料本身進行版本控制,以允許類似 git 的分支和合併,從而建立強大的、可重複的開發-測試-發布管道。

此外,我們現在也看到每個人都在推廣資料網格和資料產品等模式,從Snowflake和Databricks到新創公司的湧現,以填補圍繞這些模式仍然存在的工具空白。

我相信到 2024 年,我們將看到大量

旨在幫助我們實現這些目標的工具。從以資料為中心的監控和日誌記錄到測試工具和更好的寫入-審核-發布選項——軟體工程實踐還有很多工作要做,現在是彌合這些差距的最佳時機。

服務層
雲端原生應用程式將把大部分狀態轉移到物件存儲
2023 年底,AWS 宣布了其核心儲存服務 S3 的最大功能之一——幾乎是自 2006 年推出以來的最大功能之一。

該功能名為“ S3 Express One-Zone ”,允許用戶使用與 S3 提供的相同的*標準物件儲存 API,但存取資料時具有一致的個位數毫秒延遲。 API 呼叫成本大約是一半。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端