如何提高機器學習管道開發的可重複性

MLOps 領域正在加速擴展。近年來,我們看到的 ML 產品和MLOps 工具比我們可能需要的還要多。

如今,有數百種工具試圖以不同的方式解決一系列問題,其中一些有望提供端到端解決方案。當資料從業者試圖選擇正確的工具集來使用時,這通常會讓他們感到困惑。

隨著 ML 領域變得更加複雜和深遠

我們需要開始追蹤許多元素——從資料到 ML 模型參數。這是 MLOps 面臨的最大挑戰之一。

MLOps 領域中原始碼控制工具的現況如何?以及如何選擇最適合工作的工具?

MLOps 景觀簡介
MLOps 顯然正在致力於標準化基於 ML 的產品世界。創造這個術語的谷歌對該領域做了一個很好的概

述,展示了我們在推出機器學

習產品時所需的大量工作和工具。

MLOps 景觀
來源:Google
看起來很複雜,不是嗎?

這一切都從配置模型、收集資料和準備資料開始,到向最終用戶提供產品時結束。

但數據從業者是否對所有這些

要素負責?並不真地。乍看該圖,您就會知道我們需要來自不同學科的人才,例如資料科學家、DevOps、軟體工程等。

儘管如此,作為資料從業者,我們需 荷蘭 WhatsApp 號碼數據 要了解全局和流程每個部分的重要性,以及 MLOps 的關鍵原則。

機器學習開發原則
MLOps 的原理對我們來說並不陌生,我們只需要將它們從軟體開發領域應用到 MLOps 領域。

那麼,如何實現 MLOps 迭代增量開發的聖杯呢?

這方面與另一種能力有關:再現性。

在嘗試 ML 模型時,我們希望能夠在流程的每個步驟中重複相同的實驗。

我在這裡的意思是,這條路非常明確:你設計一個產品,開發它,然後將它提供給你的用戶。

WhatsApp數據

但適當注意監控最終產品的效能

也很重要(這是迭代過程的向後部分)。它可以幫助您下次設計出更好的產品。

這使得可重複性成為 MLOps 團隊的關鍵目標之一。這也顯示了我們流程的成熟度,就像我們從軟體開發中了解到的 CI/CD 一樣。

在 MLOps 的世界中,我們建構的 攝影商業計劃:成功的基本步驟 可重複性實踐需要涉及許多元素:訓練程式碼、資料和 ML 模型,以及資料集和模型的不同參數。

可重複性是指讓團隊重複流程的

每一步,例如資料處理或模型訓練,並重複這些步驟,得到相同的結果。

既然我們了解了 MLOps 中原始 迴聲資料庫 碼控制的重要性,那麼我們該如何選擇最適合這項工作的工具呢?

2024 年 MLOps 工具的狀況

當我們開始研究lakeFS時,我們意識到資料工程是一個龐大的領域,而且它的不同部分往往會變得非常擁擠。 MLOps 也不例外。

我們經常收到這樣的問題:「您如何與該工具整合或如何從該工具獲取資料?」

要存取此報告的 PDF 版本,其中包含公司連結和所有類別的清單視圖,您也可以 按一下此處 (請注

意我們將需要一些聯絡資訊

要簡單地放大圖像,請立即單擊它
顯然,機器學習領域變得相當擁擠。由於我們是開源的,回饋社群對我們來說意義重大。我們決定對該領域的不同工具進行年度審查,以追蹤新的發展並檢查行業的發展方向。

看一下右側的第二列。 MLOps 工具在地圖上佔據了大量空間。有些人可能會說,到目前為止 MLOps 已經過度擬合了,因為有很多工具可以做類似的事情並承諾更多。真的很難理解是什麼讓他們與眾不同。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端