博客專欄

        EEPW首頁 > 博客 > 獨家 | Zero-ETL, ChatGPT以及數據工程的未來(2)

        獨家 | Zero-ETL, ChatGPT以及數據工程的未來(2)

        發布人:數據派THU 時間:2023-07-17 來源:工程師 發布文章
        OBT和大型語言模型

        圖片 

        圖片


        它是什么:目前,業務利益相關者需要向數據專業人員表達他們的需求、指標和邏輯,然后數據專業人員將其全部轉換為 SQL 查詢甚至儀表板。該過程需要時間,即使數據倉庫中已存在所有數據也是如此。更不用說在數據團隊最喜歡的活動列表中,臨時數據請求的排名介于根管和文檔之間。


        有一群初創公司旨在利用像 GPT-4 這樣的大型語言模型的力量,通過讓消費者在平滑的界面中“查詢”自然語言中的數據來自動化該過程。


        圖片圖片至少在我們的新機器人霸主使二進制成為新的官方語言之前


        這將從根本上簡化自助式分析過程,并進一步使數據大眾化,但考慮到更高級分析的數據管道的復雜性,除了基本的“指標獲取”之外,該問題很難解決。


        但是,如果通過將所有原始數據填充到一個大表中來簡化這種復雜性呢?


        這是本恩·斯坦西爾(Benn Stancil)提出的想法,他是數據領域最優秀和有遠見的作家/創始人之一。沒有人比他更能預見現代數據堆棧的消亡。


        作為一個概念,它并非那么遙不可及。一些數據團隊已經開始使用褒貶不一的(one big table, OBT)策略了。


        利用大型語言模型似乎可以克服使用OBT的最大挑戰之一,即在發現和模式識別方面的困難以及其完全缺乏組織性。對于人類來說,為他們的故事提供一個目錄和標記良好的章節是十分有用的,但人工智能并不在乎。


        優點:也許可以最終兌現自助式數據分析的承諾;快速獲得見解;使數據團隊能夠將更多時間用于釋放數據價值和構建,減少響應即席查詢的時間。


        缺點:是否自由過度?數據專業人員熟悉數據令人痛苦的怪癖(時區!什么是“帳戶”?),而在某種程度上,大多數業務利益相關者對此卻并不熟悉。我們是否受益于代議制而不是直接的數據民主?


        誰在推動它:Delphi和 GetDot.AI 等超級早期創業公司。像Narrator這樣的初創公司。更成熟的參與者正在做一些這樣的版本,如Amazon QuickSight,Tableau Ask Data或ThoughtSpot。


        實用性和價值釋放潛力:令人耳目一新的是,這不是一項尋找用例的技術。價值和效率是顯而易見的,但技術挑戰也是顯而易見的。這一愿景仍在構建中,需要更多的時間來制定。也許采用的最大障礙將是所需的基礎設施中斷,這對于更成熟的組織來說可能風險太大。


        數據產品容器


        它是什么:數據表是構建數據產品的數據的構建基塊。事實上,許多數據領導者將生產表視為他們的數據產品。但是,要將數據表視為產品,需要對許多功能進行分層,包括訪問管理、發現和數據可靠性。


        容器化已成為軟件工程中微服務運動不可或缺的一部分。它們增強了可移植性、基礎架構抽象,并最終使組織能夠擴展微服務。數據產品容器概念設想了數據表的類似容器化。


        數據產品容器可能被證明是使數據更加可靠和可治理的有效機制,特別是如果它們可以更好地呈現與數據基礎單元關聯的語義定義、數據沿襲和質量指標等信息。


        優點:數據產品容器似乎是更好地打包和執行四個數據網格原則(聯合治理、數據自助服務、將數據視為產品、域優先基礎結構)的一種方式。


        缺點:這個概念會讓組織更容易還是更難擴展其數據產品?對于許多這些未來數據趨勢,另一個基本問題是,數據管道的副產品(代碼、數據、元數據)是否包含值得數據團隊保留的價值?


        誰在推動它:Nextdata,由數據網格創建者Zhamak Dehgahni創立的創業公司。Nexla也一直在這個領域發揮作用。


        實用性和價值釋放潛力:雖然Nextdata最近才從隱身中脫穎而出,數據產品容器仍在不斷發展,但許多數據團隊已經看到了數據網格實施的成熟結果。數據表的未來將取決于這些容器的確切形態和執行。


        數據生命周期的無盡想象重構

        圖片 

        圖片圖片來自Unsplash, zero

        為了窺探數據的未來,我們需要回顧過去和現在的數據。過去、現在、未來——數據基礎設施處于不斷中斷和重生的狀態(盡管我們可能需要更多的混亂)。


        數據倉庫的含義與 Bill Inmon 在 1990 年代引入的術語相比發生了巨大變化。ETL 管道現在是 ELT 管道。數據池不像兩年前那樣無固定的形狀。


        隨著現代數據堆棧帶來的這些創新,數據工程師在決定數據如何移動以及數據消費者如何訪問數據方面仍然發揮著核心的技術作用。但有些變化比其他變化更大、更可怕。


        Zero-ETL這個術語似乎很有威脅,因為它(不準確地)暗示了管道的消亡,如果沒有管道,我們需要數據工程師嗎?


        盡管 ChatGPT 生成代碼的能力背后大肆宣傳,但這個過程仍然掌握在技術數據工程師手中,他們仍然需要審查和調試。大型語言模型的可怕之處在于它們如何從根本上扭曲數據管道或我們與數據消費者的關系(以及如何向他們提供數據)。


        然而,這個未來,如果它成為現實,仍然強烈依賴數據工程師。


        自古以來一直存在的是數據的一般生命周期。它被放出,它被塑造,它被使用,然后它被存檔(最好避免在這里糾纏于我們自己的消亡)。


        雖然底層基礎設施可能會發生變化,自動化會將時間和注意力轉移到右邊或左邊,但在可預見的未來,人類數據工程師將繼續在從數據中提取價值方面發揮關鍵作用。


        這并不是因為未來的技術和創新無法簡化當今復雜的數據基礎設施,而是因為我們對數據的需求和使用將繼續增加復雜性和規模。


        大數據已經并且永遠是一個來回擺動的鐘擺。我們在能力上向前飛躍,然后我們同樣迅速地找到一種方法來達到這些邊界,直到需要下一次飛躍。在這個循環中得到安慰——被需要是件好事。


        Shane Murray是這篇文章的合著者。請訂閱以將他的故事發送到您的收件箱。

        對數據質量的未來感興趣,請聯系蒙特卡洛團隊!


        原文標題:Zero-ETL, ChatGPT, And The Future of Data Engineering原文鏈接:https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 静海县| 曲阜市| 麦盖提县| 衡南县| 英德市| 宜宾市| 纳雍县| 东方市| 榆中县| 德钦县| 五指山市| 宁化县| 义乌市| 尚义县| 饶河县| 怀柔区| 吉水县| 疏附县| 海阳市| 剑阁县| 专栏| 大洼县| 新宁县| 平阳县| 从江县| 融水| 开原市| 沽源县| 永年县| 湘西| 娄烦县| 广平县| 聂荣县| 黑水县| 郴州市| 永吉县| 英超| 金昌市| 蕉岭县| 涿州市| 中方县|