博客專欄

        EEPW首頁 > 博客 > 李飛飛對話王建民 | 云原生數據庫:重啟冰山下的戰爭

        李飛飛對話王建民 | 云原生數據庫:重啟冰山下的戰爭

        發布人:數據派THU 時間:2021-09-19 來源:工程師 發布文章

        來源:阿里研究院

        本期嘉賓:

        李飛飛 阿里巴巴集團副總裁、達摩院數據庫與存儲實驗室負責人

        王建民 清華大學軟件學院院長

        安筱鵬 阿里研究院副院長

        2020年9月17日,美國數據庫公司Snowflake上市,市值一度超過1000億美元,但其2019年銷售額不到3億美元。

        2020年微軟取代了Oracle,歷史上第一次站在了數據庫全球市場的榜首地位。

        亞馬遜創始人貝索斯曾說,“The real battle will be in databases”(未來真正的戰爭在數據庫)。

        2020年《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》提出,數據是新的生產要素。數據作為一種新要素如何創造價值?數據如何被采集、被存儲、被處理、被加工?

        數據庫是數字時代最底層的技術,是數字技術體系中人們看不到的水面下的冰山,云原生正在重構數據庫市場的競爭格局。

        數據庫技術的50年:經歷了如同移動通信從1G到5G的跨越

        李飛飛

        阿里達摩院數據庫與存儲實驗室負責人

        數據庫是數字經濟里最重要的基石,人們能感受到移動通信、智能手機、AI日新月異的變化,但數據庫好像幾十年如一日沒有變化。從數據庫從業者角度看,在過去的50年,數字時代最底層的數據庫技術一直在持續創新與迭代,經歷了如同移動通信技術從1G到5G的跨越。

        數據庫英文叫Database,即Data的Base,也就是數據基地。相當于Air Base,空軍基地一樣。在Air Base里有各種飛機,波音、空客和各類戰斗機。數據也一樣,今天的各類圖片、視頻、結構化和非結構化的數據,都需要有一個“基地”,一個 database。

        我們在實踐上觀察到的趨勢是:

        第一,數據規模不斷增長。今天,數據規模已達到 ZB級增長,數據還會持續爆發式增長。

        第二,數據日益多樣化。各行各業正在不斷匯聚更加多樣化的數據,從趨勢上看,非結構化數據占比會越來越高,未來幾年,非結構化、半結構化數據占比可能會超過80%。

        第三,云計算改變數據庫競爭格局。云計算的核心就是用虛擬化的技術將計算資源、存儲資源等資源池化,帶來數據庫向云原生系統演進的新趨勢。到2023年,全球各行各業75%的數據庫都將以云上部署方式運營,全球數據庫產業結構正在加速重構。

        王建民

        清華大學軟件學院院長

        麥肯錫的報告中曾就哪個行業的數據最多給出過一個判斷:制造業是各行業中數據量最多的行業。

        在民航領域,波音737一次跨國旅行,通過傳感器采集的數據量達到4TB,首都機場一年起落幾十萬架次客機,我們可以設想能有產生多少數據。

        在風電領域,風電設備7×24小時源源不斷地產生數據。根據風電的國際標準,每秒鐘要采集200多個參數,規模大概是225k。一臺風機如果一年運行8000個小時,積累的數據量大概是6TB。

        工業體系中積累了大量的數據,從數據來源上看有兩類來源:一類是傳統信息化系統使用的“慢數據”,就是就靠人輸入單據形成的數據。這些數據含金量高、但規模不大,增長相對較慢;另一類是來自物聯網“快數據”,特別是來自工業物聯網的數據,工業成為工業大數據的主體。

        從美Snowflake上市高估值,看數據庫的未來

        安筱鵬

        阿里研究院副院長

        2020年9月17日,一家創立于2012年的Snowflake數據庫公司在美國上市,2019年Snowflake的銷售不到3億美元,但市值超過750億美元。Snowflake上市是2019年美國IPO融資規模最大公司,也創造了軟件公司IPO的最高記錄。一向對科技公司IPO審慎的巴菲特,也參與到項目中。

        Snowflake的高估值,反映出了全球數據庫產業的什么趨勢?

        李飛飛

        阿里達摩院數據庫與存儲實驗室負責人

        可以看到,Snowflake經歷了三個階段:

        第一階段,Snowflake最初定位是以計算分析為主的分析型數據庫,開發了一個高并行處理數據庫引擎。

        第二階段,Snowflake演進到云原生的數據倉庫。即用云原生技術,推動存儲池化和計算池化,然后實現存儲計算分離,利用云原生技術構建下一代高彈性的云原生數據倉庫,主要還是以數據分析聚類等功能為主,但具備云原生這一鮮明特點。

        云原生帶來的好處是,企業在決定要上不上云,或者決定上云后使用什么樣的數據庫時,極大減少決策成本和使用成本。因為云原生提供了按需按量使用、按需按量付費的新模式。就像今天家里接水電煤,一個老百姓在新房裝修的時候不接自來水,而是要去自己挖井。要自己挖井,那這個決策成本將會非常高。

        第三階段,在Snowflake上市前后,開始轉型為一個云上的數據平臺。

        Snowflake希望構建一個一站式的數據管理全生命周期服務體系,這個平臺不僅是傳統關系型數據庫的交易服務,以及數據倉庫提供的分析能力,而且建立一個從數據生產到集成、傳輸到備份、交易到分析、智能化應用和挖掘的一站式數據治理平臺。

        正因為是這個理念,讓大家看到了Snowflake可能代表了下一代云原生數據庫演進的方向,所以才會讓它的估值這么高。我非常認可Snowflake提出的這種云上數據平臺概念,也認為下一代云原生數據庫一定是一個一站式的、全生命周期管理服務平臺。

        安筱鵬

        阿里研究院副院長

        李飛飛把云原生數據庫服務比喻成自來水,還有人把它比喻成“買車”、“租車”或“打車”。“買車”,就是要自建系統,所有數字化硬件軟件自己來買;“租車”,就是以年、月周期鎖定資源、享受服務,周期比較長。這一商業模式再向前演進,資源鎖定的顆粒度更細、周期更短,就相當于“打車”,需要的時候按照小時去租。

        從這個角度去看,這相當于過去企業使用軟件是基于license進行購買(買車),之后演進到SaaS,即按年月采購訂閱服務(租車),再向前演進到DaaS,按照數據加工處理使用的數量實時計費(打車)。

        王建民

        清華大學軟件學院院長

        通過自己買車、租車,演變到今天打車,其實就是在提高數據資源開發利用的效率,同時降低成本、降低風險。

        今天,大家都看到數字時代到來帶來的好處,但也要看到進入數字時代的成本。數字時代的技術不僅讓大家好用,同時還要用得起,這才是真正驅動數字化變革的好技術。這樣的數字化變革才能從技術走向經濟,走到經濟社會深處。今天的數字技術革命,不完全是技術,而是需求牽引技術持續迭代。

        傳統數據庫的挑戰與云原生數據庫的價值

        李飛飛

        阿里達摩院數據庫與存儲實驗室負責人

        大數據時代,傳統數據庫面臨兩大挑戰。

        一是系統面臨持續擴容的挑戰。傳統數據庫是在馮·諾依曼架構下發展而來的,其核心特征是計算、存儲等資源的緊耦合。當業務需要的資源超過了底層系統所能提供的容量后,就需要對現有系統進行不斷擴容。

        二是系統永遠存在宕機的風險。業務運行中由于各種原因會出現錯誤,作為核心支撐在線業務的數據庫出問題,業務系統就無法正常運行了。數據庫要高可用,要確保如果底層資源發生任何問題,數據庫可以實現切換,實現同機房不同服務器、不同虛擬機之間的切換,保證上層業務系統對底層硬件資源的錯誤或者風險的無感知。

        面對這兩個核心挑戰,云原生帶來什么變化?就是用虛擬化的技術將資源池化。

        去年疫情暴發后,釘釘業務量突然爆發,尤其是很多學校老師學生利用釘釘在線上課,在線教育的需求對業務來說就像一樣突然到來的洪峰。瞬間業務洪峰出現,現有系統容量如果不能處理,發生雪崩式的災難后果。

        云原生數據庫系統就是將存儲計算分離,將存儲池化、計算也池化。就像以前每家每戶各打一個水井(相當于建立獨立的數據庫);現在,把這些水井連起來變成北京市自來水廠(相當于存儲資源池、計算資源池)。通過在技術上把存儲計算分離,獲得彈性的高可用,為業務提供不間斷服務。

        去年,我們為釘釘快速擴容了相當于幾千臺服務器的軟硬件資源,但是我們數據庫系統并不需要做像傳統數據庫那樣進行復雜且耗時的擴容部署,而是通過層級分離、彈性解耦的方式來更好地滿足業務需要。這樣在“洪峰”過去以后,我們又能夠快速的將資源釋放,大大提升資源使用效率。

        在城市大腦里面,需要在云原生能力上構建更加智能化的數據處理能力。在城市里,數據的種類和來源很多,有各種各樣傳感器、攝像頭上搜集的數據。一方面,我們要做實時交易,即+1-1記賬式的數據處理,要求準確性、可靠性、穩定性、高可用;另一方面,還要做復雜的計算和分析,比如實時智能化交互式分析、處理非結構化數據等。這時,我們從云原生數據庫衍生出來云原生數據倉庫,面向物聯網、互聯網的原生多模數據庫等多種形態,來更好支持業務做實時數據分析決策。

        在北京,整個公交系統是由啟迪公交來提供服務,每次乘客上車刷卡,就涉及到實時計費,以及后臺數據實時分析處理。北京公交業務早晚高峰期間業務量很大,其它時間業務容量壓力沒那么大。那是不是要按照峰值來設計你整個系統資源使用呢?當然可以,但這樣肯定會帶來很多資源浪費。如使用云原生的技術,實現資源池化、彈性高可用,應可以快速匹配業務需求,需要多少資源釋放多少資源。

        軟硬件解耦對數據庫技術有什么啟示?

        安筱鵬

        阿里研究院副院長

        從傳統數據庫到云原生數據庫,最大的技術變革這一是存儲和計算的分離,是技術的不斷解耦,是技術的解構與重組。

        如果看過去IT產業發展的60年,從大型機、小型機、計算機、功能手機、智能手機,到今天的傳統汽車到智能汽車,底層技術演進的一個基本邏輯是,硬件和軟件解耦。過去一個硬件對應的一個操作系統、一個軟件,正通過軟硬解耦的方式重構技術和產業體系。過去60年發生IT領域的技術路線,正在向OT(控制技術)、DCS、自動化等領域拓展。

        從軟件本身看,數據庫也在走同樣的解耦、重構的道路和模式。從技術趨勢來說,計算跟存儲的分離,是云原生數據庫技術變革的重要趨勢。

        李飛飛

        阿里達摩院數據庫與存儲實驗室負責人

        解耦是理解今天云原生數據庫的關鍵詞。

        作為一家企業或者用戶,部署一套IT系統,就需要部署一個數據庫。在傳統架構下,企業要按照可預知的一段時間業務的峰值來設計系統容量和冗余,進行安裝部署。比如中國****或者北京市工商****,一年364天都沒問題,但如果有一天撐不過去,就會發生了系統性災難。這一天的業務需求超過系統所能處理的容量,那全年也就只能打0分了。

        這一模式帶來的問題和挑戰是高成本和低使用效率,因為大部分時間系統是閑置的、資源是錯配的。技術解耦很好地解決了這個問題。

        比如,我用虛擬化的技術,通過虛擬機、容器等技術,將資源可以快速部署和調用。當真正需要時,可以迅速把系統處理能力提升到十年一遇、百年一遇的水平。

        這有點像洪水來了,快速地堆沙袋;洪水退去,沙袋可以快速去掉。今天,我們在現實中堆沙袋還是很痛苦的,效率很低、成本很高,但在云原生數據庫系統里,這是智能自動化的過程,可以快速調動資源;業務峰值過后,可以快速釋放資源,做到了對系統資源最大程度調動和使用效率。反過來對業務系統來講,運維的簡易化程度和效率也大大提升。

        工業互聯網時代:數據庫怎么變?

        王建民

        清華大學軟件學院院長

        萬物互聯的確是我們這個時代的主要特征。互聯之后的結果是連進來很多數據,產生了很多數據。

        傳統的信息化系統中,人們關注數據存儲、加工、處理,主要在后臺,面臨的挑戰是如何在一個大的蓄水池中解決數據問題;當物聯網來了之后,數據庫的架構體系和業務模式變了,面臨的挑戰是在各種“端”中如何處理數據問題,需要解決的是前端的涓涓細流怎么能匯聚,思考的問題是,如何在不同“端”的節點上,做一些實時處理、優化。

        物聯網不僅帶來數據庫應用場景的變化,最終還將帶來數據庫處理技術的變化。

        可以看出,今天驅動數據技術發展有兩個原動力,一是需求應用,應用場景驅動數據庫技術的發展,像物聯網從硬件技術來推動發展,會衍生出來新的應用;一是技術進步,軟件、硬件、機器、網絡供給能力在推動數據處理技術的發展。

        驅動數據庫發展的動力是什么?

        李飛飛

        阿里達摩院數據庫與存儲實驗室負責人

        我在美國大學當教授時候,一直認為,技術變革一直推動人類文明進步。進入產業界后,我越來越覺得技術變革推進人類文明進步沒有錯,但有個先決條件,就是商業需求和進步激發了技術進步,技術再推進人類文明進步。有強烈業務需求會激發人類對新技術進步的渴望。

        用“買車”、“租車”、“打車”這種使用方式來描述云原生、數據庫的演進非常有道理,核心是如何優化資源配置效率,解決資源閑置或資源配置錯位的問題。

        傳統商業型數據庫,按照傳統業務規模來評估需求并進行部署,這必然會帶來資源閑置、資源錯位和匹配錯位。使用云原生架構以后,企業基于業務需求、經濟發展的需要,牽引技術向這個領域去開拓創新,帶來了原生數據庫技術日新月異的發展。

        百度百家:http://navo.top/jyyuQv

        新浪財經:http://navo.top/vu2QZz

        每日經濟新聞:http://navo.top/MZBRRf

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 水城县| 克拉玛依市| 鄂尔多斯市| 永靖县| 九龙坡区| 朝阳区| 淮安市| 乳山市| 盐山县| 油尖旺区| 华池县| 荔波县| 聊城市| 类乌齐县| 城口县| 阿图什市| 禹州市| 阳山县| 交城县| 庆元县| 定兴县| 蛟河市| 怀化市| 文昌市| 万州区| 中方县| 汶川县| 长沙县| 西峡县| 云浮市| 江陵县| 双鸭山市| 萝北县| 武安市| 宝鸡市| 邵阳市| 杭锦后旗| 灌阳县| 繁峙县| 莎车县| 青阳县|