新聞中心

        EEPW首頁 > 設計應用 > 想要學好大數據需掌握這十二大技術

        想要學好大數據需掌握這十二大技術

        作者: 時間:2018-10-15 來源:網絡 收藏

          大數據是對海量數據進行存儲、計算、統計、分析處理的一系列處理手段,處理的數據量通常是TB級,甚至是PB或EB級的數據,這是傳統數據處理手段所無法完成的,其涉及的技術有分布式計算、高并發(fā)處理、高可用處理、集群、實時性計算等,匯集了當前IT領域熱門流行的IT技術。

        本文引用地址:http://www.104case.com/article/201810/392879.htm

          想要學好大數據需掌握以下技術:

          1. 編程技術

          編程技術是大數據學習的基礎,是一種強類型語言,擁有極高的跨平臺能力,可以編寫桌面應用程序、Web應用程序、分布式系統和嵌入式系統應用程序等,是大數據工程師最喜歡的編程工具,因此,想學好大數據,掌握Java基礎是必不可少的!

          2.命令

          對于大數據開發(fā)通常是在環(huán)境下進行的,相比操作系統,Windows操作系統是封閉的操作系統,開源的大數據軟件很受限制,因此,想從事大數據開發(fā)相關工作,還需掌握Linux基礎操作命令。真正的大數據工程師,linux命令是橫著寫很長,不是一句一句執(zhí)行的,尤其是大數據工程師需要檢測cpu,內存,網絡IO等各種開銷,就需要掌握各種命令,命令主要分為這幾種,一是查看各種進程的相關信息,其中包括cpu或者內存等從高到底,或者是前十等等。二是排查故障,結合linux和java的各種命令快速定位到問題出現的關鍵地方。三是排除系統長時間使用過慢原因等。

          3.Hadoop

          Hadoop是大數據開發(fā)的重要框架,Hadoop分HDFS和Map/reduce,HDFS是Hadoop的主要分布式存儲。一個HDFS集群主要由一個NameNode(管理文件系統的元數據)和存儲實際數據的DataNode組成。HDFS為海量的數據提供了存儲,實現了存取優(yōu)化。Hadoop的MapReduce是一個軟件框架,為海量的數據提供了計算,可方便地編寫應用程序處理大量的數據(多是TB數據集),因此,需要重點掌握,除此之外,還需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高級管理等相關技術與操作!

          4.HBase

          HBase是Hadoop的數據庫,HBase是一個分布式的、面向列的開源數據庫,它提供了隨機,實時讀/寫訪問大數據,并進行了優(yōu)化承載非常大的數據表 - 數十億行乘以百萬列 -,實現服務器硬件之上集群。不同于一般的關系數據庫,更適合于非結構化數據存儲的數據庫,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,在其核心Apache HBase是一個分布式的面向列的數據庫,屬于谷歌的Bigtable:Apache HBase在Hadoop和HDFS之上提供了類似于Bigtable的能力。大數據開發(fā)需掌握HBase基礎知識、應用、架構以及高級用法等。

          5.Hive

          Hive是基于Hadoop的一個數據倉庫工具,方便簡單的數據匯總工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行,十分適合數據倉庫的統計分析。同時,這語言也可以讓傳統的map / reduce程序員嵌入他們的自定義maperhe reducer.對于Hive需掌握其安裝、應用及高級操作等。

          6.ZooKeeper

          ZooKeeper是Hadoop和Hbase的重要組件,是一個為分布式應用提供一致性服務的軟件,一種集中式的服務(負載平衡器),提供的功能包括:配置維護、域名服務、分布式同步、組件服務等,并提供團體服務。Apache ZooKeeper協調運行在Hadoop集群上的分布式應用程序。在大數據開發(fā)中要掌握ZooKeeper的常用命令及功能的實現方法。

          7.phoenix

          phoenix是用Java編寫的基于JDBC API操作HBase的開源SQL引擎,其具有動態(tài)列、散列加載、查詢服務器、追蹤、事務、用戶自定義函數、二級索引、命名空間映射、數據收集、行時間戳列、分頁查詢、跳躍查詢、視圖以及多租戶的特性,大數據開發(fā)需掌握其原理和使用方法。

          8.Avro與Protobuf

          Avro與Protobuf均是數據序列化系統,可以提供豐富的數據結構類型,十分適合做數據存儲,還可進行不同語言之間相互通信的數據交換格式,學習大數據,需掌握其具體用法。

          9.Cassandra

          Apache Cassandra是一個高性能,可擴展性和高線性可用的數據庫,可以運行在服務器或云基礎設施上,為關鍵任務數據提供完美的平臺,。 Cassandra支持多個數據中心之間復制是同類產品中最好,為用戶提供更低的延遲,甚至不懼怕停電。 Cassandra的數據模型提供了便利的列索引,高性能試圖和強大的內置緩存。

          10.Kafka

          Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統,其在大數據開發(fā)應用上的目的是通過Hadoop的并行加載機制來統一線上和離線的消息處理,也是為了通過集群來提供實時的消息。大數據開發(fā)需掌握Kafka架構原理及各組件的作用和使用方法及相關功能的實現!

          11.Chukwa

          是一個開源大型分布式系統的數據采集監(jiān)視系統。它是建立在Hadoop分布式文件系統(HDFS)和Map/ Reduce框架之上,并繼承了Hadoop的可伸縮性和健壯性。 Chukwa還包括一個靈活而強大的工具包,用于顯示,監(jiān)測和分析結果,以便做出最佳地使用所收集的數據。

          12.Flume

          Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發(fā)送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。大數據開發(fā)需掌握其安裝、配置以及相關使用方法。



        關鍵詞: Linux Java

        評論


        相關推薦

        技術專區(qū)

        關閉
        主站蜘蛛池模板: 万州区| 青州市| 汾阳市| 通州市| 南通市| 保山市| 邢台县| 镇江市| 铜陵市| 焦作市| 宜州市| 株洲县| 万源市| 阆中市| 峡江县| 阳谷县| 绵竹市| 聊城市| 开鲁县| 青海省| 大城县| 隆子县| 利川市| 河北省| 漾濞| 陇西县| 宁阳县| 木里| 竹山县| 托里县| 海伦市| 溆浦县| 陵川县| 宁津县| 天峨县| 巫溪县| 保山市| 保靖县| 平乐县| 佛山市| 中牟县|