博客專欄

        EEPW首頁 > 博客 > 大數據通用組件故障處理

        大數據通用組件故障處理

        發布人:天翼云開發者 時間:2023-07-28 來源:工程師 發布文章
        本文分享自天翼云開發者社區《大數據通用組件故障處理》,作者:f****n

        https://www.ctyun.cn/developer/article/441065069686853

        HDFS

        1.HDFS 服務一直異常

        檢查HDFS是否處于安全模式。

        檢查ZooKeeper服務是否運行正常。

        2.HDFS 維護客戶端出現OutOfMemoryError 異常

        使用HDFS客戶端之前,需要在HADOOP_CLIENT_OPTS更新"-Xmx" GC參數。

        直接執行如下命令:

        export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Xmx512m"

        在命令中調整參數,減少HDFS維護客戶端運行命令時所需的內存。

        當執行hdfs dfs -ls /user/*/*/*/*命令時上報OutOfMemoryError,您可以執行類似的命令來獲取目錄。例如:hdfs dfs -ls -R /user。

        3.NameNode 的主備倒換失敗

        需要格式化ZKFC,并將元數據從主NameNode拷貝到新增的NameNode節點中。

        Zookeeper

        1.ZooKeeper 無法對外提供服務

        檢查ZooKeeper安裝并運行的實例是否為奇數個,如3個、5個。

        恢復故障的ZooKeeper服務。

        2.安裝DNS 導致ZooKeeper 服務異常

        ZooKeeper所在節點的“/etc/hosts”配置錯誤,ZooKeeper所在節點配置了DNS服務。

        檢查ZooKeeper故障節點的“/etc/hosts”文件中,IP和主機名是否正確,是否有一個IP對應多個主機名,或者一個主機名對應多個IP的情況。

        確認ZooKeeper所在的節點沒有安裝DNS服務

        Yarn

        1.ResourceManager 原生界面的鏈接不可用

        檢查本地的“hosts”文件中是否對HostName和IP的對應關系進行了配置。查該集群是否開放了相應端口。

        2.ResourceManager 節點故障

        查看是否有Yarn服務不可用告警產生,并且告警原因為No active instance,參考告警中描述操作。

        檢查ZooKeeper服務狀態,如果沒有告警,說明ZooKeeper服務正常,不用檢查。檢查網絡狀態。

        Spark

        1.任務掛起,報Initial job has not accepted any resources 異常

        查看集群內每臺節點中的“/etc/hosts”文件中是否加入了客戶端節點的IP和主機名。如果“/etc/hosts”文件未加入,則修改文件,重試跑應用。

        “/etc/hosts”加入了客戶端節點的IP和主機名后,該問題還存在時,查Executor端對應的進程CoarseGrainedExecutorBackend是否存在。如果不存在,可能是由于executor memory配置太大導致的。

        2.內存不足,無法退出應用程序

        執行命令強制將任務退出,然后通過修改內存參數的方式解決內存不足的問題,使任務執行成功。

        針對此類數據量大的任務,希望任務不再掛起,遇到內存不足時,直接提示任務運行失敗。

        3.由于磁盤空間不足導致運行應用程序失敗

        應用程序中,若有shuffle操作時,會將shuffle的數據寫到磁盤中。當磁盤空間不夠時,便會出現“No space left on device”錯誤。

        建議在執行Spark開發程序之前,應先根據實際數據量,估算shuffle過程的數據的大小,配置足夠的磁盤空間再提交應用程序。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 大數據

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 肇庆市| 阿尔山市| 黎平县| 永平县| 信阳市| 台东市| 扎赉特旗| 沅陵县| 黎平县| 乐都县| 呼和浩特市| 揭东县| 营山县| 靖西县| 竹溪县| 荥阳市| 南昌市| 宁海县| 和顺县| 淳化县| 安顺市| 始兴县| 凤阳县| 陇南市| 溆浦县| 沙洋县| 白城市| 平南县| 滨海县| 昭平县| 平遥县| 成武县| 永胜县| 晋城| 上犹县| 信阳市| 桃源县| 海丰县| 高州市| 通山县| 余干县|