關 閉

        新聞中心

        EEPW首頁 > 工控自動化 > 業(yè)界動態(tài) > 如何快速使用大規(guī)模機器學習的核心技術?

        如何快速使用大規(guī)模機器學習的核心技術?

        作者: 時間:2016-02-26 來源:TechWeb 收藏
        編者按:這么多巨頭將機器學習平臺開源,作為開發(fā)者,我們再沒理由不利用好,大規(guī)模機器學習是一柄利刃,但決不是萬能的,對于大規(guī)模機器學習領域來說,業(yè)務技術的重要性勝過基礎技術。

          過去兩年,機器學習書寫了一卷強大的成長史,無論你是否真的覺察,它都是如此直接且普遍地在我們的生活中體現價值:客服、垃圾郵件過濾、人臉識別、語音識別、個性化推薦……機器學習和人的洞察力這對組合正逐漸滲透到各行各業(yè),使我們在面對這些冷冰冰的現代設備時,享受到靈活、智能、且越來越富人情味兒的服務。

        本文引用地址:http://www.104case.com/article/201602/287461.htm



          的確,神經網絡、人工智能和機器學習沒什么新穎的,這些算法早在幾十年前就存在。但為什么這瓶老酒直到最近,才發(fā)酵出勢不可擋的香氣呢?數十億用戶每天行走于互聯網中,面對這巨大的行為數據體量,傳統統計分析方法已經無力招架。圍繞著數據和工具發(fā)生的變化,可擴展的計算能力在急劇上升,這些都推動著機器學習以前所未有的方式大步向前。

          除此之外,面向機器學習的可用框架也迎來了爆發(fā)式增長。巨頭們紛紛將最為復雜的技術從機器學習中抽象出來,開源給開發(fā)者和學術研究人員,在幫助更多人的同時,使自身技術方案不斷得到完善和進步。微軟也如是。

          去年11月,微軟亞洲研究院將分布式機器學習工具包(DMTK)通過GitHub開源。隨著某些應用場景下數據量越來越大,分布式機器學習技術的重要性日益顯現。但將大量設備匯聚起來并開發(fā)出能夠順利跨越各設備運行的機器學習應用絕非易事。大規(guī)模機器學習技術的挑戰(zhàn)在哪里?優(yōu)勢又是什么?對于開發(fā)者,怎樣結合實際業(yè)務需求更好地使用DMTK?帶著這些問題,51CTO記者走進微軟亞洲研究院向DMTK團隊研究員——微軟亞洲研究院主管研究員王太峰拋出了我們的疑問。



          微軟亞洲研究院主管研究員 王太峰

          DMTK是什么

          王太峰介紹,DMTK由一個服務于分布式機器學習的框架和一組分布式機器學習算法構成,是一個將機器學習算法應用在大數據上的工具包。DMTK目前聚焦于解決Offline-training的并行化。除了分布式學習框架,它還包括了主題模型和詞向量學習的算法,這些算法可以應用于自然語言處理方面,比如文本分類與聚類、話題識別以及情感分析等。為了適應不同的集群環(huán)境,DMTK框架支持兩種進程間的通信機制:MPI和ZMQ。應用程序端不需要修改任何代碼就能夠在這兩種方式之間切換。DMTK支持Windows和Linux兩種操作系統。目前主要支持C和C++,之后會考慮到一些高級語言的升級,比如Python。

          在實現算法的過程中DMTK團隊看到,用一個框架來將這些算法很容易地并行到大量機器上來解決大規(guī)模機器學習問題,是非常必要的。因此,微軟將DMTK框架和幾個例子開源出來,一方面與開發(fā)者和學術研究人員共同分享技術,另一方面希望通過大家貢獻改進意見,并將更多的算法添加到這套框架中來。

          如何應對大規(guī)模機器學習的挑戰(zhàn)

          在被問及DMTK如何解決大規(guī)模機器學習的挑戰(zhàn)時,王太峰主要從如何處理大規(guī)模數據和訓練大規(guī)模模型兩方面做了回答。

          1. 大規(guī)模數據:基于DMTK我們可以利用多個機器一同完成處理,每個機器處理一部分數據。在多個機器中同時存在多個參數的副本,它們獨立基于本地數據產生對參數的更新,并在參數服務器端進行參數更新的合并。通過這種數據并行的方式,利用多個機器同時處理大規(guī)模的數據,大大加速了學習過程。即使是每臺機器處理相對小的數據分塊,但是有時候模型參數非常多,以至于基于全部參數在內存中更新的算法變得不可行。

          2. 大規(guī)模模型:在大規(guī)模模型中,學習參數在單個機器中裝不下。就這個問題,DMTK可以從兩個方面解決,首先DMTK框架中的參數服務器本身即為分布式,所以可利用很多機器分布式存儲模型。其次,在單個機器進行本地學習的過程中,通過設計精巧的分段學習方法,使得參數更新分批次完成。即使模型再大,也能保證本地參數學習順利完成。


        上一頁 1 2 下一頁

        關鍵詞: 機器人

        評論


        相關推薦

        技術專區(qū)

        關閉
        主站蜘蛛池模板: 韩城市| 沁阳市| 仁化县| 图们市| 柳林县| 屏东县| 长武县| 杭锦旗| 罗平县| 南郑县| 衡阳县| 城口县| 航空| 元朗区| 乐亭县| 贵德县| 台东县| 巨鹿县| 京山县| 新干县| 安国市| 延川县| 武汉市| 金寨县| 阜平县| 志丹县| 望江县| 花莲市| 德阳市| 扎赉特旗| 吴旗县| 克东县| 乐业县| 泉州市| 恩平市| 库尔勒市| 大同县| 蛟河市| 洛宁县| 临清市| 荣成市|