谷銀觀點

谷銀基金行業月度簡報 | 大數據板塊

2019-01-25 白雙、程潔 閱讀

政策/知識/技術總結

 大數據發展全球加碼,廣闊空間蘊含商機無限

基于大數據對各個行業的深入影響,近幾年,美國、歐盟、日本等主要發達經濟體都積極推進各自的大數據戰略。2009年,美國科學家委員會(NSTC)就發布了《開發數字數據的威力》報告,初步提出發展大數據的框架,奧巴馬政府亦對大數據行業大力支持,幫助美國取得世界領先地位。

參考《大數據白皮書(2016)》,IDC、Wikibon等咨詢機構分析,2016年全球大數據核心產業規模約為300億美元,預計2020年有望達到近600億美元。

美歐日韓關于大數據的主要政策(非完全統計)

1548380075(1).jpg

全球大數據核心產業規模(億美元)

1548380166.png

中國亦將大數據視為新經濟的重要支撐。2012年,《“十二五”國家戰略性新興產業發展規劃》明確提出支持海量數據存儲、處理技術的研發和產業化,2014年“大數據”首次出現在《政府工作報告中》,奠定了行業快速發展的政策基礎。而2017年以來,黨的十九大報告、中共中央政治局就實施國家大數據戰略進行第二次集體學習、首屆數字中國峰會召開等,均再次顯示出領導層對加快建設數字中國的高度重視。

圖表3:國內大數據相關政策(非完全統計)

1548380242(1).png

對于中國大數據產業的規模,目前各個研究機構均采取間接方法估算。根據信通院數據,2017年中國大數據產業規模(包括數據資源建設、大數據軟硬件產品的開發、銷售和租賃活動,以及相關信息技術服務)為4700億元人民幣,同比增長30%,且預計2020年這一規模有望趕超1萬億,年均復合增速近30%。其中,大數據核心產業規模2017年為234億元,同比增長39%,預計2018年為329億。

中國大數據市場產值                 圖大數據核心產業規模

1548380666(1).jpg

同時,大數據投融資市場也持續升溫。根據信通院數據,2012-2016年期間,國內共發生大數據投融資事件超1600件,統計公布金額的1300余起投資,其融資總額達1200多億,2016年同比增長189.7%。輪次上,A輪占比最高為40%,天使輪次之為38%;方向上,數據分析、應用項目等創新企業最受資本追捧。

中國大數據領域投融資金額                   中國大數據領域投融資輪次分布(次)

1548380746(1).jpg

2012-2016各產業項目融資情況(單位:億元)

1548380777(1).jpg

典型數據處理框架:Hadoop

Apache Hadoop是首個在開源社區獲得極大關注的大數據處理框架,由Apache基金會于2005年秋作為Lucene的子項目Nutch的一部分正式引入。該項目最早用于探索網頁搜索,Yahoo在最初階段做出了較大貢獻,后Hadoop發展成能夠為分布式數據提供各種服務的運算架構。

HDFS(Hadoop Distributed File System)和MapReduce是Hadoop的核心設計。兩者分別是Google File System(GFS)、Google MapReduce的開源實現(谷歌三寶MapReduce、GFS和BigTable,具體可見谷歌著名的三篇大數據論文,Hadoop亦參考于此)。HDFS是一種分布式文件系統層,可對集群節點間的存儲和復制進行協調;MapReduce是適合海量數據處理的編程模型,基本思想是“分而治之、然后歸約”,可將大任務分解為多個小任務并行執行,其工作分Map、Reduce兩個階段:Map(映射)函數可理解為初略歸類、分解任務,包括加載、解析、轉換、過濾數據;reduce(歸約)函數可理解為精簡結果得到最終結果,負責把分解后多任務處理的結果匯總起來,處理的是Map輸出的一個子集。

Hadoop物理結構

1548380832.jpg

單點物理結構

1548380877(1).jpg

Hadoop一出現就受到眾多大公司的青睞,Yahoo 、LinkedIn、Fox互動媒體、默多克傳媒、MySpace等均有運用,同時也引起了研究界的普遍關注。隨后,一系列圍繞Hadoop的開源技術得到開發,生態不斷豐富。如:Hive提供數據倉庫功能,包括數據抽取、轉換、裝載(由Facebook貢獻);HBase實現海量結構化表的實時讀寫訪問功能,類似谷歌的BigTable;Cassandra通過復制數據來提供容錯數據存儲功能。而YARN7(Yet Another Resource Negotiator)的引入,更是讓Hadoop超越MapReduce程序,支持其他更多的分布式應用。

YARN運行流程

1548380966.jpg

Hadoop具備拓展性、容錯性和高效性等優點,更為重要的是其低成本。在這之前,大數據功能通常只能從商業軟件供應商處依靠專門的硬件獲取,而開源的Hadoop使數據存儲和處理能力——這些本只有像谷歌或其他商用運營商類公司才具備的能力,在普通商用硬件上也得到應用,大大降低了使用大數據的先期投入,并且具備了使大數據接觸到更多潛在用戶的潛力。(《大數據云圖》,大衛?芬雷布著)

Hadoop特性

1548381033(1).png

?
個人用戶登錄 機構用戶登錄
賬號:
密碼:
忘記密碼
新用戶注冊
會員注冊
注冊類型: 個人 機構








發送驗證碼

找回密碼

發送驗證碼


修改密碼


郵箱綁定
更換手機


委托人權限登錄

由于個人隱私既客戶權限問題請點擊輸入身份證號碼進行查看您的資料

微联盟软件推广赚钱