谷銀觀點

谷銀基金行業月度簡報 | 大數據板塊

2019-08-02 孫鋼德 閱讀

政策/知識/技術總結

大數據是對海量數據存儲、計算、統計、分析等一系列處理手段,處理的數據量是TB級,甚至是PB或EB級的數據,是傳統數據處理手段無法完成的,大數據涉及分布式計算、高并發處理、高可用處理、集群、實時性計算等等,匯集的是IT最熱門、最流行的IT技術,大數據是機器學習、深度學習、AI等尖端可以領域的基礎架構。

大數據技術為決策提供依據,在政府、企業、科研項目等決策中扮演著重要的角色,在社會治理和企業管理中起到了不容忽視的作用,例如我國、美國以及歐盟等國家都已將大數據列入國家發展戰略,微軟、谷歌、百度以及亞馬遜等大型企業也將大數據技術列為未來發展的關鍵籌碼。

一. 大數據采集

大數據采集,即對各種來源(如RFID射頻數據、傳感器數據、移動互聯網數據、社交網絡數據等)的結構化和非結構化海量數據,所進行的采集。數據采集有線上和線下兩種方式,線上一般通過爬蟲、通過抓取,或者通過已有應用系統的采集,在這個階段,我們可以做一個大數據采集平臺,依托自動爬蟲(使用python或者nodejs制作爬蟲軟件),ETL工具、或者自定義的抽取轉換引擎,從文件中、數據庫中、網頁中專項爬取數據,如果這一步通過自動化系統來做的話,可以很方便的管理所有的原始數據,并且從數據的開始對數據進行標簽采集,可以規范開發人員的工作。并且目標數據源可以更方便的管理。數據采集的難點在于多數據源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。還有本地文件、excel統計文檔、甚至是doc文件。如何將他們規整的、有方案的整理進我們的大數據流程中也是必不可缺的一環。

之所以稱其為“大”,是因為數據采集過程中,常需要處理“成千上萬用戶并發訪問和操作”的難題。這里列舉出三個大數據采集的常用方法:

A. 數據庫采集

Sqoop和ETL工具想必很多人比較熟悉。實際上,傳統的關系型數據庫MySQL和Oracle 依然充當著許多企業的數據存儲方式。當然了,目前對于開源的Kettle和Talend本身,也集成了大數據集成內容,可實現hdfs,hbase和主流Nosq數據庫之間的數據同步和集成。

B. 網絡數據采集

一種借助網絡爬蟲或網站公開API,從網頁獲取非結構化或半結構化數據,并將其統一結構化為本地數據的,數據采集方式。

C. 文件采集

常被談起的flume實時文件采集和處理,就是一種典型的文件采集形式。除此之外,基于ELK(Elasticsearch、Logstash、Kibana)的日志采集和增量采集,也涉及到“文件采集”這一數據采集形式。

二. 大數據預處理

數據預處理,指的是在進行數據分析之前,先對采集到的原始數據所進行的諸如“清洗、填補、平滑、合并、規格化、一致性檢驗”等一系列操作,旨在提高數據質量,為后期分析工作奠定基礎。數據預處理主要包括四個部分:數據清理、數據集成、數據轉換、數據規約。

A. 數據清理

數據清理,指利用ETL(Extraction/Transformation/Loading)和Potter’s Wheel等清洗工具,對有遺漏數據(缺少感興趣的屬性)、噪音數據(數據中存在著錯誤、或偏離期望值的數據)、不一致數據進行處理。

遺漏數據處理方法:用全局常量、屬性均值、可能值填充;或直接忽略該數據;噪音數據處理方法:用分箱(分組原始數據,并分別對各組數據平滑處理)、聚類、計算機人工檢查、回歸等方法,去除噪音處理;不一致數據處理方法:手動更正。

B.數據集成

數據集成,指將不同數據源中的數據,合并存放到統一數據庫的,存儲方法。該過程著重解決三個問題:模式匹配、數據冗余、數據值沖突檢測與處理。實體識別問題處理方法:針對“不同集合來源的數據,因命名差異導致的實體名稱不一致”的問題,通過“利用元數據,匹配不同來源實體”的方法,進行實體識別。數據冗余處理方法:對于因“不同來源數據,屬性命名方式不一致”所導致的數據冗余問題,利用皮爾遜積矩Ra,b,結合絕對值比較的方法,確定數據間的相關性。數據值沖突問題處理方法:對具有不同數值的各來源實體,進行數據值沖突檢測與處理。

C.數據轉換

數據轉換,指對所抽取出來的數據中存在的不一致,進行處理的過程。它同時包含了數據清洗的工作,即根據業務規則對異常數據進行清洗,以保證后續分析結果準確性。數據名稱及格式統一處理:即數據粒度轉換、商務規則計算以及統一的命名、數據格式、計量單位等;數據倉庫中較源數據庫多出數據的處理:字段的組合、分割、計算。

D. 數據規約

數據歸約,指在最大限度保持數據原貌(盡可能保持數據完整性)的基礎上,最大限度精簡數據量,以得到較小數據集的操作,包括:數據方聚集、維規約、數據壓縮、數值規約、概念分層等。

三. 大數據存儲

大數據存儲,指用存儲器,以數據庫的形式,存儲采集到的數據的過程。大數據存儲技術的三種典型路線:

A. 基于MPP架構的新型數據庫集群

采用Shared Nothing架構,結合MPP架構的高效分布式計算模式,通過列存儲、粗粒度索引等多項大數據處理技術,重點面向行業大數據所展開的數據存儲方式。具有低成本、高性能、高擴展性等特點,在企業分析類應用領域有著廣泛的應用。較之傳統數據庫,其基于MPP產品的PB級數據分析能力,有著顯著的優越性。自然,MPP數據庫,也成為了企業新一代數據倉庫的最佳選擇。

B. 基于Hadoop的技術擴展和封裝

基于Hadoop的技術擴展和封裝,是針對傳統關系型數據庫難以處理的數據和場景(針對非結構化數據的存儲和計算等),利用Hadoop開源優勢及相關特性(善于處理非結構、半結構化數據、復雜的ETL流程、復雜的數據挖掘和計算模型等),衍生出相關大數據技術的過程。伴隨著技術進步,其應用場景也將逐步擴大,目前最為典型的應用場景:通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐,其中涉及了幾十種NoSQL技術。

C. 大數據一體機

這是一種專為大數據的分析處理而設計的軟、硬件結合的產品。它由一組集成的服務器、存儲設備、操作系統、數據庫管理系統,以及為數據查詢、處理、分析而預安裝和優化的軟件組成,具有良好的穩定性和縱向擴展性。

四. 大數據分析挖掘

從可視化分析、數據挖掘算法、預測性分析、語義引擎、數據質量管理等方面,對雜亂無章的數據,進行萃取、提煉和分析的過程。

A. 可視化分析

可視化分析,指借助圖形化手段,清晰并有效傳達與溝通信息的分析手段。主要應用于海量數據關聯分析,即借助可視化數據分析平臺,對分散異構數據進行關聯分析,并做出完整分析圖表的過程。具有簡單明了、清晰直觀、易于接受的特點。

B. 數據挖掘算法

數據挖掘算法,即通過創建數據挖掘模型,而對數據進行試探和計算的,數據分析手段。它是大數據分析的理論核心。數據挖掘算法多種多樣,且不同算法因基于不同的數據類型和格式,會呈現出不同的數據特點。但一般來講,創建模型的過程卻是相似的,即首先分析用戶提供的數據,然后針對特定類型的模式和趨勢進行查找,并用分析結果定義創建挖掘模型的最佳參數,并將這些參數應用于整個數據集,以提取可行模式和詳細統計信息。

C. 預測性分析

預測性分析,是大數據分析最重要的應用領域之一,通過結合多種高級分析功能(特別統計分析、預測建模、數據挖掘、文本分析、實體分析、優化、實時評分、機器學習等),達到預測不確定事件的目的。

它幫助分用戶析結構化和非結構化數據中的趨勢、模式和關系,并運用這些指標來預測將來事件,為采取措施提供依據。

D. 語義引擎

語義引擎,指通過為已有數據添加語義的操作,提高用戶互聯網搜索體驗。

E. 數據質量管理

指對數據全生命周期的每個階段(計劃、獲取、存儲、共享、維護、應用、消亡等)中可能引發的各類數據質量問題,進行識別、度量、監控、預警等操作,以提高數據質量的一系列管理活動。

熱點、趨勢、動態

隨著大數據應用越來越廣泛,應用的行業也越來越低,每天都可以看到大數據的一些新奇的應用,從而幫助人們從中獲取到真正有用的價值。大數據浪潮下,一些企業轉而將目光投向了傳統的小數據,并據此改善了相關產品。比如,相較于以往,現在的罐頭和汽水瓶的蓋子更容易打開,車門可以不費力地關上,而抽屜的開合也設計得更加順滑。這緣于企業對一個細節的敏銳捕捉:隨著科技發展導致的體力勞動減少、電腦和觸摸屏導致的書寫退化,人們的雙手沒有以前有力了。類似的小數據、小趨勢,正在和大數據一起改變著我們的生活。

1.數據科學與大數據的學科邊界

這一問題綜合了兩個問題,即大數據的基本內涵與數據的科學問題。前者關注的是大數據的基本定義和基本結構。迄今為止,什么是大數據,在產業界、學術界并沒有形成一個公認的科學定義,大數據的內涵與外延也缺乏清晰的說明。大數據區別于其他數據的關鍵特性是什么?IBM提出了3V的說法,即volume(體量 大)、variety(模式多)和velocity(速度快)。爾后又有人提出了另一個V,即value(價值),表示大數據雖然價值總量高但其價值密度低。另外,大數據是否就意味著全數據,還有待進一步討論與澄清。最后,還需要為動態、高維、復雜的大數據建立形式化、結構化的描述方法,進而在此基礎上發 展大數據處理技術。后者關注的是數據界與物理界、人類社會之間的關聯與差異,探討是否存在獨立于應用領域的數據科學。如果存在數據科學,其學科問題的分類 體系又是什么?目前已有的共識是,大數據的復雜性主要來自數據之間的復雜聯系。另外,新型學習理論和認知理論等應當是數據科學的重要組成部分。

2.數據計算的基本模式與范式

大數據的諸多突出特性使得傳統的數據分析、數據挖掘、數據處理的方式方法都不再適用。因此,面對大數據,我們需要有數據密集型計算的基本模式和新型的計算范式,需要提出數據計算的效率評估方法以及研究數據計算復雜性等基本理論。由于數據體量太大,甚至有的數據本身就以分布式的形式存在,難以集中起來處理,因此對于大數據的計算需要從中心化的、自頂向下的模式轉為去中心化的、自底向上、自組織的計算模式。另外,面對大數據將形成基于數據的智能,我們可能需要尋 找類似“數據的體量+簡單的邏輯”的方法去解決復雜問題。

3.大數據特性與數據態

這一問題綜合了三個候選問題,即大數據的關系維復雜性、大數據的空間維復雜性和大數據的時間維復雜性問題。大數據往往由大量源頭產生,而且常包含圖像、視頻、音頻、數 據流、文本、網頁等等不同的數據格式,因此其模態是多種多樣的。主要來源于多模態的大數據之間存在著錯綜復雜的關聯關系,這種異質的關聯關系有時還動態變 化,互為因果,因此導致其關聯模式也非常復雜。大數據的空間維問題主要關注人、機、物三元世界中大數據的產生、感知與采集,以及不同粒度下數據的傳輸、移 動、存儲與計算。另外,還需研究大數據在空間與密度的非均衡態對其分析與處理所帶來的理論與技術挑戰。而大數據的時間維問題意圖在時間維度上研究大數據的 生命周期、狀態與特征,并探索大數據的流化分析、增量式的學習方法與在線推薦。最后,研究大數據的離線與在線處理對時效性要求。

4.大數據的數據變換與價值提煉

這一問題主要由“如何將大數據變小”與“如何進行大數據的價值提煉”兩個問題組成,前者要在不改變數據基本屬性的前提下對數據進行清洗,在盡量不損失價值的條件下減小數據規模。為此,需要研究大數據的抽樣、去重、過濾、篩選、壓縮、索引、提取元數據等數據變換方法,直接將大數據變小,這可以看作是大數據的 “物理變化”。后者可看作是大數據的“化學反應”,對大數據的探索式考察與可視化將發揮作用,人機的交互分析可以將人的智慧融入這一過程,通過群體智慧、 社會計算、認知計算對數據的價值進行發酵和提煉,實現從數據分析到數據價值判定和數據制造的價值飛躍。

5.大數據的安全和隱私問題

只要有數據,就必然存在安全與隱私的問題。隨著數據的增多,大數據面臨著重大的風險和威脅,需要遵守更多更合理的規定,傳統的數據保護方法無法滿足這一要求。因此,面對大數據的安全與隱私保護,有大量的挑戰急需得到解決,具體包括:大數據計算倫理學、大數據密碼學、分布式編程框架中的安全計算、遠程數據計算的可信任度、數據存儲和日志管理的安全性、基于隱私和商業利益保護的數據挖掘與分析、強制的訪問控制和安全通信、多粒度訪問控制以及數據來源和數據通道的可信等。

6.大數據對IT技術架構的挑戰

這一問題是對熱點問題“大數據對于系統的要求”的新解讀。大數據對于系統,不管是存儲系統、傳輸系統還是計算系統都提出了很多非??量痰囊?,而現有的數據中心技術難以滿足大數據的需求。譬如,存儲能力的增長遠遠趕不上數據的增長,設計最合理的分層存儲架構已成為信息系統的關鍵。分布式存儲架構不僅需要scale-up式的可擴展性,也需要scale-out式的可擴展性。因此對整個IT架構進行革命性地重構勢在必行。此外,大數據平臺(包括計算平臺、傳輸平臺、存儲平臺等)是大數據技術鏈條中的瓶頸,特別是大數據的高速傳輸,需要革命性的新技術。

7.大數據的應用及產業鏈

大部分大數據專家委員會的委員都認為,大數據的研究與應用一定要與領域知識相結合,尤其在開展大數據研究的初期,計算機領域的科技工作者一定要虛心向各領域的科技人員請教,真正了解和熟悉各領域發生數據的特點。針對不同的領域環境和不同的應用需求,大數據的獲取、分析、反饋的方式有所不同。為此,針對不同行業與領域業務需求,我們需要展開數據特征與業務特征的研究,進行大數據應用分類與技術需求分析,構建從需求分析與業務模型,到數據建模、數據采集和總結反饋,最后到數據分析 的全生命周期應用模型。其實,不同的應用環境和應用目標代表了不同的價值導向,這對于大數據的價值密度有很大的影響。

8.大數據的生態環境問題

大數據作為21世紀的“新石油”,是一種寶貴的戰略資源,因此對大數據的共享與管理無疑是其生態環境的一部分。對于大數據的共享與管理,其中所有權是基礎, 這既是技術問題,也是法理問題。對數據的權益需要進行具體認定并進行保護,進而在保護好多方利益的前提下解決數據共享問題。為此,可能會遇到不少的障礙, 包括人們對法律或信譽的顧慮,保護競爭力的需要,以及數據存儲的位置和方式不利于數據的訪問和傳輸等。此外,生態環境問題還涉及與政治、經濟、社會、法律、科學等等的交叉影響問題。因為大數據將對國家治理模式、企業的決策、組織和業務流程、個人生活方式都將產生巨大的影響,所以這種影響模式值得深入研究。

上市公司/標桿企業分析

??低?001年成立。??低暿侨蝾I先的以視頻為核心的物聯網解決方案提供商,致力于不斷提升視頻處理技術和視頻分析技術,面向全球提供領先的監控產品和技術解決方案。??低暤臓I銷及服務網絡覆蓋全球,目前在中國大陸34個城市已設立分公司,在中國香港、美國洛杉磯和印度也已設立了全資和合資子公司,并正在全球籌建更多的分支機構。

??低晸碛袠I內領先的自主核心技術和可持續研發能力,提供攝像機/智能球機、光端機、DVR/DVS/板卡、BSV液晶拼接屏、網絡存儲、視頻綜合平臺、中心管理軟件等安防產品,并針對金融、公安、電訊、交通、司法、教育、電力、水利、軍隊等眾多行業提供合適的細分產品與專業的行業解決方案。這些產品和方案面向全球100多個國家和地區,在北京奧運會、大運會、亞運會、上海世博會、60年國慶大閱兵、青藏鐵路等重大安保項目中得到廣泛應用。

公司的營銷及服務網絡覆蓋全球,在中國大陸33個城市已設立分公司,在洛杉磯、香港、阿姆斯特丹、孟買、圣彼得堡和迪拜也已設立了全資或控股子公司,并將在南非、巴西等地設立分支機構。并在全國設立渠道代理商。

持續快速發展的??低?,已獲得了行業內外的普遍認可。公司連續五年(2007-2011)以中國安防第一位的身份入選《A&S》“全球安防50強” ;2011年名列IMS全球視頻監控企業第4位,2012年名列IMS全球視頻監控企業第1位。DVR企業第1位;連年入選“國家重點軟件企業”、“中國軟件收入前百家企業”。

??低?,全球卓著的專業公司和安防行業的領跑者。

??低暟l布2018年度報告,報告期內實現營業總收入498.37億元,同比增長18.93%;實現歸屬于上市公司股東的凈利潤113.53億元,同比增長20.64%。2019年第一季度實現營業收入99.42億元,同比增長6.17%;凈利潤15.36億元,同比下降15.41%。行業整體承壓之下,??低?018年整體業績依然“拿得出手”。盡管Q1業績略顯失色,但業績說明會上,??狄灿蒙虣C改善和2季度收入增速回到20%以上的預期,印證了信心。以視頻為核心的智能物聯網解決方案和大數據服務提供商”,這也呼應了??低曉谥怯垮X塘生態大會上的提出物信融合,發布大數據平臺的動作。我們已經可以揣摩出未來??导靶袠I發展的清晰脈絡。


?
個人用戶登錄 機構用戶登錄
賬號:
密碼:
忘記密碼
新用戶注冊
會員注冊
注冊類型: 個人 機構








發送驗證碼

找回密碼

發送驗證碼


修改密碼


郵箱綁定
更換手機


委托人權限登錄

由于個人隱私既客戶權限問題請點擊輸入身份證號碼進行查看您的資料

微联盟软件推广赚钱