1、"大數據"是一個體量特別大,數據類別特別大的數據集,并且這樣的數據集無法用傳統(tǒng)數據庫工具對其內容進行抓取、管理和處理。
2、 "大數據"首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規(guī)模左右,但在實際應用中,很多企業(yè)用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。
3、接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。
(資料圖片)
4、最后一個特點是指數據真實性(Veracity)高,隨著社交數據、企業(yè)內容、交易與應用數據等新數據源的興趣,傳統(tǒng)數據源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實性及安全性。
5、數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯(lián)機分析處理、數據挖掘的基礎。
6、 數據存?。宏P系數據庫、NOSQL、SQL等。
7、 基礎架構:云存儲、分布式文件存儲等。
8、 數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。
9、處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。
10、一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
11、 統(tǒng)計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優(yōu)尺度分析)、bootstrap技術等等。
12、 數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等) 模型預測:預測模型、機器學習、建模仿真。
13、 結果呈現(xiàn):云計算、標簽云、關系圖等。
14、要理解大數據這一概念,首先要從"大"入手,"大"是指數據規(guī)模,大數據一般指在10TB(1TB=1024GB)規(guī)模以上的數據量。
15、大數據同過去的海量數據有所區(qū)別,其基本特征可以用4個V來總結(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價值密度低、速度快。
16、 第一,數據體量巨大。
17、從TB級別,躍升到PB級別。
18、 第二,數據類型繁多,如前文提到的網絡日志、視頻、圖片、地理位置信息,等等。
19、 第三,價值密度低。
20、以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數據僅僅有一兩秒。
21、 第四,處理速度快。
22、1秒定律。
23、最后這一點也是和傳統(tǒng)的數據挖掘技術有著本質的不同。
24、物聯(lián)網、云計算、移動互聯(lián)網、車聯(lián)網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。
25、 大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。
26、解決大數據問題的核心是大數據技術。
27、目前所說的"大數據"不僅指數據本身的規(guī)模,也包括采集數據的工具、平臺和數據分析系統(tǒng)。
28、大數據研發(fā)目的是發(fā)展大數據技術并將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發(fā)展。
29、因此,大數據時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數據從中獲取有價值的信息,也體現(xiàn)在如何加強大數據技術研發(fā),搶占時代發(fā)展的前沿。
本文分享完畢,希望對你有所幫助。
關鍵詞: