1. 河豚號 > 生活百科 >

大數(shù)據(jù)定義和概念(大數(shù)據(jù)的三大主要來源)

隨著國家定義了“新型基礎(chǔ)設(shè)施建設(shè)”(新基建),新科技時(shí)代已經(jīng)來臨。如果說新基建的目標(biāo)是構(gòu)建起新時(shí)代科技中國的軀體的話,那么數(shù)據(jù)就是這個(gè)軀體中無處不在的血液,沒有這個(gè)血液,所有的一切都將沒有正常運(yùn)行的能量來源。

“數(shù)據(jù)”早已有之,但長久以來,除了科技公司和大型企業(yè)外,人們對“數(shù)據(jù)”應(yīng)用得并不充分。而隨著數(shù)據(jù)滲透到當(dāng)今幾乎每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,滲透到幾乎任何體量的社會組織中,并成為重要的生產(chǎn)因素,人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,推動了21世紀(jì)以來新一波的生產(chǎn)率增長和消費(fèi)浪潮的到來。所以,在現(xiàn)今及未來可預(yù)見的時(shí)代,說“一切皆數(shù)據(jù)”也不為過!

不過,如今的“數(shù)據(jù)”相對以前的“數(shù)據(jù)”,其內(nèi)涵有了極大的擴(kuò)展,而涉及到的相關(guān)技術(shù)和工具也發(fā)生了翻天覆地的變化,于是“大數(shù)據(jù)”的概念產(chǎn)生了。

大數(shù)據(jù)(big data)是指海量的、多樣化的交易數(shù)據(jù)、交互數(shù)據(jù)、終端與網(wǎng)絡(luò)數(shù)據(jù)以及傳感數(shù)據(jù)等,其主要特征包括:

海量的數(shù)據(jù)規(guī)模:大數(shù)據(jù)一般指在10TB規(guī)模以上的數(shù)據(jù)量,甚至常常是PB(1PB=1024TB)級別的。

快速的數(shù)據(jù)流轉(zhuǎn):大數(shù)據(jù)通常需要能夠獲得實(shí)時(shí)的處理、分析和利用,能夠?qū)崿F(xiàn)數(shù)據(jù)的快速流轉(zhuǎn)。

多樣的數(shù)據(jù)類型:大數(shù)據(jù)通常用來形容大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),對數(shù)據(jù)的類型幾乎沒有任何限制,如文檔、圖片、音頻、視頻、電子郵件、網(wǎng)頁等。

較低的價(jià)值密度:半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),其價(jià)值密度通常來說較低,所以相比那些價(jià)值密度較高的結(jié)構(gòu)化數(shù)據(jù),更需要使用大數(shù)據(jù)技術(shù)進(jìn)行處理。

 

新科技時(shí)代,一切皆數(shù)據(jù),大數(shù)據(jù)的概念、關(guān)系與學(xué)習(xí)路線

 

信息技術(shù)的核心就在于數(shù)據(jù),數(shù)據(jù)與幾乎每一項(xiàng)信息技術(shù)都息息相關(guān),或?yàn)橐?,或?yàn)楣?幾乎任何一項(xiàng)信息技術(shù),或者需要依賴數(shù)據(jù),或者能夠產(chǎn)生數(shù)據(jù),或者直接或間接地服務(wù)于數(shù)據(jù)。

物聯(lián)網(wǎng):通過物聯(lián)網(wǎng)采集的數(shù)據(jù)通常具有非結(jié)構(gòu)化、碎片化、時(shí)空域等特性,所以需要通過新型的數(shù)據(jù)存儲和處理的大數(shù)據(jù)技術(shù)來加以利用。

人工智能:想提升人工智能本身的性能和精準(zhǔn)度,必須依賴大量的樣本數(shù)據(jù),一個(gè)粗略的經(jīng)驗(yàn)法則是,對于監(jiān)督學(xué)習(xí)算法,在每給定約5000個(gè)標(biāo)注樣本的情況下,人工智能程序?qū)⑦_(dá)到可以接受的性能;而當(dāng)至少有1000萬個(gè)標(biāo)注樣本的數(shù)據(jù)集可用于訓(xùn)練時(shí),人工智能程序?qū)⑦_(dá)到甚至超過人類表現(xiàn)。

企業(yè)上云:大量企業(yè)在長期運(yùn)營中積累了豐富的數(shù)據(jù)資源,但一直都是分散在獨(dú)立的系統(tǒng)中進(jìn)行碎片化保存的,而隨著企業(yè)上云的全面推進(jìn),未來這些碎片化保存的數(shù)據(jù)資源將能夠在被遷移到云中后,基于大數(shù)據(jù)技術(shù)進(jìn)行價(jià)值挖掘。

邊緣計(jì)算:隨著邊緣計(jì)算的發(fā)展,企業(yè)收集數(shù)據(jù)方式將逐漸轉(zhuǎn)向設(shè)備端,由于邊緣計(jì)算相對云計(jì)算更加靠近數(shù)據(jù)源頭,可以有效降低數(shù)據(jù)傳輸處理到反饋的遲延,同時(shí)具有顯著的效率成本優(yōu)勢和安全隱私保護(hù)優(yōu)勢,因此將進(jìn)一步擴(kuò)大數(shù)據(jù)采集的適用場景和規(guī)模。

開源軟件:越來越多的大數(shù)據(jù)相關(guān)開源軟件的出現(xiàn),能夠幫助使用者實(shí)時(shí)訪問和處理數(shù)據(jù),中小型組織和初創(chuàng)企業(yè)將從中受益,免費(fèi)的開源軟件可以幫助企業(yè)降低運(yùn)營成本,并促進(jìn)他們?nèi)W(xué)習(xí)、掌握、生產(chǎn)和使用大數(shù)據(jù),從而夯實(shí)大數(shù)據(jù)產(chǎn)業(yè)的底層基礎(chǔ),并將與頭部科技巨頭企業(yè)一起,共同激活整體大數(shù)據(jù)產(chǎn)業(yè)生態(tài)。

5G技術(shù):5G網(wǎng)絡(luò)的高帶寬和低時(shí)延,將使得單位時(shí)間內(nèi)產(chǎn)生的數(shù)據(jù)量急劇增長,單位區(qū)域內(nèi)的聯(lián)網(wǎng)設(shè)備成倍增加,人與物、物與物之間的連接急劇增多。在5G時(shí)代,數(shù)據(jù)采集渠道將更加豐富,更加海量的原始數(shù)據(jù)將被收集。

 

新科技時(shí)代,一切皆數(shù)據(jù),大數(shù)據(jù)的概念、關(guān)系與學(xué)習(xí)路線

 

下面再說說大數(shù)據(jù)的學(xué)習(xí)路線。由于大數(shù)據(jù)涉及的范疇非常廣,為了避免盲人摸象,因此對于初學(xué)者來說,建議沿著大數(shù)據(jù)處理的整個(gè)流程,對各個(gè)環(huán)節(jié)的基本概念和主要框架有個(gè)整體的認(rèn)識,之后可以再根據(jù)自己的興趣或具體崗位的需要,聚焦于某個(gè)細(xì)分領(lǐng)域,如數(shù)據(jù)可視化、數(shù)據(jù)倉庫、數(shù)據(jù)分析、數(shù)據(jù)安全等等。

大數(shù)據(jù)處理的主要環(huán)節(jié)包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用。

數(shù)據(jù)采集:大數(shù)據(jù)處理的第一步是數(shù)據(jù)采集?,F(xiàn)在的中大型項(xiàng)目會采用微服務(wù)架構(gòu)進(jìn)行分布式部署,所以數(shù)據(jù)的采集需要在多臺服務(wù)器上進(jìn)行,且采集過程不能影響正常業(yè)務(wù)的開展?;谶@種需求,就衍生了多種日志收集工具,如Flume、Logstash、Kibana等,它們都能通過簡單的配置完成復(fù)雜的數(shù)據(jù)采集和數(shù)據(jù)聚合工作。

數(shù)據(jù)存儲:采集數(shù)據(jù)后的下一個(gè)問題就是:數(shù)據(jù)該如何進(jìn)行存儲?通常大家最為熟知是MySQL、Oracle等傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,它們的優(yōu)點(diǎn)是能夠快速存儲結(jié)構(gòu)化的數(shù)據(jù)。但大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)通常是半結(jié)構(gòu)化(如日志數(shù)據(jù))甚至是非結(jié)構(gòu)化的(如視頻、音頻、網(wǎng)頁),為了解決海量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲,衍生了Hadoop HDFS、KFS、GFS等分布式可擴(kuò)展的文件系統(tǒng)。分布式文件系統(tǒng)完美地解決了海量數(shù)據(jù)存儲的問題,但是一個(gè)優(yōu)秀的數(shù)據(jù)存儲系統(tǒng)需要同時(shí)考慮數(shù)據(jù)存儲和訪問兩方面的問題,比如你希望能夠?qū)?shù)據(jù)進(jìn)行隨機(jī)訪問,這是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫所擅長的,基于這種需求,就產(chǎn)生了HBase、MongoDB。

數(shù)據(jù)分析:大數(shù)據(jù)處理最重要的環(huán)節(jié)就是數(shù)據(jù)分析,數(shù)據(jù)分析通常分為兩種:批處理和流處理。批處理是指對一段時(shí)間內(nèi)海量的離線數(shù)據(jù)進(jìn)行統(tǒng)一的處理,對應(yīng)的處理框架有Hadoop MapReduce、Spark、Flink等;流處理是指對流轉(zhuǎn)中的數(shù)據(jù)進(jìn)行處理,即在接收到數(shù)據(jù)的同時(shí)就對其進(jìn)行處理,對應(yīng)的處理框架有Storm、Spark Streaming、Flink Streaming等。批處理和流處理各有其適用的場景,時(shí)間不敏感或者硬件資源有限,可以采用批處理;時(shí)間敏感和及時(shí)性要求高就可以采用流處理。此外,為了能夠讓熟悉SQL的人員也能夠進(jìn)行數(shù)據(jù)的分析,查詢分析框架應(yīng)運(yùn)而生,常用的有Hive、Spark SQL、Flink SQL、Pig、Phoenix等。這些框架都能夠使用標(biāo)準(zhǔn)的SQL或者類SQL語法靈活地進(jìn)行數(shù)據(jù)的查詢分析,這樣,即便是沒有較強(qiáng)編程能力的非后臺工程師,也能很容易地進(jìn)行大數(shù)據(jù)分析了。

數(shù)據(jù)應(yīng)用:數(shù)據(jù)分析完成后,接下來就是具體數(shù)據(jù)應(yīng)用的范疇了,這取決于實(shí)際的業(yè)務(wù)需求。比如你可以將數(shù)據(jù)直接進(jìn)行可視化展現(xiàn)以輔助決策或預(yù)警,或者將數(shù)據(jù)用于優(yōu)化產(chǎn)品中的個(gè)性化頁面和推薦算法,或者將數(shù)據(jù)用于訓(xùn)練你的人工智能機(jī)器學(xué)習(xí)模型,這些都屬于具體大數(shù)據(jù)應(yīng)用領(lǐng)域的范疇,也都有著對應(yīng)的框架和技術(shù)??晒┦褂?。

 

新科技時(shí)代,一切皆數(shù)據(jù),大數(shù)據(jù)的概念、關(guān)系與學(xué)習(xí)路線

 

上面提及了一些標(biāo)準(zhǔn)的大數(shù)據(jù)處理流程所用到的技術(shù)框架,但是實(shí)際的大數(shù)據(jù)處理流程比上面會復(fù)雜很多,希望系統(tǒng)和全面學(xué)習(xí)大數(shù)據(jù)的朋友,這里有一本[大數(shù)據(jù)入門指南]完整介紹了針對大數(shù)據(jù)由淺入深的學(xué)習(xí)路線及重要知識點(diǎn),此外還有一本[為數(shù)據(jù)而生 大數(shù)據(jù)創(chuàng)新實(shí)踐]有很多針對大數(shù)據(jù)應(yīng)用領(lǐng)域不錯(cuò)的案例、觀點(diǎn)和方法論,有興趣的朋友可以根據(jù)下面線索獲取。

本文由網(wǎng)上采集發(fā)布,不代表我們立場,轉(zhuǎn)載聯(lián)系作者并注明出處:http://m.zmlzfb.cn/shbk/48643.html

聯(lián)系我們

在線咨詢:點(diǎn)擊這里給我發(fā)消息

微信號:15705946153

工作日:9:30-18:30,節(jié)假日休息