在深度學(xué)習(xí)興起之前,“數(shù)據(jù)”大多是結(jié)構(gòu)化數(shù)據(jù)(表格);而到了大數(shù)據(jù)時(shí)代,“數(shù)據(jù)”不只是結(jié)構(gòu)化數(shù)據(jù),更多的是非結(jié)構(gòu)化數(shù)據(jù)(圖片,聲音,視頻)。一、大數(shù)據(jù)發(fā)展現(xiàn)狀1.什么是大數(shù)據(jù)大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
1、大數(shù)據(jù)是什么?
采集記錄足夠多的數(shù)據(jù),使工作更加針對化和精準(zhǔn)化,這是大數(shù)據(jù)嗎?這不是大數(shù)據(jù)而只是數(shù)據(jù)化。什么是大數(shù)據(jù)呢?例如洛杉磯警方曾對以往的刑事案件做了統(tǒng)計(jì),通過算法得出了第二天的高概率犯罪地點(diǎn),然后有針對性的派警察去該處巡邏,從而使得當(dāng)?shù)氐姆缸铿F(xiàn)象下降20%,這是大數(shù)據(jù)。再比如,經(jīng)濟(jì)學(xué)家都認(rèn)為股票無法預(yù)測,而一位劍橋大學(xué)畢業(yè)的博士搞了個(gè)公司,對有史以來幾乎所有的證券交易的數(shù)據(jù)進(jìn)行記錄,然后通過算法進(jìn)行分析,
他對什么國家政策、公司業(yè)績、行業(yè)走向等等一眼都不看,100%地排除主觀意志的,只根據(jù)計(jì)算結(jié)果來進(jìn)行投資,最后賺了大錢。這是大數(shù)據(jù),大數(shù)據(jù)的精髓并不在于數(shù)據(jù)的精準(zhǔn)和數(shù)量,而在于對內(nèi)在規(guī)律的挖掘和對未來趨勢的預(yù)測。其思路是:一個(gè)結(jié)果是有很多原因的,原因作用的強(qiáng)度可能是隨機(jī)的,我們對其中作用的機(jī)理并不清楚,
我們難以找出規(guī)律性,但知道規(guī)律性就蘊(yùn)含在結(jié)果數(shù)據(jù)之中,如果我們能建設(shè)合適的模型,寫出好的算法,就有可能把這個(gè)規(guī)律性提煉出來,從而能科學(xué)地發(fā)現(xiàn)真相和預(yù)測未來。今天上午在貴州省大數(shù)據(jù)中心看到了大數(shù)據(jù)應(yīng)用的事例,金潤建設(shè)和鵬潤達(dá)這兩家企業(yè)分別投標(biāo)200多次,一次也沒中過,依然積極地投。投標(biāo)是要成本的,這兩家公司那里來的動(dòng)力?通過大數(shù)據(jù)的知識(shí)挖掘技術(shù),發(fā)現(xiàn)了它們總是陪著固定的一家公司一同招標(biāo),最后總是那家公司中標(biāo),
2、大數(shù)據(jù)時(shí)代,數(shù)據(jù)的核心價(jià)值體現(xiàn)在哪里?掌握大數(shù)據(jù)技術(shù)的高端人才,發(fā)展機(jī)遇有多大?
一、大數(shù)據(jù)發(fā)展現(xiàn)狀1.什么是大數(shù)據(jù)大數(shù)據(jù)是指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征,
大數(shù)據(jù)是一種需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。2.大數(shù)據(jù)戰(zhàn)略意義大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分,大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲(chǔ)、虛擬化技術(shù)。3.大數(shù)據(jù)發(fā)展現(xiàn)狀大數(shù)據(jù)相關(guān)技術(shù)、產(chǎn)品、應(yīng)用和標(biāo)準(zhǔn)不斷發(fā)展,逐漸形成了包括數(shù)據(jù)資源與API、開源平臺(tái)與工具、數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用等板塊構(gòu)成的大數(shù)據(jù)生態(tài)系統(tǒng),并持續(xù)發(fā)展和不斷完善,其發(fā)展熱點(diǎn)呈現(xiàn)了從技術(shù)向應(yīng)用、再向治理的逐漸遷移,
經(jīng)過多年來的發(fā)展和沉淀,人們對大數(shù)據(jù)已經(jīng)形成基本共識(shí):大數(shù)據(jù)現(xiàn)象源于互聯(lián)網(wǎng)及其延伸所帶來的無處不在的信息技術(shù)應(yīng)用以及信息技術(shù)的不斷低成本化。大數(shù)據(jù)泛指無法在可容忍的時(shí)間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具對其進(jìn)行獲取、管理和處理的巨量數(shù)據(jù)集合,具有海量性、多樣性、時(shí)效性及可變性等特征,需要可伸縮的計(jì)算體系結(jié)構(gòu)以支持其存儲(chǔ)、處理和分析,
當(dāng)互聯(lián)網(wǎng)技術(shù)發(fā)展到今天,大數(shù)據(jù)和云計(jì)算早已滲透我們生活。大數(shù)據(jù)以“降低信息不對稱和提高決策有效性”為目標(biāo),可廣泛作用于幾乎所有行業(yè),必將掀起一場新的革命,目前,大數(shù)據(jù)已經(jīng)迎來了高速發(fā)展的黃金成長期,作用正在日漸也凸顯,我們看好其發(fā)展趨勢,推薦投資者提高對其中孕育機(jī)會(huì)的關(guān)注度,從源到流看,大數(shù)據(jù)涵蓋數(shù)據(jù)入口、數(shù)據(jù)融合處理、數(shù)據(jù)應(yīng)用三個(gè)過程;按照物理分層,大數(shù)據(jù)又可以分為硬件、基礎(chǔ)軟件、應(yīng)用軟件和信息服務(wù)四個(gè)維度。