當(dāng)今社會(huì)是一個(gè)快速發(fā)展的社會(huì),科學(xué)技術(shù)發(fā)達(dá),信息流動(dòng),人與人之間的交流越來(lái)越密切,生活越來(lái)越方便,大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。隨著大數(shù)據(jù)的不斷普及,未來(lái)將與更多行業(yè)結(jié)合,就業(yè)前景非常好。越來(lái)越多的組織,無(wú)論大小,新進(jìn)入市場(chǎng)的還是已建立的,都準(zhǔn)備為大數(shù)據(jù)初級(jí)工程師支付高薪。
大數(shù)據(jù)工程師有什么特征
1. 海量數(shù)據(jù):在當(dāng)今的數(shù)字時(shí)代,人們的日常生活正在產(chǎn)生大量的數(shù)據(jù)。大數(shù)據(jù)不再以GB或TB來(lái)衡量,而是以PB、EB或ZB來(lái)衡量,從TB躍升到PB、EB甚至ZB級(jí)別。顧名思義,這是大數(shù)據(jù)的第一個(gè)特征。
2. 數(shù)據(jù)種類繁多:全球結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)率分別為32%和63%,其中web日志、音視頻、圖片、地理位置信息等非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量約占80%,并在逐步增加。然而,產(chǎn)生人類智能的大數(shù)據(jù)往往是這種非結(jié)構(gòu)化數(shù)據(jù)。
3. 數(shù)據(jù)價(jià)值密度低:大數(shù)據(jù)的重點(diǎn)不在于數(shù)據(jù)量的增長(zhǎng),而在于信息爆炸時(shí)代對(duì)數(shù)據(jù)價(jià)值的重新挖掘。如何挖掘大數(shù)據(jù)的有效信息至關(guān)重要。值密度與數(shù)據(jù)總量的大小成反比。雖然低價(jià)值密度是大數(shù)據(jù)日益突出的特征,但研究和分析大數(shù)據(jù)仍具有深遠(yuǎn)的意義,大數(shù)據(jù)的價(jià)值仍不可估量。
4. 數(shù)據(jù)生成和處理速度:美國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心指出,企業(yè)數(shù)據(jù)正以每年55%的速度增長(zhǎng),互聯(lián)網(wǎng)數(shù)據(jù)將以每年50%的速度增長(zhǎng),并且每?jī)赡陮⒎环?。除了?shù)據(jù)的大小,數(shù)據(jù)的價(jià)值還與數(shù)據(jù)處理的速度成正比,即數(shù)據(jù)處理的速度越快、越及時(shí),其發(fā)揮的效率和價(jià)值就越大。
大數(shù)據(jù)工程師就業(yè)機(jī)會(huì)
根據(jù)“十四五”規(guī)劃,大數(shù)據(jù)產(chǎn)業(yè)規(guī)模預(yù)計(jì)超過(guò)3萬(wàn)億元。為了實(shí)現(xiàn)這一目標(biāo),中國(guó)的大數(shù)據(jù)技術(shù)必須將數(shù)據(jù)存儲(chǔ)、計(jì)算、傳輸?shù)阮I(lǐng)域提高到國(guó)際先進(jìn)水平。
特別是進(jìn)入數(shù)字時(shí)代,落實(shí)新發(fā)展理念,全面深層次激活數(shù)據(jù)要素潛力,釋放數(shù)據(jù)要素價(jià)值,將帶動(dòng)大數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展。數(shù)據(jù)顯示,從2018年到2023年,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模呈逐年增長(zhǎng)趨勢(shì)。到2020年底,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將達(dá)到6388億元;預(yù)計(jì)到2023年,中國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將達(dá)到10099.3億元。
大數(shù)據(jù)工程師需具備的能力
數(shù)學(xué)和統(tǒng)計(jì)學(xué)背景
在我們采訪的BAT三大互聯(lián)網(wǎng)公司中,對(duì)大數(shù)據(jù)工程師的要求都是具有統(tǒng)計(jì)和數(shù)學(xué)背景的碩士或博士學(xué)位。沈志勇認(rèn)為,缺乏理論背景的數(shù)據(jù)工作者更容易在技能上進(jìn)入一個(gè)危險(xiǎn)地帶——一堆數(shù)字,根據(jù)不同的數(shù)據(jù)模型和算法總能算出一些結(jié)果,但如果你不知道它代表什么,那就不是真正有意義的結(jié)果,而且這樣的結(jié)果很容易誤導(dǎo)你。“只有掌握了一定的理論知識(shí),你才能理解模型,重用模型,甚至創(chuàng)新模型來(lái)解決實(shí)際問(wèn)題。”沈志勇說(shuō)。
計(jì)算機(jī)編碼能力
實(shí)際開發(fā)能力和大規(guī)模數(shù)據(jù)處理能力是成為大數(shù)據(jù)工程師的一些基本要素。“因?yàn)楹芏鄶?shù)據(jù)的價(jià)值來(lái)自于挖掘的過(guò)程,你必須親自動(dòng)手才能發(fā)現(xiàn)黃金的價(jià)值。”鄭立峰說(shuō)。
例如,人們?cè)谏缃痪W(wǎng)絡(luò)上生成的許多記錄現(xiàn)在都是非結(jié)構(gòu)化數(shù)據(jù),如何從這些毫無(wú)頭緒的文本、聲音、圖像甚至視頻中提取有意義的信息取決于大數(shù)據(jù)工程師。即使在一些團(tuán)隊(duì)中,大數(shù)據(jù)工程師的角色主要是業(yè)務(wù)分析,熟悉計(jì)算機(jī)處理大數(shù)據(jù)的方式也是很重要的。