關于大數據最常見的10個問題
1、云計算與大數據是什么關系?
云計算的關鍵詞在于“整合”,無論你是通過現在已經很成熟的傳統(tǒng)的虛擬機切分型技術,還是通過google后來所使用的海量節(jié)點聚合型技術,他都是通過將海量的服務器資源通過網絡進行整合,調度分配給用戶,從而解決用戶因為存儲計算資源不足所帶來的問題。
大數據正是因為數據的爆發(fā)式增長帶來的一個新的課題內容,如何存儲如今互聯(lián)網時代所產生的海量數據,如何有效的利用分析這些數據等等。
他倆之間的關系你可以這樣來理解,云計算技術就是一個容器,大數據正是存放在這個容器中的水,大數據是要依靠云計算技術來進行存儲和計算的。
兩者關系:
首先,云計算是提取大數據的前提。
信息社會,數據量在不斷增長,技術在不斷進步,大部分企業(yè)都能通過大數據獲得額外利益。在海量數據的前提下,如果提取、處理和利用數據的成本超過了數據價值本身,那么有價值相當于沒價值。來自公有云、私有云以及混合云之上的強大的云計算能力,對于降低數據提取過程中的成本不可或缺。
其次,云計算是過濾無用信息的“神器”。
首次收集的數據中,一般而言,90%屬于無用數據,因此需要過濾出能為企業(yè)提供經濟利益的可用數據。在大量無用數據中,重點需過濾出兩大類,一是大量存儲著的臨時信息,幾乎不存在投入必要;二是從公司防火墻外部接入到內部的網絡數據,價值極低。云計算可以提供按需擴展的計算和存儲資源,可用來過濾掉無用數據,其中公有云是處理防火墻外部網絡數據的最佳選擇。
再次,云計算可高效分析數據。
數據分析階段,可引入公有云和混合云技術,此外,類似Hadoop的分布式處理軟件平臺可用于數據集中處理階段。當完成數據分析后,提供分析的原始數據不需要一直保留,可以使用私有云把分析處理結果,即可用信息導入公司內部。
最后,云計算助力企業(yè)管理虛擬化。
可用信息最終用來指導決策,通過將軟件即服務應用于云平臺中,可將可用信息轉化到企業(yè)現有系統(tǒng)中,幫助企業(yè)強化管理模式。
上升到我國互聯(lián)網整體發(fā)展層面,雖然我國在互聯(lián)網服務方面具有領先的優(yōu)勢,然而,越來越多的企業(yè)認識到,與云計算的結合將使大數據分析變得更簡單,未來幾年,如能在大數據與云計算結合領域進行深入探索,將使我們在全球市場更具競爭力,這是非常關鍵的問題。
2、大數據需要什么人才?
大數據需要以下六類人才:
大數據系統(tǒng)研發(fā)工程師
這一專業(yè)人才負責大數據系統(tǒng)研發(fā),包括大規(guī)模非結構化數據業(yè)務模型構建、大數據存儲、數據庫構設、優(yōu)化數據庫構架、解決數據庫中心設計等,同時,還要負責數據集群的日常運作和系統(tǒng)的監(jiān)測等,這一類人才是任何構設大數據系統(tǒng)的機構都必須的。
大數據應用開發(fā)工程師
此類人才負責搭建大數據應用平臺以及開發(fā)分析應用程序,他們必須熟悉工具或算法、編程、優(yōu)化以及部署不同的MapReduce,他們研發(fā)各種基于大數據技術的應用程序及行業(yè)解決方案。其中,ETL開發(fā)者是很搶手的人才,他們所做的是從不同的源頭抽取數據,轉換并導入數據倉庫以滿足企業(yè)的需要,將分散的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫,成為聯(lián)機分析處理、數據挖掘的基礎,為提取各類型的需要數據創(chuàng)造條件。
大數據分析師
此類人才主要從事數據挖掘工作,運用算法來解決和分析問題,讓數據顯露出真相,同時,他們還推動數據解決方案的不斷更新。隨著數據集規(guī)模不斷增大,企業(yè)對Hadoop及相關的廉價數據處理技術如Hive、HBase、MapReduce、Pig等的需求將持續(xù)增長,具備Hadoop框架經驗的技術人員是最搶手的大數據人才,他們所從事的是熱門的分析師工作。
數據可視化工程師
此類人才負責在收集到的高質量數據中,利用圖形化的工具及手段的應用,清楚地揭示數據中的復雜信息,幫助用戶更好地進行大數據應用開發(fā),如果能使用新型數據可視化工具如Spotifre,Qlikview和Tableau,那么,就成為很受歡迎的人才。
數據安全研發(fā)人才
此類人才主要負責企業(yè)內部大型服務器、存儲、數據安全管理工作,并對網絡、信息安全項目進行規(guī)劃、設計和實施,而對于數據安全方面的具體技術的人才就更需要了,如果數據安全技術,同時又具有較強的管理經驗,能有效地保證大數據構設和應用單位的數據安全,那就是搶手的人才
數據科學研究人才
數據科學研究是一個全新的工作,夠將單位、企業(yè)的數據和技術轉化為有用的商業(yè)價值,隨著大數據時代的到來,越來越多的工作、事務直接涉及或針對數據,這就需要有數據科學方面的研究專家來進行研究,通過研究,他們能將數據分析結果解釋給IT部門和業(yè)務部門管理者聽,數據科學專家是聯(lián)通海量數據和管理者之間的橋梁,需要有數據專業(yè)、分析師能力和管理者的知識,這也是搶手的人才。
3、大數據行業(yè)的從業(yè)者是從哪獲得數據的?
大數據行業(yè)的從業(yè)者有多種途徑獲得數據,也就是我們常說的數據源,具體有一下幾種:
1、官方數據(政府部門或企業(yè)直接提供的數據或數據接口);
2、半官方數據:如各類行業(yè)協(xié)會,俱樂部;
3、各個平臺的數據:如淘寶網、京東、唯品會,有些會免費開發(fā)數據,還有一部分是付費的數據軟件;
4、再然后就是從業(yè)者自己收集的數據,一般都是用一些數據采集工具或軟件,工具如:爬蟲軟件,百度蜘蛛等;
5、最后就是購買的數據,一般有一些專門數據采集的機構,像艾瑞、浪潮,以及傳統(tǒng)的調研企業(yè)。
數據的獲取方式有很多種,同樣,數據的使用方式也有很多種,比如說行業(yè)銷售趨勢,有人用銷售額數據,有人用銷量數據。數據就像一個任人打扮的姑娘,使用的人會選取自己想要的數據來展示,所以考量數據的真實性,一個是數據來源,還有就是數據的選擇是否合理。
4、大數據分析的常用方法有哪些?
1.?Analytic?Visualizations(可視化分析)
不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求??梢暬梢灾庇^的展示數據,讓數據自己說話,讓觀眾聽到結果。
2.?Data?Mining?Algorithms(數據挖掘算法)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數據內部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。
3.?Predictive?Analytic?Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
4.?Semantic?Engines(語義引擎)
由于非結構化數據的多樣性帶來了數據分析的新的挑戰(zhàn),需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。
5.?Data?Quality?and?Master?Data?Management(數據質量和數據管理)
數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。
5、央行征信和大數據征信的不同之處
1、確實有不同之處,央行征信是傳統(tǒng)征信方式,大數據征信是伴隨互聯(lián)網金融發(fā)展起來的。
2、央行征信與大數據征信差異主要從征信數據來源、權威性、數據完整性、用途等維度區(qū)分。
3、央行征信特點:數據主要來自銀行、證券、保險、社保等體系里構成一個數據循環(huán),權威性高,數據基本完整,主要用于資產評估、銀行放貸、信用卡額度等。
5、大數據征信特點:數據主要來自互聯(lián)網各大平臺,使用互聯(lián)網技術抓取或接口合作獲取征信數據,資質再好一點的企業(yè)可以申請接入央行征信,權威性不如央行征信,但隨著互聯(lián)網金融的發(fā)展會越來越重要,數據完整性各大數據征信平臺不同,主要用于互聯(lián)網金融,例如P2P,如果p2p拿不到央行征信數據風險會很大。
6、展望未來:隨著互聯(lián)網金融的發(fā)展,大數據征信與央行征信會不斷融合直至融為一體,真正的滿足數據的完整性,那違法犯罪基本就真的大大減少了,信用真的就是錢!
6、如何構建銀行業(yè)大數據分析平臺?
一是銀行與電商平臺形成戰(zhàn)略合作。銀行業(yè)共享小微企業(yè)在電商平臺上的經營數據和經營者的個人信息,由電商平臺向銀行推薦有貸款意向的優(yōu)質企業(yè),銀行通過交易流水、買賣雙方評價等信息,確定企業(yè)資信水平,給予授信額度。建設銀行曾在這方面做過有益的嘗試。此外也有銀行參股電商、開展數據合作的案例。
二是銀行自主搭建電商平臺。銀行自建電商平臺,獲得數據資源的獨立話語權。在為客戶提供增值服務的同時,獲得客戶的動態(tài)商業(yè)信息,為發(fā)展小微信貸奠定基礎,是銀行搭建電商平臺的驅動力。2012年,建設銀行率先上線“善融商務”,提供B2B和B2C客戶操作模式,涵蓋商品批發(fā)、商品零售、房屋交易等領域,為客戶提供信息發(fā)布、交易撮合、社區(qū)服務、在線財務管理、在線客服等配套服務,提供的金融服務已從支付結算、托管、擔保擴展到對商戶和消費者線上融資服務的全過程。
三是銀行建立第三方數據分析中介,專門挖掘金融數據。例如,有的銀行將其與電商平臺一對一的合作擴展為“三方合作”,在銀行與電商之間,加入第三方公司來負責數據的對接,為銀行及其子公司提供數據分析挖掘的增值服務。其核心是對客戶的交易數據進行分析,準確預測客戶短時間內的消費和交易需求,從而精準掌握客戶的信貸需求和其他金融服務需求。
銀行業(yè)有處理數據的經驗和人才。數據分析和計量模型技術在傳統(tǒng)數據領域已得到較充分運用,同時也培養(yǎng)出大批精通計量分析技術的人才。如在風險管理方面,我國金融監(jiān)管部門在與國際接軌過程中,引入巴塞爾新資本協(xié)議等國際準則,為銀行業(yè)提供了一套風險管理工具體系。銀行在此框架下,利用歷史數據測度信用、市場、操作、流動性等各類風險,內部評級相關技術工具已發(fā)揮出效果,廣泛應用于貸款評估、客戶準入退出、授信審批、產品定價、風險分類、經濟資本管理、績效考核等重要領域。
7、為什么需要大數據技術?
大數據到底是什么?我們?yōu)槭裁葱枰髷祿夹g?
從本質上來說,大數據就是曾經被稱為數據倉庫的邏輯延伸。顧名思義,大數據就是一個大型的數據倉庫,一般有一個能支持業(yè)務決策的業(yè)務重點。但是,它和傳統(tǒng)數據庫不同的是,大數據不用構建。
在典型的數據庫中,數據會被組織成標準的字段,并使用特定的密鑰索引。如果你熟悉Microsoft?Access應用程序,那么你就能完全理解這個概念。比如,一個顧客記錄可以由姓氏、名字、地址和其它信息組成有通用標簽的字段。每個顧客記錄樣式都是相同的,這樣可以通過使用搜索關鍵詞來檢索,比如搜索姓氏。
現在,如果你想鏈接到這些客戶記錄需要怎么做?鏈接到客戶的圖片或者視頻呢?如果是鏈接到客戶的所有記錄呢?
將這么多不同的數據源互相映射,一般的數據庫還做不到。另外,需要鏈接的數據量是非常巨大的。這就產生了“大數據”的概念。大數據使用特殊的數據結構來組織和訪問巨大數量的數據,可能達到多個艾字節(jié)的范圍。一般情況下,這需要跨多個服務器和離散數據存儲進行并行計算,而小企業(yè)往往難以維持這種大數據的存儲庫。但是,大數據正逐漸成為云服務提供商能提供的一種服務,從而把大數據應用推向更多的公司。
但是,還有一個“大”問題,就是我們?yōu)槭裁葱枰髷祿??答案就是相關性的價值。如果你能看到乍一看似乎沒什么關系的數據設置之間的關系,你會獲取很多重要信息。比如你想知道你的公司是不是容易被黑客利用。那么你需要跨多個應用程序和數據中心檢查無數條交易。這時如果沒有大數據技術和相關的分析技術,這幾乎是不可能完成的。
最終,隨著數據量的增長、業(yè)務的可用性和重要性的增加,大數據的定義可能會用來描述大多數數據庫應用。IT專業(yè)人士應該掌握大數據相關概念和術語,以免遇到困難。
8、企業(yè)大數據如何起步?
大數據應該是從小數據逐漸演變上去的,是一個正常的生態(tài),而不是瞬間變化的。
大數據這個概念跟自媒體的概念類似,需要企業(yè)自己去建設,而不是從一開始就想著依靠別人。很多企業(yè)在談自媒體的時候,像談別人的事情一樣。比如一談自媒體,就覺得那是第三方提供的一個平臺,大家在那兒發(fā)發(fā)牢騷。自媒體是自己的媒體,企業(yè)自己也要參與進去。同樣大數據不是別人的大數據,我們假設有一個第三方提供了大量的數據,有很多很多信息,CI、BI之類的很多模塊化東西供我們來用。如果這樣的話,你有,競爭對手也有,你能得到的東西,競爭對手也能得到的情況下,就不能稱之為核心競爭力。
大數據作為企業(yè)來說要變成自身的一個競爭力,企業(yè)必須得建立自己的企業(yè)級的數據。
要做大數據,首先要了解自己的企業(yè),或者自己所在的行業(yè)的核心是什么。我們現在經常發(fā)現,有很多企業(yè)在競爭的過程中,最終不是被現在的競爭對手打敗,而是被很多不是你的競爭對手所打敗。很簡單的一個例子,大家都認為亞馬遜是做電商的,但這是錯的,它現在最主要的收入來自于云(云服務)。也就是說企業(yè)需要找到自己的核心數據(價值),這個是最關鍵的。只有在這個基礎上,建立自己的大數據才有可能,才能做一些延伸。其次,要找到內部的一些外圍相關數據,去慢慢地成長它。有點像滾雪球,第一層是核心,第二層是外圍相關的數據。第三層是什么?就是外部機構的一些結構化數據。第四層是社會化的,以及各種現在所謂的非結構化的數據。這幾層要一層一層地找到它,而且要找到與自己相關的有價值的東西。這樣你的大數據才能建立起來。
1、找到核心數據。核心數據現在對很多企業(yè)來說實際上就是CRM,自己的用戶系統(tǒng),這是最重要的。
2、常規(guī)渠道的數據。舉例來說一個銷售快銷品的企業(yè),能不能夠得到沃爾瑪的數據,家樂福的數據?很多國外大數據的案例,說消費者買啤酒的時候也會購買剃須刀之類,或者一個母嬰產品的消費者她今天在買這個產品,預示著她后面必然會買另一個產品。這就有一個前期的挖掘。這些價值怎么來的,這就需要企業(yè)去找常規(guī)渠道里面的數據,跟自己的CRM結合起來,才能為自己下一步做市場營銷、做推廣、產品創(chuàng)新等建立基礎。
3、外部的社會化的或者非結構化的數據,即現在所謂的社會化媒體數據。這方面信息的主要特征是非結構化,而且非常龐大。這對企業(yè)來說最大的價值是什么?當你的用戶在社會化媒體上發(fā)言的時候,你有沒有跟他建立聯(lián)系?這里有個概念叫做DC(digital?connection)。所謂的互聯(lián)網實際就是一種DC,但是通?;ヂ?lián)網上的那種DC是在娛樂層面。用到商業(yè)里面的話,就是企業(yè)必須得跟消費者建立這種DC關系,它的價值才能發(fā)揮出來。否則,你的數據以及很多的CRM數據都是死的。就像國外CRM之父Paul?Greenberg寫的四本CRM相關書籍,前面三本都是在講數據庫、系統(tǒng)之類的。第四本書的時候,就沒有再講那些東西,講什么?講互動,講DC,講怎么跟消費者建立關系。
有了這個數據庫去進行數據挖掘,或者在建立數據的過程中,企業(yè)需要從什么方向去探索,也不是漫無目的的。首先應該跟著你的業(yè)務,業(yè)務現在有哪些問題,或者說這個行業(yè)里面主要的競爭點在哪里,這是很關鍵的。有了這個業(yè)務關系以后,再形成假設,也就是說未來的競爭點可能在哪里,大到未來的戰(zhàn)略競爭,小到哪些方面。然后下一步要怎么做,這些形成一個假設,其次做一些小樣本的測試。
很多企業(yè)一看大數據就很恐怖,說我也買不起那些大數據,也雇不起那么專業(yè)的團隊,怎么辦?
自己做一些小樣本的測試,甚至通過電子表格Excel都可以做數據挖掘。不一定非要那么龐大、那么貴的數據。然后再做大樣本的驗證,驗證出來的結果就可以應用到現實中去。在大數據尤其是互聯(lián)網時代還有一個最重要的點,就是失效預警。即你發(fā)現一個規(guī)律,在現實中應用了,但是你一定要設立一些預警指標。就是當指標達到什么程度的時候,之前發(fā)現的規(guī)律失效,那你就必須發(fā)現新的、相關的,否則也會造成一種浪費。筆者看到一篇文章,其中有一個重要結論。大家都在說大數據的價值很有用的時候,很多企業(yè)說我積累了多少TB,多少PB,但是你基于老的數據得出的很多結論實際是在浪費你的資源。你挖掘出來很多數據、很多規(guī)律,如果錯了,明天按這個去做,就是浪費。因此需要有一個失效預警。在這樣的過程中,最終你需要對應建立起內部團隊,他們對數據的敏感度也才能培養(yǎng)起來。這時候你再去買大數據服務的時候才是有價值的。
所有這些工作作為企業(yè)來說是需要內部去做的,最終才能開花結果,有一些收獲。企業(yè)大數據起步,要從小數據開始。
9、大數據處理中數據質量監(jiān)控從哪幾個方面進行?
大數據處理中數據質量監(jiān)控,從以下幾個方面進行:
數據容量(Volume):數據的大小決定所考慮的數據的價值的和潛在的信息;
數據種類(Variety):數據類型的多樣性;
數據速度(Velocity):指獲得數據的速度;
數據可變性(Variability):妨礙了處理和有效地管理數據的過程;
數據真實性(Veracity):數據的質量;
數據復雜性(Complexity):數據量巨大,來源多渠道。
“大數據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
10、大數據是否存在泡沫呢?
這是必然的,任何一個影響極大的“概念”被炒作起來后,都會在一段時間內形成強大的原動力,使各行各業(yè)的人們?yōu)橹冻龌蛘婊蚣?、或實或虛的努力,群眾的力量是龐大的,因此這一新事物將有力的推動一下歷史的進程,當又一個新的技術或理論出來后,前一個被推向高潮的概念就成了泡沫了。
“大數據”是指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,靠人腦是無法進行處理的,結論的真假優(yōu)劣完全取決于使用的軟件,所以其結果絕非完美無瑕,作為商業(yè)用途,能夠提供一些參考,既然只能作為一個參考,那么將之推高到一定程度的時候就會形成泡沫,漸漸被人遺棄和遺忘。