新用戶(hù)登錄后自動(dòng)創(chuàng )建賬號
登錄這是一個(gè)不說(shuō)自己搞大數據就不好意思和人打招呼的時(shí)代。阿里巴巴用大數據貸款,百度用大數據推廣告。那么,沒(méi)有巨頭的天然優(yōu)勢,創(chuàng )業(yè)公司具體怎么搞大數據?
開(kāi)搞之前,先明確一下目前大數據主要是用來(lái)預判,挖掘用戶(hù)的需求(也有用過(guò)去的大數據判斷現在的需求,如大數據種菜判斷菜目前的長(cháng)勢情況)。那么,預判的依據是什么?就是所謂樣本,例如我通過(guò)前幾年的平均氣溫判斷今年的溫度是高是低。
這里還可以分為三種情況:一種是我的大數據軟件自帶了很多樣本可以作為分析依據,一種是我把之前的交易數據作為樣本。第二種較先進(jìn),要求系統有自我學(xué)習建立樣本模型的能力,也就是邊干邊學(xué)。第三種最牛不光能做出預判,還能告訴你下一步怎么做,例如一家賣(mài)拖拉機的公司,為用戶(hù)提供何時(shí)在哪里種植何種作物,犁地的最佳路線(xiàn)。
首先說(shuō)一下數據來(lái)源問(wèn)題,可以是平時(shí)經(jīng)營(yíng)過(guò)程中積攢下來(lái)的也可以向別的公司購買(mǎi)(像京東那樣買(mǎi)騰訊的數據,目前國內貴州大數據交易中心和DATACOMB很出名,后面細說(shuō)).
技術(shù)關(guān)鍵:積攢數據同時(shí)要根據自己的需求為用戶(hù)和產(chǎn)品貼標簽,例如我希望了解和用戶(hù)年齡段有關(guān)的規律,那么年齡就是必須采集的一個(gè)標簽。
積攢數據的方式大致分兩類(lèi),一類(lèi)是圍繞用戶(hù),一類(lèi)是圍繞產(chǎn)品,將兩者每次交易的數據都采集下來(lái),可用人力,例如飯店服務(wù)員每次交易記錄下菜品,性別,滿(mǎn)意度之類(lèi),這一步又叫企業(yè)數據化。
然后是數據的初步處理:租服務(wù)器,建立自己的數據分析架構,例如日報表月報表這些都OUT了,應該明確適合公司的格式,如果需要這些定制需求的報表,目前流行的大數據的解決方案大部分都是以Hadoop為基礎架構。什么是Hadoop?
簡(jiǎn)單來(lái)說(shuō)Hadoop是一個(gè)分布式計算的解決方案,分布式通俗來(lái)說(shuō)就是把一件事分布到幾臺計算機上運行。由多臺計算機同時(shí)運行和存儲數據,比一臺計算機運行速度快,而且如果數據量大了,或者報表復雜導致運算速度慢,只要再加計算機就解決了。
當每臺計算機運算完畢后,會(huì )把中間結果集中到一臺計算機上,再把這些中間結果匯總起來(lái)得出最終結果。把手頭的數據進(jìn)行預處理,包括將不同數據庫的數據導入到一個(gè)數據庫中.
數據的粗選,分析,分類(lèi),會(huì )用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。先別頭大,如果你不是淘寶京東這樣的巨頭沒(méi)有那么大數據量可以不這么麻煩,剔除那些和其他數據差別很大的就行
接下來(lái),就是最核心的,數據挖掘。這一步可以挖掘出你意想不到的信息,比如,買(mǎi)啤酒的顧客通常會(huì )買(mǎi)尿布,持續買(mǎi)無(wú)香精面霜的顧客通常接下來(lái)會(huì )買(mǎi)母嬰用品。這些數據怎么挖?需要用到以下工具:
1.決策樹(shù),各種可能性的展示圖,主要用來(lái)精確分類(lèi)。例如,樹(shù)的根部是雜貨鋪里所有商品,往上走就是第一個(gè)分叉,分叉處有一個(gè)判斷標準-吃的還是用的,于是所有商品被分開(kāi)為兩個(gè)樹(shù)枝,吃的再往上走又出現分叉,于是被分成甜的和咸的...
2.神經(jīng)網(wǎng)絡(luò ),例如,計算機預判迎面走來(lái)的這個(gè)軟妹子會(huì )買(mǎi)奶茶,因為根據神經(jīng)網(wǎng)絡(luò )顯示,上次買(mǎi)咖啡,上上次買(mǎi)酸奶的,這次99.99%的概率會(huì )買(mǎi)奶茶。什么?這貨買(mǎi)的啤酒?那計算機就會(huì )根據這次的結果修改神經(jīng)網(wǎng)絡(luò )。沒(méi)錯,神經(jīng)網(wǎng)絡(luò )是具有學(xué)習能力的模擬人腦總結教訓的分析模式,他會(huì )自己得到一個(gè)穩定準確的結果。
3.關(guān)聯(lián)規則,例如上文說(shuō)的買(mǎi)啤酒的一定買(mǎi)尿布。
先看一個(gè)簡(jiǎn)單的例子,假如有下面數據集,每一組數據ti表示不同的顧客一次在商場(chǎng)購買(mǎi)的商品的集合:
t1: 牛肉、雞肉、牛奶
t2: 牛肉、奶酪
t3: 奶酪、靴子
t4: 牛肉、雞肉、奶酪
t5: 牛肉、雞肉、衣服、奶酪、牛奶
t6: 雞肉、衣服、牛奶
t7: 雞肉、牛奶、衣服
假如有一條規則:牛肉—>雞肉,那么同時(shí)購買(mǎi)牛肉和雞肉的顧客比例是3/7,而購買(mǎi)牛肉的顧客過(guò)一段時(shí)間也購買(mǎi)了雞肉的顧客比例是3/4。這兩個(gè)比例參數是很重要的衡量指標,它們在關(guān)聯(lián)規則中稱(chēng)作支持度(support)和置信度(confidence)。
前者反映了牛肉雞肉組合的吸引力,后者可用來(lái)預判消費行為。好了,現指定你想要的支持度和置信度是多少,然后把牛奶雞肉,衣服奶酪等各種組合用程序算一遍,找出支持度和置信度滿(mǎn)足你要求的組合。
其中,假如一條關(guān)聯(lián)規則的支持度和置信度很高時(shí),不代表這個(gè)規則之間就一定存在某種關(guān)聯(lián)。舉個(gè)最簡(jiǎn)單的例子,假如X和Y是最近的兩個(gè)比較熱門(mén)的商品,大家去商場(chǎng)都要買(mǎi),比如某款手機和某款衣服,都是最新款的,深受大家的喜愛(ài),那么這條關(guān)聯(lián)規則的支持度和置信度都很高,但是它們之間沒(méi)有必然的聯(lián)系。
所以,搞大數據既要對專(zhuān)業(yè)精通又要對你公司的業(yè)務(wù)精通,這也是現在公司經(jīng)常碰到的難題,此事古難全啊。
除了這些,大數據還經(jīng)常用到一些數學(xué)工具如,線(xiàn)性回歸,支持向量機等來(lái)幫助進(jìn)行比對和分類(lèi)。不要小看這些輔助工具,有時(shí)候他們是主力。美國警察用電力公司的數據與培養大麻的LED燈用電曲線(xiàn)進(jìn)行比對,數學(xué)工具就是線(xiàn)性回歸,只要發(fā)現哪家用電曲線(xiàn)和樣本相符(相符的程度用方差表示,標準老警自己定),直接踹門(mén)抓人一抓一個(gè)準。
這些數學(xué)工具很多都是用來(lái)分類(lèi)的,分類(lèi)在大數據中是個(gè)大事,例如國外有的門(mén)戶(hù)網(wǎng)站首頁(yè)分類(lèi)用大數據直接篩選出詳細頁(yè)使用頻率較高的詞匯作為各個(gè)大類(lèi)的標題。
工具列完了,下面數據挖掘正式開(kāi)幕:
大數據對于什么時(shí)候用人力什么時(shí)候用計算機也能看出來(lái)功力,中小公司更應該注意巧妙利用人力,可避免在技術(shù)上過(guò)多拼財力。比如以上的例子中大家可以看到,相似不相似,是不是關(guān)聯(lián),這些標準都是人定的。
計算機常負責一些同一個(gè)算法算大批量數據的活。美國大數據公司的老大Palantir就因精于此道而著(zhù)稱(chēng)。中小公司在這方面也有做的不錯的,最近開(kāi)始流行的圖片新聞APP 網(wǎng)新聞的策略就很值得借鑒:
網(wǎng)新聞主要是用關(guān)系圖,時(shí)間軸各種圖片展示更豐富信息,一條新聞,用戶(hù)希望在哪一點(diǎn)上獲取更深入的信息是網(wǎng)新聞最想分析的,明確了這個(gè)目的又積累了一定用戶(hù)行為的數據后,網(wǎng)新聞做了如下工作:舉個(gè)栗子,把一個(gè)新聞如釋永信事件,讓小編寫(xiě)完這條新聞就分析用戶(hù)關(guān)注這條新聞的點(diǎn)在哪,并且把各種可能性列出來(lái)。列出的結果是:
1、用時(shí)間軸展示少林寺背后的利益紛爭事件,用關(guān)系圖展示各利益相關(guān)方的關(guān)系,這兩條可以滿(mǎn)足求知欲,用戶(hù)也可以說(shuō)出去秀知識。
2、說(shuō)明佛門(mén)中的禪宗一派特點(diǎn)就是不避世俗。古代就在寺廟做小買(mǎi)賣(mài)。進(jìn)而拓展到律宗,密宗是怎么回事。
3、傳聞釋永信嫖娼,有情婦,桃色因素是一個(gè)。
4、中國法律目前對寺廟住持是怎么定性的,有哪些法律來(lái)約束,觸犯了這些法律會(huì )受到什么樣的懲罰,對事件目前形勢未來(lái)預判也是一個(gè)吸引人的因素...
這樣列出來(lái)后,進(jìn)行關(guān)聯(lián)性分析,點(diǎn)擊量高的新聞,一定是具備因素2和因素3?還是因素1和因素3?...網(wǎng)新聞?dòng)眠@種方法得出很多有價(jià)值的信息,如用戶(hù)對用圖片解釋“經(jīng)理人采購指數”感興趣還是對展示某經(jīng)濟指標對自己生活的影響更感興趣,然后用這些數據指導小編擺圖寫(xiě)稿。
另外,不要覺(jué)得分析數據預判用戶(hù)需求很屌,其實(shí)路邊賣(mài)手抓餅的也經(jīng)常能猜出你這次要不要放辣椒,就是調用的他腦中的大數據??梢宰層脩?hù)刷打折卡或者是通過(guò)QQ定外賣(mài)時(shí)顯示他平時(shí)的偏好。
這個(gè)方法需要對數據預處理去掉那些和其他數據偏離較大的數據可獲得基本的“用戶(hù)畫(huà)像”。另外還可以結合其他因素數據豐富“用戶(hù)畫(huà)像”,例如天氣炎熱或寒冷的情況下用戶(hù)的喜好,每到周末是不是多買(mǎi)一些等。
還有一個(gè)很重要的使用人力的節點(diǎn)就是先想好你想了解什么。例如,買(mǎi)啤酒的顧客會(huì )買(mǎi)尿布這個(gè)例子中,數據挖掘工程師其實(shí)提前就想到有必要查看一下啤酒和其他商品的關(guān)聯(lián),才有了這個(gè)發(fā)現,而不是計算機自己去找這兩者關(guān)系。這需要洞察力!福布斯網(wǎng)站發(fā)文稱(chēng)“首先制定好策略,然后奔著(zhù)結果找出答案”,并由此得出“問(wèn)題比答案重要”的結論。
使用大數據的流程就這些了??偨Y一下哪些地方使用人力:收集什么樣的數據需要人來(lái)做決定,想好要弄清楚哪些規律需要人來(lái)做決定。電腦主要用來(lái)存儲,以及用數學(xué)工具來(lái)進(jìn)行具體計算。哈哈,原來(lái)大數據不是巨頭們買(mǎi)一個(gè)塞滿(mǎn)房子的超級計算機把海量數據統統輸進(jìn)去然后“度昂”一下就出來(lái)結果了!我們小公司一樣可以搞??!
由于“問(wèn)題比答案重要”,再說(shuō)一下大數據領(lǐng)域提出的幾個(gè)有代表性的“問(wèn)題”。既然除了利用之前積累的數據了解用戶(hù)偏好向用戶(hù)推銷(xiāo)這次的產(chǎn)品,還可以用大數據讓用戶(hù)方便的消費來(lái)提高用戶(hù)體驗:快餐業(yè)的視頻分析。
該公司通過(guò)視頻分析等候隊列的長(cháng)度,然后自動(dòng)變化電子菜單顯示的內容。如果隊列較長(cháng),則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時(shí)間相對長(cháng)的食品。這個(gè)案例門(mén)檻極低,只要人為設定隊伍多長(cháng)算長(cháng),做食物的速度多塊算快即可,也可以人工標定一下哪些是快食哪些是慢食。
不僅可以預判需求予以滿(mǎn)足,營(yíng)銷(xiāo)時(shí)還可以定點(diǎn)營(yíng)銷(xiāo)。此類(lèi)打法常常是從別的機構購得數據或者連錢(qián)都不花從政府開(kāi)放的數據中拿,一家領(lǐng)先的專(zhuān)業(yè)時(shí)裝零售商,通過(guò)當地的百貨商店、網(wǎng)絡(luò )及其郵購目錄業(yè)務(wù)為客戶(hù)提供服務(wù)。
公司希望向客戶(hù)提供差異化服務(wù),如何定位公司的差異化,他們通過(guò)從Twitter 和Facebook 上收集社交信息,更深入的理解化妝品的營(yíng)銷(xiāo)模式,隨后他們認識到必須保留兩類(lèi)有價(jià)值的客戶(hù):高消費者和高影響者。然后通過(guò)免費化妝服務(wù),對這兩類(lèi)消費者進(jìn)行精準的宣傳。這個(gè)案例中,需要用到的工具有用于歸類(lèi)的線(xiàn)性回歸,聚類(lèi)分析等。
數據的來(lái)源問(wèn)題:由于沒(méi)有巨頭那樣的數據積累,中小企業(yè)經(jīng)常想到購買(mǎi)數據,或使用政府公開(kāi)的免費數據。目前國內掌握大數據的巨頭不夠開(kāi)放,形成了讓仁人志士頭大的“數據堰塞湖”。雖然也有開(kāi)放數據的,例如中國首個(gè)大數據開(kāi)放平臺DataComb,對于掌握一些數據的公司來(lái)說(shuō)也多了一些數據變現的渠道,然而對疏通“堰塞湖”并沒(méi)有太大作用。
也有好消息,8月19日,國務(wù)院常務(wù)會(huì )議審議通過(guò)《關(guān)于促進(jìn)大數據發(fā)展的行動(dòng)綱要》,全面公開(kāi)應該就在眼前了。在美國最重要的數據開(kāi)放平臺就是奧巴馬政府在2009年推出的Data.gov,奧巴馬同學(xué)對搞大數據一向蠻拼的。
另外,創(chuàng )業(yè)公司切記,巨頭們整天嚷嚷的“大數據不必追求精確,犧牲精確性可以換取效率和更多規律的發(fā)現”,可問(wèn)題是那是在數據量異常大的情況下,對中小企業(yè)數據量不太大時(shí)務(wù)必要精確。
總的來(lái)說(shuō),大數據分析可謂是兵無(wú)常勢,水無(wú)常形,真正厲害的數據挖掘大師是碰到什么樣的形勢知道用什么樣的工具來(lái)解決的人。中小企業(yè)玩大數據切記:1.不炒概念。2.不燒錢(qián)。切實(shí)用大數據提升企業(yè)競爭力才是王道。