新用戶(hù)登錄后自動(dòng)創(chuàng )建賬號
登錄概念大數據
大數據的基本規則是,Bigger than Bigger(沒(méi)有最大,只有更大)。
? 什么是大數據?
大數據就是數量極其龐大的數據資料,無(wú)法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量復雜的數據集合。
? 大數據有多大?
1ZB=1024EB=10242PB=10243TB=10244GB。
如果你有一臺1TB硬盤(pán)容量的電腦,那1ZB就是約等于10億臺電腦的容量,遠遠超出了我們一般的想象。
? 一天之內互聯(lián)網(wǎng)上會(huì )產(chǎn)生多少大數據?
?互聯(lián)網(wǎng)一天產(chǎn)生的內容=刻滿(mǎn)1.68億張
?2940億封郵件=美國兩年紙質(zhì)信件的數量
?200萬(wàn)個(gè)帖子=《時(shí)代》雜志770年文字量
?Facebook上2.5億張圖片=80座埃菲爾鐵塔高
特征大數據
Volume——數據量大
大數據的起始計量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T)。
Velocity——速度快時(shí)效高
要求秒級范圍內給出處理結果。如搜索引擎要求幾分鐘前的新聞能夠被用戶(hù)查詢(xún)到,個(gè)性化推薦算法盡可能要求實(shí)時(shí)完成推薦。這是大數據區別于傳統數據挖掘的顯著(zhù)特征。
Variety——類(lèi)型繁多
種類(lèi)和來(lái)源多樣化。包括結構化、半結構化和非結構化數據,如網(wǎng)絡(luò )日志、音頻、視頻、圖片、地理位置信息等。
Fluctuation——周期性波動(dòng)
伴隨快速性,數據流呈現出波動(dòng)的特征,不穩定的數據流會(huì ) 隨著(zhù)日、季節、特定事件的觸發(fā)出現周期性峰值。
Value——價(jià)值密度低
浪里淘沙卻又彌足珍貴。以視頻數據為例,連續不間斷監控過(guò)程中,可能有用的數據僅僅有一兩秒。
Online——數據在線(xiàn)
數據是隨時(shí)能調用和計算的,這是大數據區別于傳統數據最大的特征。如對于打車(chē)工具,客戶(hù)的數據和出租司機數據都是實(shí)時(shí)在線(xiàn)的,這樣的數據才有意義。