什么是大數(shù)據(jù)?要簡單通俗點的解釋?:什么是大數(shù)據(jù)及應用?大數(shù)據(jù)即為海量數(shù)據(jù)。人類生活在三維空間中,一草一木,一山一水,人類活動的行為軌跡,都能用數(shù)據(jù)來表
什么是大數(shù)據(jù)及應用?大數(shù)據(jù)即為海量數(shù)據(jù)。人類生活在三維空間中,一草一木,一山一水,人類活動的行為軌跡,都能用數(shù)據(jù)來表達。如企業(yè)的生產運營,商品標準。政府的管理決策,消費者的消費水平,消費習慣。地理環(huán)境的一條公路,一條河流等等。每方面都有每方面的大數(shù)據(jù)。每個行業(yè)都有每個行業(yè)的大數(shù)據(jù)。通過各企業(yè),行業(yè),社會主體等等數(shù)據(jù)的集成。形成了概念更大,更有價值的大數(shù)據(jù)流。通過宇宙萬物是互聯(lián)的原理。以及邏輯關系的分析。能夠得到。關于社會治理,企業(yè)運營,個人服務的便捷可靠,真實的服務方案。一件事物的組成并非由單一因素組成。由多方組合或者協(xié)同完成的。一件衣服的完成,要有生產布料的廠家,制衣廠家,制扣廠家,制線廠家,設計方,工人加工等等環(huán)節(jié)組合而成。大數(shù)據(jù)也是如此。大數(shù)據(jù)應用也是如此。人類剛剛邁入數(shù)字經濟時代。既為以數(shù)據(jù)為生產資料的時代。誰能掌握大數(shù)據(jù)以及大數(shù)據(jù)的應用?更好地服務于人類社會。誰就占據(jù)了未來財富以及地位的制高點。中國戰(zhàn)略性新興產業(yè)聯(lián)盟河北唐冠眾興科技有限公司畢紹鵬回答
大數(shù)據(jù),不僅僅是數(shù)據(jù)量大,同時在其他方面,也有一定的特點。
第一,大數(shù)據(jù)數(shù)據(jù)體量非常大,傳統(tǒng)的單機存儲系統(tǒng),已經無法在存儲這么大量的數(shù)據(jù),此時需要用到分布式存儲技術。
第二,大數(shù)據(jù)的數(shù)據(jù)種類非常多,數(shù)據(jù)的格式也會變得復雜,比如數(shù)據(jù)種類有視頻、文檔、圖片、消息記錄等等。
第三,大數(shù)據(jù)中潛藏著非常重要的價值,通過數(shù)據(jù)分析技術,對商業(yè)決策做出智能化以及數(shù)據(jù)化的支持。
大數(shù)據(jù)最主要的功能,就是為公司上層提供商業(yè)化決策支持,讓公司能夠結合歷史數(shù)據(jù),往正確的方向發(fā)展。大數(shù)據(jù)技術主要分為兩類:大數(shù)據(jù)計算和大數(shù)據(jù)存儲。
離線計算對于數(shù)據(jù)的產出會有一定的時延,具體時延可以是15分鐘、小時或者天級別的。離線任務一般會對數(shù)據(jù)進行全局批計算,這一次運行完就運行完了,不會像實時計算那樣,除非你自己停止實時任務,否則實時程序會一直運行。
實時計算數(shù)據(jù)是不斷產生的,一般數(shù)據(jù)產出的延遲會很低,最多是秒級別的。比如我們的數(shù)據(jù)大屏、實時數(shù)據(jù)流的加工處理等,這些場景對于數(shù)據(jù)的產出的時延要求很低。
離線計算的話,一般對于數(shù)據(jù)的產出時延沒有那么高的要求,只要數(shù)據(jù)最終產出即可,具體使用像現(xiàn)在很多公司離線業(yè)務報表。目前大多數(shù)公司離線計算引擎使用的是Hive或者Spark,實時計算引擎目前主要是Flink。
在傳統(tǒng)的關系型數(shù)據(jù)庫中,當一個表非常大時,會使用分庫分表技術,將表分布式的存儲在不同的機器上面。分庫分表技術可以使用開源工具TDDL。
在非關系型NoSQL數(shù)據(jù)庫中,一般最底層的文件存儲系統(tǒng)可以選擇HDFS。HDFS文件系統(tǒng)將文件按照塊來進行存儲,一個塊的大小為128兆,同時每個塊會存儲三份,對數(shù)據(jù)進行容災存儲,即使其中一個塊壞了,可以選擇其他塊進行數(shù)據(jù)恢復。
分布式數(shù)據(jù)庫系統(tǒng)可以對數(shù)據(jù)表進行水平分割和垂直分割。比如HBase數(shù)據(jù)庫,水平分割使用的是Region,垂直分割則是使用的列族。
分布式數(shù)據(jù)存儲技術,需要不同機器一起協(xié)同工作,每臺機器存儲整體數(shù)據(jù)的一個子集。在未來大數(shù)據(jù)時代,肯定都會使用分布式數(shù)據(jù)存儲,分布式數(shù)據(jù)庫,會成為大數(shù)據(jù)系統(tǒng)的標配。
我是Lake,專注大數(shù)據(jù)技術原理、人工智能、數(shù)據(jù)庫技術、程序員經驗分享,如果我的問答對你有幫助的話,希望你能點贊關注我,感謝。
我會持續(xù)大數(shù)據(jù)、數(shù)據(jù)庫方面的內容,如果你有任何問題,也歡迎關注私信我,我會認真解答每一個問題。期待您的關注
這是一個非常好的問題,作為一名大數(shù)據(jù)從業(yè)者,我來回答一下。
在當前的大數(shù)據(jù)時代,不僅IT(互聯(lián)網)行業(yè)的人需要了解大數(shù)據(jù)相關知識,傳統(tǒng)行業(yè)的從業(yè)者和普通大學生也都應該了解一定的大數(shù)據(jù)知識,在產業(yè)互聯(lián)網和新基建計劃的推動下,未來大數(shù)據(jù)技術將全面開始落地應用,大數(shù)據(jù)也將重塑整個產業(yè)結構。
了解大數(shù)據(jù)首先要從大數(shù)據(jù)的概念開始,不同于人工智能概念,大數(shù)據(jù)概念還是相對比較明確的,而且大數(shù)據(jù)的技術體系也已經趨于成熟了。解釋大數(shù)據(jù)概念,可以從數(shù)據(jù)自身的特點入手,然后進一步從場景、應用和行業(yè)來逐漸展開。
大數(shù)據(jù)自身的特點往往集中在五個方面,分別是數(shù)據(jù)量、數(shù)據(jù)結構多樣性、數(shù)據(jù)價值密度、數(shù)據(jù)增長速度和可信度,對于這五個維度的理解和認知,是了解大數(shù)據(jù)概念的關鍵。當然,隨著大數(shù)據(jù)技術的發(fā)展和在行業(yè)領域的應用,關于數(shù)據(jù)自身的維度也有了一定程度的擴展,這些擴展本身也是對大數(shù)據(jù)概念的一種豐富和完善。
數(shù)據(jù)量大是大數(shù)據(jù)的一個重要特征,但是數(shù)據(jù)量本身是一個匯集的概念,并不是只有很大的數(shù)據(jù)才稱為大數(shù)據(jù),傳統(tǒng)信息系統(tǒng)所產生的“小數(shù)據(jù)”也是大數(shù)據(jù)的一個重要組成部分,這一點一定要有清晰的認知。當前從大數(shù)據(jù)的數(shù)據(jù)來源來看,主要集中在三個渠道,包括互聯(lián)網、物聯(lián)網和傳統(tǒng)信息系統(tǒng),物聯(lián)網數(shù)據(jù)當前占據(jù)的比例比較大,相信在5G時代,物聯(lián)網將依然是大數(shù)據(jù)的主要數(shù)據(jù)來源。
數(shù)據(jù)結構多樣性是大數(shù)據(jù)的另一個重要特點,不同于創(chuàng)新信息系統(tǒng)(ERP)當中的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)類型是非常復雜的,既有結構化數(shù)據(jù),也有非結構化數(shù)據(jù)和半結構化數(shù)據(jù),這對于傳統(tǒng)的數(shù)據(jù)處理技術提出了巨大的挑戰(zhàn),這也是推動大數(shù)據(jù)技術產生的一個重要原因。在工業(yè)互聯(lián)網時代,大數(shù)據(jù)的數(shù)據(jù)結構多樣性會進一步得到體現(xiàn),這對于數(shù)據(jù)價值化過程也提出了新的挑戰(zhàn)。
數(shù)據(jù)價值密度往往是衡量數(shù)據(jù)價值的重要基礎,相對于傳統(tǒng)的信息系統(tǒng)來說,大數(shù)據(jù)當中的數(shù)據(jù)價值密度是比較低的,這就需要有更快速和便捷的方式,來完成數(shù)據(jù)的價值化提取過程,而這也正是當前大數(shù)據(jù)平臺所關注的核心能力之一。實際上,早期的Hadoop、Spark平臺之所以能夠脫穎而出,一個重要的原因就是其數(shù)據(jù)處理(排序)速度比較快。
數(shù)據(jù)增長速度快是大數(shù)據(jù)的另一個重要表現(xiàn),通常傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)增量是可以預測的,或者說增長速度是可控的,但是在大數(shù)據(jù)時代,數(shù)據(jù)增長速度已經大大突破了傳統(tǒng)數(shù)據(jù)處理所能承載的極限。數(shù)據(jù)增長是一個相對的概念,相對于消費互聯(lián)網來說,產業(yè)互聯(lián)網所帶來的數(shù)據(jù)增量可能會更加客觀,因此產業(yè)互聯(lián)網時代會進一步打開大數(shù)據(jù)的價值空間。
最后,大數(shù)據(jù)還有一個特點就是數(shù)據(jù)本身的真實性,大數(shù)據(jù)時代所帶來的一個重要副作用就是數(shù)據(jù)真假難辨,這也是當前大數(shù)據(jù)技術所要重點解決的問題之一。從當前大型互聯(lián)網平臺所采用的方法來看,通常是技術和管理相結合的方式,比如通過為用戶認證就能夠解決一部分數(shù)據(jù)的真實性(專業(yè)性)問題。
我從事互聯(lián)網行業(yè)多年,目前也在帶計算機專業(yè)的研究生,主要的研究方向集中在大數(shù)據(jù)和人工智能領域,我會陸續(xù)寫一些關于互聯(lián)網技術方面的文章,感興趣的朋友可以關注我,相信一定會有所收獲。
如果有互聯(lián)網、大數(shù)據(jù)、人工智能等方面的問題,或者是考研方面的問題,都可以在評論區(qū)留言,或者私信我!
用最通俗的語言跟你解釋一下。
舉個例子,你想要買一雙鞋,打開淘寶搜索了半天,感覺不太合適,然后又一想,晚點買也可以,于是退出了淘寶,打開了抖音,開始看某些土味視頻。
當你下一次打開淘寶的時候,淘寶一定會給你推薦各種新款式的鞋,并且會給你推送相關的活動。而你每次打開抖音,看到的大部分都是土味視頻。
其原因就是因為你在淘寶上用了大部分時間去搜索鞋子,淘寶通過測算覺得你對鞋子感興趣,于是你每次進淘寶都會給你推薦鞋子。除非你下次用更多的時間去搜索另外一個東西。而抖音覺得你比較喜歡土味視頻,因此這種視頻便一直出現(xiàn)。
這就是我們所說的大數(shù)據(jù),通過對你各種行為分析,為你推薦更符合你口味的東西。
會銷售的售貨員在賣東西的時候一定不會僅僅去說產品,他肯定會通過各種方法去了解你的信息,等到信息足夠后再去為你推薦更加合適的產品,而此時你成交的概率非常大。
所以不妨回憶一下,買東西的時候有沒有售貨員跟你聊除產品以外的東西?比如家庭?
生活中的大數(shù)據(jù)有很多,打開歌曲APP,每日推薦就是大數(shù)據(jù);打開今日頭條,推薦你最感興趣的內容也是大數(shù)據(jù);打開視頻APP,推薦的視頻同樣是你最愛看的,這也是大數(shù)據(jù)。
因此,只要能通過某種途徑,了解到你的詳細信息或者行為,根據(jù)這些信息或者行為進行推薦你所感興趣的東西,就叫做大數(shù)據(jù)。
不知道你清楚了沒有?
大數(shù)據(jù)通俗來說就是有個機器,把你生活中的點點滴滴都記錄下來,形成一種特定的形式!
大數(shù)據(jù)(big data),指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所給大數(shù)據(jù)出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型和價值密度低四大特征。
大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產業(yè),那么這種產業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術。
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關注。分析師團隊認為,大數(shù)據(jù)(Big data)通常用來形容一個公司創(chuàng)造的大量非結構化數(shù)據(jù)和半結構化數(shù)據(jù),這些數(shù)據(jù)在下載到關系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。大數(shù)據(jù)需要特殊的技術,以有效地處理大量的容忍經過時間內的數(shù)據(jù)。適用于大數(shù)據(jù)的技術,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網和可擴展的存儲系統(tǒng)。
這一切都始于數(shù)字時代到來后我們所產生的數(shù)據(jù)量的指數(shù)激增。這主要是因為計算機、因特網和技術能夠從我們生活的真實世界中獲取信息,并將其轉化為數(shù)字數(shù)據(jù)。在2017年,當我們上網時、當我們攜帶配備GPS的智能手機時、當我們通過社交媒體或聊天應用程序與我們的朋友溝通時、以及我們在購物時,我們會生成數(shù)據(jù)。你可以說,我們所做的涉及數(shù)字交易的一切都會留下數(shù)字足跡,這幾乎是我們生活的一切。
除此之外,機器生成的數(shù)據(jù)量也在快速增長。當我們的“智能”家庭設備彼此通信或與他們的家庭服務器通信時,數(shù)據(jù)就會生成和共享。世界各地的工廠和工廠的工業(yè)機械越來越多地配備了傳感器來收集和傳輸數(shù)據(jù)。很快,自動駕駛的汽車將走上街頭,將他們所到之處周圍的環(huán)境實時、四維的地圖發(fā)送回家。
相信大家對于這次新冠肺炎疫情期間社區(qū)防控力度之嚴、強度之大深有體會。但在杭州濱江區(qū),在疫情爆發(fā)之初,卻面臨著社區(qū)疫情防控人手不足的問題。對此,國家電網杭州分公司研發(fā)了全國首個“電力大數(shù)據(jù)+社區(qū)網格化”算法,實現(xiàn)了收集、研判電力數(shù)據(jù)功能,并對濱江157476戶居民、超過1000萬條電力數(shù)據(jù),進行了收集和分析。為了精準判斷細微的用電數(shù)據(jù)差別,該公司在算法中開發(fā)了居民短暫和長期外出、舉家返回、隔離人員異動等3個場景6套算法模型。通過3輪150余萬條次電力大數(shù)據(jù)巡航,精準判斷出區(qū)域內人員日流動量和分布,還可以實時監(jiān)測居家隔離人員、獨居老人等特殊群體347戶。這讓社區(qū)人員得以根據(jù)電量波動判斷業(yè)主狀況,提高了登記和服務的效率,從而解決了人手不足的難題。
聽完這個例子,不知道你有沒有什么感觸呢?看似“高大上”的大數(shù)據(jù),實際上就是這么的“接地氣”。今天呢,我主要是想糾正一些大家對于大數(shù)據(jù)的誤解,對大數(shù)據(jù)有一個更清晰且正確的認識。
二、大數(shù)據(jù)是什么?
其中,第三范式和第四范式都是由計算機來進行計算的,二者之間有什么區(qū)別呢?
引用維克托·邁爾·舍恩伯格撰寫的《大數(shù)據(jù)時代》中的話來說,就是:大數(shù)據(jù)時代最大的轉變,就是放棄對因果關系的渴求,取而代之關注相關關系。第四范式相對于第三范式來說,更關注“是什么”,而不需要知道“為什么”,就像人類總是會思考事物之間的因果聯(lián)系,電腦卻更擅長相關性分析。這也是為什么有人提出第三范式是“人腦+電腦”,人腦是主角,而第四范式是“電腦+人腦”,電腦是主角。
也許會有同學提出疑問,這是不是與我們科學研究的理念相違背?畢竟,如果通篇只有對數(shù)據(jù)相關性的分析,而缺乏具體的因果解讀,這樣的文章一般被認為是數(shù)據(jù)堆砌,是不可能發(fā)表的。
這里我又想給大家舉一個例子了,讓大家更好的理解第四范式的意義所在。拿我們近年來特別關心的霧霾來說,我們想要研究霧霾的產生機制,從而進行針對性的預防。
按照第三范式的思路,我們需要先在一些具有“代表性”的地方建立氣象站,收集與霧霾形成有關的參數(shù),包括大氣化學成分、地形、風向、溫度、濕度等氣象因素。需要注意的是,第三范式下,我們所收集的參數(shù)都是我們認為可能會影響到霧霾形成的因素,實際上已經人為地排除了某些不重要的參數(shù)。從研究的可行性角度出發(fā)無可厚非,但是從準確性上來說,已經是根源性的錯誤了。如果能夠獲取更全面的數(shù)據(jù),即不加篩選地收集各類參數(shù)數(shù)據(jù),進行更細致的數(shù)據(jù)分析,那么就能得出更科學的預測,這就是第四范式的出發(fā)點。
相信通過上面的解說,大家對大數(shù)據(jù)有了一個基本的認識,下面呢我來對大數(shù)據(jù)做一個簡單的定義:大數(shù)據(jù)(big data),指的是在一定時間范圍內不能以常規(guī)軟件工具處理(存儲和計算)的大而復雜的數(shù)據(jù)集。這些大數(shù)據(jù)集包括結構化、非結構化和半結構化數(shù)據(jù),需要經過進一步的數(shù)據(jù)處理和分析才能形成有價值的信息。
第一、數(shù)據(jù)體量巨大
這點相不難理解,我們日常生活中使用的微信、支付寶、微博、抖音等軟件每天都會產生數(shù)百億條以上的數(shù)據(jù),這僅僅是移動應用一天的數(shù)據(jù)量,此外其他各行各業(yè)也都會產生各式各樣的數(shù)據(jù),其總量絕對超出了你們的想象。舉個具體的例子,據(jù)英特爾預測,全球數(shù)據(jù)總量在2020年將達到44ZB,而中國產生的數(shù)據(jù)量將為8000EB,8000EB是什么概念?整個地球上所有沙?倲(shù)的10倍!
第二、數(shù)據(jù)類型繁多
正如我剛才所提到的,大數(shù)據(jù)包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。結構化數(shù)據(jù)指數(shù)據(jù)的屬性相同,可以用統(tǒng)一的結構進行表示;非結構化數(shù)據(jù)缺少固定的結構,通常整體存儲,比如各種圖片、視頻、音頻等,非結構化數(shù)據(jù)越來越成為數(shù)據(jù)的主要形式,據(jù)IDC數(shù)據(jù)顯示,企業(yè)中80%的數(shù)據(jù)都是非結構化數(shù)據(jù);而半結構化數(shù)據(jù)則介于兩者之間,比如HTML和XML文檔,其內部用成對的標簽記錄對應的數(shù)據(jù),但每個文檔內部的標簽又不是統(tǒng)一的,沒有固定的規(guī)律。
第三、價值密度低
大數(shù)據(jù)的價值很高,但是單條記錄卻基本無意義,缺乏有效信息,這也對我們收集數(shù)據(jù)提出了要求,數(shù)據(jù)分析一定要建立在大量的數(shù)據(jù)集的基礎上。舉個例子,張三是某電商平臺的忠實用戶,我們作為后臺,如果單看他的某一條購物記錄,無非是知道了他買了什么東西,消費了多少錢,但是我們一旦利用大數(shù)據(jù)分析系統(tǒng)對張三所有的購物記錄進行分析,那么我們就能得出他的一個消費畫像,了解其購買偏好,從而對他進行精準的商品推薦。
第四、處理速度快
如今5G時代,數(shù)據(jù)產生的速度越來越快,這就要求數(shù)據(jù)后臺能夠快速處理掉無用信息,因為需要控制存儲成本。同時更快速地處理信息,能夠獲取更多的有效價值,才能夠在商業(yè)競爭中取得優(yōu)勢。兩方面因素都刺激著數(shù)據(jù)處理技術的高速發(fā)展,目前采取流式數(shù)據(jù)處理技術可以達到毫秒級甚至微秒級的處理時間,滿足實時監(jiān)控分析用戶行為,從而提供個性化服務的需求。
三、結語
最后,引馬云的一句話作為結尾:未來的時代將不是IT時代,而是DT的時代。這里的DT就是data technology, 希望各位對大數(shù)據(jù)有了一個新的認識,也希望大家能夠在這個萬物互聯(lián)的時代,把握時代機遇,掌握信息技能,做一朵勇往直前的“后浪”。
網上抄一段誰都會,又長又空。所以嘗試用我自己理解的東西簡單說一下,若有問題請指出,僅供參考。
大數(shù)據(jù),大數(shù)據(jù),最重要的特點,毫無疑問,那就是大!大!數(shù)據(jù)量相當?shù)拇。這里說的大可以從兩方面理解,一個是數(shù)據(jù)條數(shù)(比如1萬億個整數(shù)),另一個是容量(比如1百萬個TB)。
可千萬別小看數(shù)據(jù)量大這個特點。普通人根本無法處理如此大體量的數(shù)據(jù)。比如1百萬TB,一個普通硬盤也就1TB,那么得需要1百萬個硬盤來裝,那得堆起來多高!一般的服務器也扛不住,說不定得搬1萬臺電腦。你說這種技術難不難?在大數(shù)據(jù)提出來之前,人們也是可以處理的,比如谷歌百度搜索,比如網易電子郵箱。不過這些技術都是人家的看家本領,不外傳之秘籍。而自從谷歌2004年公布了它的mapreduce技術,并且有人在2006年前后公布了hadoop源碼后,世人馬上就可以很輕松地使用了,大數(shù)據(jù)突然就火了。
曹操稱象,都聽過吧?大象很大,很重,三國時期根本沒有那么大的秤,怎么辦?就把大象放到船上,看船在水中的位置。然后大象牽走,運很多石頭上去,讓船到同樣的位置。這個思想就是mapreduce,大數(shù)據(jù)處理海量數(shù)據(jù)的核心思想。它把一個很大的任務分解為等效的很多小部分,然后讓成千上萬的普通電腦(服務器)去計算,最后再把結果“加”起來。專業(yè)術語叫分布式處理。這項技術早就有了,只不過hadoop的興起,讓它的門檻瞬間變低很多很多。門檻低了,這項技術就火了。
從某種程度上說,hadoop就是大數(shù)據(jù)的代名詞。如果你不用hadoop,都不好意思在“行家”面前說叫大數(shù)據(jù)。hadoop簡單說就是一個軟件,具體的信息大家網上搜,我就不復制粘貼了。當然現(xiàn)在也有一種不好的現(xiàn)象,那些對hadoop一知半解的,隨便用用,就幾個GB或幾個TB也號稱叫大數(shù)據(jù),炒作概念?梢赃@么說,連1000TB都沒有,根本算不上什么大數(shù)據(jù),那只不過是借助hadoop故弄玄虛罷了,就好比買幾十本世界名著放在客廳書架上(但卻幾乎不看),就號稱是文化人文學人一樣。
大數(shù)據(jù)除了數(shù)據(jù)量大外,第二個特點就是數(shù)據(jù)種類多。
舉個例子,傳統(tǒng)大超市,它可以借助收銀系統(tǒng)掌握每天每時的貨物售出情況。這個數(shù)據(jù)就比較單一。而再看網上商城,它不但可以掌握貨物流動,還能知道購買者的性別,年齡,地區(qū),瀏覽過哪些商品,在哪些商品上看了多長時間,瀏覽商品時是在什么位置(GPS定位)。后者就符合大數(shù)據(jù)數(shù)據(jù)種類多的特點。
大數(shù)據(jù)還有一個特點就是有價值的數(shù)據(jù)比例少。請注意是比例。比方說你存了1億條數(shù)據(jù),可能只有其中1千條是有價值的。另外還有一些數(shù)據(jù)可能是錯的,還有一些是缺失的。這種思路與傳統(tǒng)思維不一樣。傳統(tǒng)軟件設計認為要存數(shù)據(jù)就存有用的,正確的,還要盡量避免數(shù)據(jù)缺失。比如傳統(tǒng)銀行就是要求數(shù)據(jù)不能錯,近期交易信息不能丟。而網上購物就不一樣了,用戶的瀏覽歷史記錄,實際上就是可有可無的,多一條少一條關系不是很大。存起來只不過為了數(shù)據(jù)挖掘而已。后者就符合大數(shù)據(jù)價值密度小的特點。
再來說說為什么大數(shù)據(jù)現(xiàn)在火了,難道這些大數(shù)據(jù)的特點和優(yōu)點以前想不到嗎?
首先,剛說過了,hadoop的興起(再外加云計算,特別是公有云),讓普通開發(fā)者處理大數(shù)據(jù)的能力瞬間提高一個檔次,門檻變低。第二,硬件特別是存儲設備成本變低。而以前的系統(tǒng)遇到沒有價值的數(shù)據(jù)就丟了,要來干啥,浪費空間。我記得以前用手機的時候發(fā)短信有30條的限制,那都是挖空心思刪除沒用的短信,不然提示收件箱已滿,F(xiàn)在聊天記錄幾十萬條都懶得刪,反正手機裝的下。
第三,物聯(lián)網技術,傳感器技術,GPS定位,移動設備,網上交易等的發(fā)展。還有,實名認證機制。這些種種發(fā)展,導致了數(shù)據(jù)的種類一下子變多了。而且由點到線,由線到面,看似沒有價值的數(shù)據(jù)連在一起就變得有價值了。如果大家都用手機地圖開車,那么這些大數(shù)據(jù)就可以聯(lián)系起來,知道哪里擁堵,指導如何避免擁堵,還可以統(tǒng)計不同類別的人(實名認證)開車的喜好,比如哪類人喜歡去公園,哪類人喜歡去大飯店。
大數(shù)據(jù)和數(shù)據(jù)挖掘,人工智能有什么區(qū)別和聯(lián)系?這個說法不一。我認為大數(shù)據(jù)側重點是數(shù)據(jù)量大,強調如何使用特定的技術快速處理海量的,異構的數(shù)據(jù)。一定是使用分布式技術。如何使用分布式,是大數(shù)據(jù)的一個重要特征。而數(shù)據(jù)挖掘則是強調數(shù)學上的算法,而不過分關注在分布式集群上實現(xiàn)的細節(jié)。數(shù)據(jù)挖掘通常都要借助大數(shù)據(jù)技術,但不是必須,“小數(shù)據(jù)”也可以挖掘。這就好比算賬和計算器的關系。算賬就是數(shù)據(jù)挖掘,計算器就是大數(shù)據(jù)。兩者密不可分,通常,算賬離不開計算器,計算器主要用來算賬。算賬需要理解業(yè)務甚至要學會計知識,而計算器關注的是電子技術,浮點數(shù)運算,泰勒級數(shù)展開等等。另外數(shù)據(jù)挖掘不總是強調性能和實時性。比方說我可以用100小時的時間用一臺破電腦去進行一個分類學習或叫訓練(正如同我用筆算也可以算賬一樣,雖然慢一點)。但是大數(shù)據(jù)一般動輒出動數(shù)十臺服務器,在幾分鐘甚至幾秒鐘就要出結果。所以兩者側重點不一樣。
而人工智能包括機器學習,也包括數(shù)據(jù)挖掘。但是平常所說的人工智能,或者說狹義的人工智能,通常都是使用了神經網絡,更準確地說是深度學習(可理解為深度神經網絡)。
博士時候就是做大數(shù)據(jù)。
最通俗一點就是很多條數(shù)據(jù)。
我們做大數(shù)據(jù)研究呢,就是高效的處理數(shù)據(jù),對未來做一些預測,建議等。
例如,全中國人大多數(shù)都是10點睡覺。睡覺前看一看手機。那我們做推廣時候,就可以選擇9點半的時間。
大數(shù)據(jù)沒有什么特別神秘的地方,就是數(shù)據(jù)多一點。
“不接觸互聯(lián)網,以后寸步難行!”十年前,在這樣的危言聳聽下,大家扔掉磚塊手機拿起手掌大的智能手機。
好不容易學會了玩微信刷朋友圈,現(xiàn)在中年危機和“大數(shù)據(jù)”都一起來了。
是不是不接觸大數(shù)據(jù),也要被時代淘汰?
而現(xiàn)實生活中處處看見大數(shù)據(jù),你刷不刷小視頻?讀不讀每日新聞?看不看新?
細心的人就會發(fā)現(xiàn),為什么軟件這么了解我,知道我喜歡看婆媳倫理視頻、知道我喜歡學最新廣場舞、知道我喜歡哈哈搞笑段子?
手指不管怎么往下滑,都是我喜歡看的,每次像再刷五分鐘就去睡覺,一刷就是兩個小時。這樣熟悉的場景是不是有感同身受?
這就是大數(shù)據(jù)整合優(yōu)化。
用專業(yè)術語概括大數(shù)據(jù)就是:使用新的處理模式,對信息進行捕捉、管理和處理的數(shù)據(jù)集合。
簡單來說就是:你拿著沒有喝完的奶茶,準備扔進垃圾桶。上海清潔工阿姨非常友好地問你,“你是什么垃圾?”,
這時候你就要:
第一,先倒了剩下的奶茶
第二,然后把珍珠倒到“濕垃圾”處
第三,把外包裝扔到“干垃圾”處。
以上這個過程就是大數(shù)據(jù)處理,對海量的數(shù)字信息進行分類、整合、優(yōu)化,來達到客戶需求的目的。
大數(shù)據(jù)在資源分配、信息配對非常有用,例如器官移植配對,就職簡歷投放等等。
像我們這樣的普通人,我們享受的是大數(shù)據(jù)給我們帶來的便捷,我們并不需要去過于專研它。
所以不用擔心不接觸大數(shù)據(jù),就要被時代淘汰!就像我們都會用智能手機,要理解智能手機到底是怎么運作,里面的鋰子電子排列順序是什么,這個是完全不必要的。
一天中什么時候運動減肥效果好抓 小孩能不能練啞鈴多大的孩子適合 小孩嘴唇起皮怎么辦怎樣才能預防 孩子的羅圈腿是怎么形成的三大因 孩子早戀怎么辦如何有效疏導孩子 醫(yī)生婆婆稱自己專業(yè)孩子的事必須 兒子成人禮送什么禮物好呢給你孩 有孩子的夫妻千萬不要離婚對于孩 小孩千萬別讓老人帶的說法正確嗎 自卑缺乏安全感的孩子怎么改善 怎么讓孩子開口說話 這幾個方法 怎么讓孩子吃飯 教你如何讓孩子 怎么管教不聽話的孩子 家長首先 頑皮的孩子怎么管教的 這些方法 叛逆期的孩子怎么管教 引導孩子 孩子性格軟弱怎么辦 懦弱的性格 孩子性格偏激怎么辦 孩子性格偏 孩子性格固執(zhí)怎么辦 家長們不妨 愛惹事的孩子怎么管教 不妨試試 養(yǎng)育優(yōu)秀的孩子具備特征,家長要 高考數(shù)學難出新天際,可有的孩子 “做胎教”和“不做胎教”的孩子 花費十幾萬只考了302分 媽媽覺得 甘肅作弊考生留下來的疑團,是怎 一舉奪魁!高三學生離校時,校領 高考釘子戶:26次參加高考,今年 D2809次列車因泥石流脫線!此類 “女兒16歲,學校宿舍里分娩了” 扭曲邪門的內容,頻頻出現(xiàn)在教科 川渝地區(qū)幾所大學實力很牛!四川