歡迎來到你我貸客服熱線400-680-8888

張曉東:目前大數據中巨大挑戰是數據庫不能使用

標簽 中國 2011年 
2014-03-10 10:50:54
來源:你我貸

俄亥俄州立大學教授張曉東

和訊科技消息2012年11月30日至12月1日,Hadoop與大數據技術大會在北京新云南皇冠假日酒店舉行。本次會議由中國計算機協會(CCF)主辦,CCF大數據專家委員會協辦,CSDN承辦。大會以“大數據共享與開放技術”為主題,著眼于Hadoop生態系統優化管理與數據分析與挖掘,深度聚焦大數據共享平臺與實踐與應用。俄亥俄州立大學教授張曉東發表主題演講。

張曉東表示,目前大數據中巨大挑戰在于現有的數據庫是不能使用的,因為數據量太大了。對大數據來講最主要的是在模型中做計算的約束非常大。

以下為演講實錄:

張曉東:謝謝組委會給我這樣一個機會跟大家交流一下我們對大數據的研究和開發工作。

今天我主要講的是重點放在并行計算上,因為大家知道并行計算的歷史已經有幾十年了,但并行計算對大數據來講是自然要做的事情,但我們已經換了整個計算的模式,現有的高性能計算的計算模式是不適應大數據的。

第一步先講一下在大數據中有哪些非常廣的challenges,現有的數據庫是不能使用的,很簡單數據量太大了。同時,大數據的要求不光是高性能同時還要有更高的。而且沒有什么硬件支持,都是用非常廉價的硬件。

第二個問題都是學科的研究,因為它的應用范圍非常廣。數據的格式等都不一樣。

第三個問題是應用需求非常廉價的架構,所以可以看到現有的數據庫是不適合的。它的價格是非常昂貴的,所以我們我現在用的主要是用開源的。

現在我們進入到什么樣的時代?大家聽說過這樣一個詞叫“實踐是檢驗真理的唯一標準”。今天我們進入到一個“數據是檢驗真理的一個重要的標準”的時代。我們進入了一個datadriven的時代。這樣對我們的算法有了新的需求。我今天的講座想主要是聚焦在計算模式上的變化,計算尤其是系統設計發生了什么樣的變化過去我們用的是高性能計算的模型,是scaleup的模型,大家再回到1990年的時候就概括得非常好,叫叫BSP模型。過去的幾十年中,我們做的所有的模型都是這樣來做的。今天到了大數據有了幾十年對高性能計算的研究,大數據是不是可以借用高性能計算的模型。因為我們的模型是scale-out的模型。

對大數據來講最主要的是在模型中做計算的約束是非常大的。我們看BSP模型,為什么在過去用到高性能計算上,今天在大數據不能用。之后再做并行計算,之后再做篡數,最后到了一個barrier,之后再來做。過去做的所有的高性能計算都是圍繞這個模型來的。首先它是一個硬件的模型,因為它有很多的Keyparameters,包括運算的速度、處理的速度、通信的速度。我們做軟件的時候一定要見底message的成本。我們想了做計算和communication。

如果我們有了硬件、有了軟件同時又可以來來做exucutiontime。所以它很有生命力,22年前它就總結了高性能計算,它畫了一個圈,我們所有的努力都在這里面。

BSP模型有數據嗎?因為高性能計算數據并不是重要的,主要是以計算為主的。大數據更不在里面了。今天做大數據計算的時候,是不能與硬件相關的我不能說找到英特爾說要造一個大數據。所以我們現在用的。我們的模型是今天高性能計算是不能保證的。

今天我們一定要做并行計算,并行計算給我們帶來了什么樣的障礙?scale-out是什么概念?給大家舉一個例子,2008年的時候Google用processed算法計算一個PB的計算量,用了1個小時2分鐘。2011年10PB的數據用了6小時27分鐘。這個用的是mapreduce。我們比較要有非常高的并行度。我們在高并行度下面遇到的第一個困難是,沒有特殊的通信硬件來給我們支持。這不像高性能計算。第二,并沒有一個globle的工具,Hadoop的模型非常簡單。第三,沒有軟件的工具來幫助我們做。另外,當你放下了數據以后是不能傳輸的,基本上是不能動的。今天這個會議是為了Hadoop,Hadoop是一個basicbigdataprocessingengine。我們對引擎本身是沒有抱怨的,問題是如何利用引擎處理大數據。如果我們只永遠是的引擎只能做簡單的分析。這個引擎有非常好的優點,第一它的dependency是非常小的。另外一個job是非常簡單的。我們必須要有高可用性的bigdata。

先很快地勾勒一下Hadoop在做的時候有什么問題,我們有mastnote,這個是基本設施。第一步過來的時候是submission而,job分到不同的note上。第二個是mapface。第四是做reduce。所以用一句非常通俗的話,大家看到整個的過程,mapreduce不是一個省油燈,你按步就班地往下走對data的要求非常大,所以存在了很多的問題。比如說從第一步開始看,有local或者是I/O。到最后一步如果把結果放到storage上必須要有空間。

我們會發現出現了很多不改做的事情,我們的“油”怎么樣被浪費了?過去的三年里我們一直在跟mapreduce和Hadoop在打交道。。還有的是不必要的數據傳輸,如果一個數據在做recover的時候,我們要注意,如果用不好也是費用很高的。另外,mapreduce是一個引擎,但在改引擎的時候給我們帶來了很大的麻煩,因為這變成了個人所有了。還有一個是mapreduce的模式是很簡單的。這中methodology造成了很大的浪費。

接下來我想介紹一下非常簡單的方法:第一個是sidewalk。它并不在主流上,因為它只提供主流媒體的。第二,這個是開源的,是YSmart。第三個是dataplacement,我不想介紹。我想引出一個學術問題,如何在做placement的時候理論問題怎么解決。這個dataflow是一步一步在做,datatransfer是跟著它走的。如果在做的時候想跟別人分享的話是分享不了的。或者是通過我的link來做communication的。

如果我們看到了當application,你想做一個的話,現在的是不支持的。如果是在不同的系統上,他們兩個想做一個communication也是不支持的。我們把這個叫做out-of-band。大家知道打籃球的時候有一個主場,教練是再一個非常特殊的地方,教練起什么樣的作用?是用他的手勢和眼色給每一個隊員做溝通,如果其他的球員想要告訴其他的另外的球員有一些要通過教練,教練再把手勢和信息傳過去才可以。我們今天做的就是out-of-band。因為教練只給一個眼色、給一個手勢或者是喊一聲,他不會影響主戰場。

但今天的mapreduce是不存在這樣的情況的。所以剛才說的所有的事情都可以通過SideWalk來實現。我們管out-of-band叫做auxiliaryDatum。這是user來defind的。如果做不好的話,user是可以做大量的數據的傳輸。它的問題是對存在著各種各樣的問題。

第二個問題,寫一個MRProgram是很不容易的,user是想說ThiscomplexcodeisforasimpleMRjob。一般來講如果一個user放在上面不想走這條路。如果你有一個MP可以直接翻譯過去。這大大地提高了,而且可以通過機器來做各種各樣的計算。但他們的proexctivty是不一樣的。人在實際中用手來寫是不一樣的,75%是又機器來生成的。他在做translation的時候,扔進去就出不來。我們會發現如果你用手寫一個MPProgram大概差了四倍的time。我們對TPC-HQ21來做了一個分析。它可以自動一個一個地生成,生成了5個jobl。里面有很多其他的東西比如說key等都沒有考慮。手寫的program可以綁在一起可以產品一個MRJob,你可以想象這和五個比省了多少油。但如果按照centerbycenter的話就生成了五個。我們為什么不把這個放進去呢?如果手寫的時候你的性能肯定是不錯的。如果你要用SQL-to-MR的時候,能不能在這上面既有很高的速度也有很高的性能呢?

我舉一個例子這是一個很典型的,如果用Hive是這個時間,用YSmart是這個時間。如果做Hadoop我相信你們應該聽說過YSmart,可以去網站登錄。你可以用YSmart,它現在是一個非常有效地做,同時是最后的stage進入到里面去。

最后一個問題,在現有的Hadoop沒有給你任何的信息,User是不知道的,你怎么放進去的時候取這個數據的時候要非常地低。我們在去年的SDE的文章中提出了四個問題,第一個問題如果要做placedata的時候一定要非常快。我們知道RCfile已經在Facebook中間,它已經有超過10億人在用,把數據放起來之后要有一個Dataloaders。其他的impact包括了Facebook,包括了Apache。下面的問題是包括Twitter所做的也用了RCfile。RCFile出來以后有很多的學術文章對它做批評。我們想說為什么RCfile為什么這么廣泛的應用,你沒有理論的基礎是不好說的。我們想通過一個數學模型,通過一個非常stander的模型來分析對各種各樣的placement是有效的。我們學過了很多的cache,也就是說你怎么碼好這些數據。最后通過不同變化在cache當中可以得到結論。我們想能不能也做這樣的工作。有不同的placement過來,第一,有一個basicoperation。第二是把它這個partiitions放到其中。剛才我們說的東西比如說像CIF,就把rowgroup分開。包括RCfile是這樣來放的。

現在想做的是,有了一個uinforme的演示之后,通過各種各樣的perpormance是怎樣的。最后是你做這樣的設計是不是也改變了Hadoop的引擎。最后我們發現考了三個方面都是很basic的話,那么也是它廣泛應用的原因。他們現在在整個的關鍵信息在什么地方?從Facebook的角度來講,這個是一個Hadoop,用它的時候第一要存到Hive的數據中,如果一個user首先用的是YSmart做一個translation。

第一,一個Hadoop是一個大數據中心的引擎。本身它就可以做分析,我們一個引擎只能完成一個轉的操作問題是我們如何將引擎最原始的動力化為今天的支撐。后面我們畫的括號里面sidewalk的問題。因為我們相信Hadoop是一個引擎。RCFile和Ysmart在criticalpath起了很重要的作用。

謝謝大家!

推薦閱讀

鄒唯怎么樣

鄒唯怎么樣?鄒唯是理學碩士,8年證券從業經歷。曾任職于長城證券,2003年6月加...

鄒唯所屬的基金管理公司

鄒唯所屬的基金管理公司是嘉實基金管理有限公司。嘉實服務于全社會的基礎社會保障——...

一季度王亞偉圍堵鄒唯后市謹慎...

混合型基金平均回報-2.28%王亞偉“圍堵”鄒唯與大摩領先優勢“一馬當先”的氣勢...

萬銀財富:公募環境改善鄒唯回...

萬銀財富:公募環境改善鄒唯回歸嘉實時間:2013-10-31新聞來源:新北青網嘉...

與鄒唯對話當前股市三大熱點

盡管如此,我一直認為流動性非主導股市長期運行的主導趨勢,最終主導股市長期運行的還...
各國貨幣融資租賃貴金屬證券公司期權交易貸款知識期貨公司金融知識銀行理財產品銀行網點信用卡信托產品
  • 熱線電話(服務時間 09 : 00 - 21 : 00 )
  • 400-680-8888
  • 關注我們
Copyright ? 2015 你我貸(www.shmrwb.live) 網上投資理財 版權所有;杜絕借款犯罪,倡導合法借貸,信守借款合約
關注你我貸官方微信
七乐彩开奖结果 江苏十一选五 非凡娱乐首页 网球比分网球探 dnf工作室用什么职业赚钱 快乐8 星座男的嫌弃女的赚钱少 趣赢彩票苹果 教你年入百万的富人赚钱方法文豪 贵州麻将上下分的代理 2013李逵劈鱼 闲来麻将代理招募条件 大彩彩票苹果 dnf运营团队卡片赚钱 49彩票苹果 在贵阳加盟特百惠赚钱吗 环亚彩票安卓