spark也是基於hadoop的嗎?它和hadoop是並列的還是和mapreduce是並列的

時間 2021-08-30 11:14:12

1樓:龍佐天下

spark是一種分散式計算框架,和mapreduce並列,可以執行於yarn上。yarn是hadoop2.0的一種資源管理框架。對,就是這麼亂

2樓:愛可生雲資料庫

spark已經取代hadoop成為最活躍的開源大資料專案,但是,在選擇大資料框架時,企業不能因此就厚此薄彼

近日,著名大資料專家bernard marr在一篇文章中分析了spark和 hadoop 的異同

hadoop和spark均是大資料框架,都提供了一些執行常見大資料任務的工具,但確切地說,它們所執行的任務並不相同,彼此也並不排斥

雖然在特定的情況下,spark據稱要比hadoop快100倍,但它本身沒有一個分散式儲存系統

而分散式儲存是如今許多大資料專案的基礎,它可以將 pb 級的資料集儲存在幾乎無限數量的普通計算機的硬碟上,並提供了良好的可擴充套件性,只需要隨著資料集的增大增加硬碟

因此,spark需要一個第三方的分散式儲存,也正是因為這個原因,許多大資料專案都將spark安裝在hadoop之上,這樣,spark的高階分析應用程式就可以使用儲存在hdfs中的資料了

與hadoop相比,spark真正的優勢在於速度,spark的大部分操作都是在記憶體中,而hadoop的mapreduce系統會在每次操作之後將所有資料寫回到物理儲存介質上,這是為了確保在出現問題時能夠完全恢復,但spark的彈性分散式資料儲存也能實現這一點

另外,在高階資料處理(如實時流處理、機器學習)方面,spark的功能要勝過hadoop

在bernard看來,這一點連同其速度優勢是spark越來越受歡迎的真正原因

實時處理意味著可以在資料捕獲的瞬間將其提交給分析型應用程式,並立即獲得反饋

在各種各樣的大資料應用程式中,這種處理的用途越來越多,比如,零售商使用的推薦引擎、製造業中的工業機械效能監控

spark平臺的速度和流資料處理能力也非常適合機器學習演算法,這類演算法可以自我學習和改進,直到找到問題的理想解決方案

這種技術是最先進製造系統(如**零件何時損壞)和無人駕駛汽車的核心

spark有自己的機器學習庫mlib,而hadoop系統則需要藉助第三方機器學習庫,如apache mahout

實際上,雖然spark和hadoop存在一些功能上的重疊,但它們都不是商業產品,並不存在真正的競爭關係,而通過為這類免費系統提供技術支援贏利的公司往往同時提供兩種服務

例如,cloudera 就既提供 spark服務也提供 hadoop服務,並會根據客戶的需要提供最合適的建議

bernard認為,雖然spark發展迅速,但它尚處於起步階段,安全和技術支援基礎設施方還不發達,在他看來,spark在開源社群活躍度的上升,表明企業使用者正在尋找已儲存資料的創新用法

hadoop,mapreduce,yarn和spark的區別與聯絡

雜草叢生是並列結構的嗎,並列結構和偏正結構有什麼不一樣?

雜草叢生 是主謂結構。主語是 雜草 謂語是 叢生 主語和謂語又分別是偏正結構。第一個層次是主謂結構,因此總的說來就是主謂結構。主謂結構,指由一個或者若干個主語,加上一個或若干個謂語,所組成的句式,是語言文學範疇。比如 哀鴻遍地,八方支援,白骨露野等均是主謂結構短語。哀鴻 八方 白骨 是主語,遍地 支...

一個數是6的倍數,它一定也是2和3的倍數。對嗎

正確。一個數是6的倍數,那麼它一定是2和3的倍數。因為6是2和3的最小公倍數,6的倍數,數字末位肯定是偶數,能被2整除。同時,6本身就是3的倍數,故6的倍數數字和肯定被3整除。答 這句話是對的。也一定是2和3的倍數。你好,本題已解答,如果滿意,請點右上角 採納答案 支援一下。是的,因為6是它們的公倍...

DTU是什麼啊,它和訊號發射器是一樣的嗎

gprs dtu是通過移動gprs網路進行資料傳輸的模組。他是將與之連線的下位機的資料透明傳輸到中心的裝置。而訊號發射器應該是屬於訊號發射 放大之類的裝置。兩者功能不一樣的!前者是資料傳輸。後者是訊號處理。詳細可以看下廈門才茂公司的介紹就比較清楚了!是一樣的。prs dtu data termina...