既然有了elasticsearch為什麼還要用hadoop和

時間 2021-05-07 20:01:30

1樓:兄弟連教育

elasticsearch只是一個搜尋框架,僅此而已。 hadoop/spark是計算框架/大資料執行環境,根本不可相提並論。

2樓:愛可生雲資料庫

spark已經取代hadoop成為最活躍的開源大資料專案,但是,在選擇大資料框架時,企業不能因此就厚此薄彼

近日,著名大資料專家bernard marr在一篇文章中分析了spark和 hadoop 的異同

hadoop和spark均是大資料框架,都提供了一些執行常見大資料任務的工具,但確切地說,它們所執行的任務並不相同,彼此也並不排斥

雖然在特定的情況下,spark據稱要比hadoop快100倍,但它本身沒有一個分散式儲存系統

而分散式儲存是如今許多大資料專案的基礎,它可以將 pb 級的資料集儲存在幾乎無限數量的普通計算機的硬碟上,並提供了良好的可擴充套件性,只需要隨著資料集的增大增加硬碟

因此,spark需要一個第三方的分散式儲存,也正是因為這個原因,許多大資料專案都將spark安裝在hadoop之上,這樣,spark的高階分析應用程式就可以使用儲存在hdfs中的資料了

與hadoop相比,spark真正的優勢在於速度,spark的大部分操作都是在記憶體中,而hadoop的mapreduce系統會在每次操作之後將所有資料寫回到物理儲存介質上,這是為了確保在出現問題時能夠完全恢復,但spark的彈性分散式資料儲存也能實現這一點

另外,在高階資料處理(如實時流處理、機器學習)方面,spark的功能要勝過hadoop

在bernard看來,這一點連同其速度優勢是spark越來越受歡迎的真正原因

實時處理意味著可以在資料捕獲的瞬間將其提交給分析型應用程式,並立即獲得反饋

在各種各樣的大資料應用程式中,這種處理的用途越來越多,比如,零售商使用的推薦引擎、製造業中的工業機械效能監控

spark平臺的速度和流資料處理能力也非常適合機器學習演算法,這類演算法可以自我學習和改進,直到找到問題的理想解決方案

這種技術是最先進製造系統(如**零件何時損壞)和無人駕駛汽車的核心

spark有自己的機器學習庫mlib,而hadoop系統則需要藉助第三方機器學習庫,如apache mahout

實際上,雖然spark和hadoop存在一些功能上的重疊,但它們都不是商業產品,並不存在真正的競爭關係,而通過為這類免費系統提供技術支援贏利的公司往往同時提供兩種服務

例如,cloudera 就既提供 spark服務也提供 hadoop服務,並會根據客戶的需要提供最合適的建議

bernard認為,雖然spark發展迅速,但它尚處於起步階段,安全和技術支援基礎設施方還不發達,在他看來,spark在開源社群活躍度的上升,表明企業使用者正在尋找已儲存資料的創新用法

既然有陽間,那麼真的有陰間嗎,既然有陽間,那麼真的有陰間嗎?

凡世紅塵煙火進 這個問題不能用自然科學來回答,也不能用社會科學來回答,那就只剩下人文科學了。人文科學包含了哲學以及宗教學。你的問題是宗教學提出的問題,對此宗教給出了肯定的答案。至於其他科學,既然不能證明,倒是可以證偽。不過話說回來,如果神明真的是超越了人類認識範疇以外的存在,那麼憑人類怎麼能夠證明或...

既然有SpringBoot自動配置SpringMVC裡有哪些不用去了解

lz你好,以下是夢三國官方的配置要求 基本配置 cpu p4 1.7ghz以上 記憶體 1g 顯示卡 geforce6600或以上效能顯示卡 64mb視訊記憶體 硬碟 4g以上空間 作業系統 windows2000 windowsxp推薦配置 cpu p4 3.0ghz以上 記憶體 1g 顯示卡 g...

既然51微控制器有了儲存的作用,那AT24C02行使EEPROM的作用是不是多餘了啊?求解答

普通51微控制器內部只有兩種儲存器,一種是程式儲存器,早期用的是rom 一次性程式設計 或eprom 可紫外線擦除5 6次 後來大部分用flash 可重擦寫1000次以上快閃記憶體 上述儲存器的資料可永久儲存,但在程式執行時是不可改寫的 而另一種是易失性資料儲存器,叫ram。ram在程式執行時資料可...