apache spark是什麼,apache spark是什麼意思?

時間 2022-05-14 22:20:04

1樓:加米穀大資料科技

apache spark是一個強大的開源處理引擎,最初由matei zaharia開發,是他在加州大學伯克利分校的博士**的一部分。

apache spark是快速、易於使用的框架,允許你解決各種複雜的資料問題,無論是半結構化、結構化、流式,或機器學習、資料科學。網頁連結

2樓:匿名使用者

spark是一個基於記憶體計算的開源的叢集計算系統,目的是讓資料分析更加快速。spark非常小巧玲瓏,由加州伯克利大學amp實驗室的matei為主的小團隊所開發。使用的語言是scala,專案的core部分的**只有63個scala檔案,非常短小精悍。

spark 是一種與 hadoop 相似的開源叢集計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 spark 在某些工作負載方面表現得更加優越,換句話說,spark 啟用了記憶體分佈資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

spark 是在 scala 語言中實現的,它將 scala 用作其應用程式框架。與 hadoop 不同,spark 和 scala 能夠緊密整合,其中的 scala 可以像操作本地集合物件一樣輕鬆地操作分散式資料集。

儘管建立 spark 是為了支援分散式資料集上的迭代作業,但是實際上它是對 hadoop 的補充,可以在 hadoop 檔案系統中並行執行。通過名為mesos的第三方叢集框架可以支援此行為。spark 由加州大學伯克利分校 amp 實驗室 (algorithms, machines, and people lab) 開發,可用來構建大型的、低延遲的資料分析應用程式。

spark 叢集計算架構

雖然 spark 與 hadoop 有相似之處,但它提供了具有有用差異的一個新的叢集計算框架。首先,spark 是為叢集計算中的特定型別的工作負載而設計,即那些在並行操作之間重用工作資料集(比如機器學習演算法)的工作負載。為了優化這些型別的工作負載,spark 引進了記憶體叢集計算的概念,可在記憶體叢集計算中將資料集快取在記憶體中,以縮短訪問延遲。

spark 還引進了名為彈性分散式資料集(rdd) 的抽象。rdd 是分佈在一組節點中的只讀物件集合。這些集合是彈性的,如果資料集一部分丟失,則可以對它們進行重建。

重建部分資料集的過程依賴於容錯機制,該機制可以維護 "血統"(即允許基於資料衍生過程重建部分資料集的資訊)。rdd 被表示為一個 scala 物件,並且可以從檔案中建立它;一個並行化的切片(遍佈於節點之間);另一個 rdd 的轉換形式;並且最終會徹底改變現有 rdd 的永續性,比如請求快取在記憶體中。

spark 中的應用程式稱為驅動程式,這些驅動程式可實現在單一節點上執行的操作或在一組節點上並行執行的操作。與 hadoop 類似,spark 支援單節點叢集或多節點叢集。對於多節點操作,spark 依賴於 mesos 叢集管理器。

mesos 為分散式應用程式的資源共享和隔離提供了一個有效平臺。該設定充許 spark 與 hadoop 共存於節點的一個共享池中。

apache spark是什麼意思?

3樓:加米穀大資料科技

apache spark是一個圍繞速度、易用性和複雜分析構建的大資料處理框架,spark有如下優勢:

spark提供了一個全面、統一的框架用於管理各種有著不同性質(文字資料、圖表資料等)的資料集和資料來源(批量資料或實時的流資料)的大資料處理的需求。

官方資料介紹spark可以將hadoop叢集中的應用在記憶體中的執行速度提升100倍,甚至能夠將應用在磁碟上的執行速度提升10倍。

apache spark 需要什麼基礎

4樓:藍月

通過水平擴充套件商用主機,hdfs提供了一個廉價的方式對海量資料進行容錯儲存。

mapreduce計算範例,提供了一個簡單的程式設計模型來挖掘資料並獲得洞見。

apache flink和apache spark有什麼異同?它們的發展前景分別怎樣

5樓:加米穀大資料科技

apache fink是一種大規模的資料處理工具,它以大資料量的低資料延遲和高容錯性快速處理大資料。它的定義特徵是它能夠實時處理流資料。

apache spark是專為大規模資料處理而設計的快速通用的計算引擎,是一種與 hadoop 相似的開源叢集計算環境。

相同點:

都是apache 軟體**會(asf)旗下頂級專案,都是通用資料處理平臺。它們可以應用在很多的大資料應用和處理環境。兩者均可在不依賴於其他環境的情況下執行於standalone模式,或是執行在基於hadoop(yarn,hdfs)之上,由於它們均是執行於記憶體,所以他們表現的都比hadoop要好很多。

二者的不同:

flink在進行集合的迭代轉換時可以是迴圈或是迭代計算處理。flink的流式處理的是真正的流處理。流式資料一旦進入就實時進行處理,這就允許流資料靈活地在操作視窗。

spark 在另一方面是基於彈性分散式資料集(rdd),這(主要的)給於spark基於記憶體內資料結構的函數語言程式設計。它可以通過固定的記憶體給於大批量的計算。

6樓:地瓜說機

flink是一個類似spark的「開源技術棧」,因為它也提供了批處理,流式計算,圖計算,互動式查詢,機器學習等。

flink

也是記憶體計算,比較類似spark,但是不一樣的是,spark的計算模型基於rdd,將流式計算看成是特殊的批處理,他的dstream其實還是

rdd。而flink吧批處理當成是特殊的流式計算,但是批處理和流式計算的層的引擎是兩個,抽象了dataset和datastream。

flink在效能上也標新很好,流式計算延遲比spark少,能做到真正的流式計算,而spark只能是準流式計算。而且在批處理上,當迭代次數變多,flink的速度比spark還要快,所以如果flink早一點出來,或許比現在的spark更火。

什麼是什麼是什麼是什麼造句,什麼是什麼,什麼也是什麼造句

日子像一條小溪,汩汩 g 地向前流去.日子像一雙筷子,夾著酸甜苦辣的現實.日子如 像一團麻,總有那解不開的疙疙瘩瘩。日子如 像水,掬不起來,只能眼睜睜的看它流走.語文是無色無味的清水,讓人反覆咀嚼。語文是清香苦澀的綠茶,讓人細細品味。語文是惟妙惟肖的國畫,讓人賞心悅目。語文是朗朗上口的詩句,讓人陶冶...

是什麼?是什麼?還是什麼造句,用是什麼是什麼還是什麼造句

1 小明的學習成績優秀,是刻苦?是努力?還是日積月累的沉澱?2 這種衣料很難分辨出是棉布?是麻布?還是化纖布?3 在你的學生時代中,你最喜歡的,是懵懵懂懂地小學?是青青澀澀地中學?還是真真實實地大學?4 迎面飄來的花香來自 是玫瑰?是月季?還是海棠?5 你最喜歡的季節,是春回大地 萬物復甦的春天,是...

父母的愛是什麼是什麼是什麼是什麼

黃土當如何 這個問題看上去很簡單,實際上卻有些難。在這年頭做父母的人還不如做子女的人。在子女眼中,父母是偉大的,是了不起的。對自己有大恩的,沒有他們就沒有我。但是在父母眼中,孩子是什麼,傳宗接代的工具。被父母逼的沒辦法敷衍父母的工具,一個長期的保險,一個低成本的投資。父母生孩子很少是因為愛孩子而生的...