誰能介紹一下spark pipline計算的自動優化?

時間 2021-06-02 10:50:37

1樓:RednaxelaFX

題主說的是我磚廠的Bill大大和Matei大大合寫的新書《Spark: The Definitive Guide》裡的內容麼。

Sharing Knowledge with the Community in a Preview of Apache Spark: The Definitive Guide - The Databricks Blog

題主所提到的章節,當前的比較新的版本是這樣寫的:

作為入門資訊,這段其實說得已經挺清楚了。稍微比這個詳細一點的講解,在同一本書中後面對應 Structured API Overview 的章節會提到,在預覽版中位於第51頁,請讀讀看。這裡提到了Spark中名為Catalyst的優化器的大體工作原理,題主所關心的優化就是由這個優化器實現的,包括上面說的predicate pushdown(謂詞下推)優化。

「Spark SQL」專案其實暴露出了兩種使用方式,一種是SQL語言,另一種是DataFrame / Dataset API(統稱Structured API)。兩者底下共用完全相同的優化與執行器。事實上,SQL在經過語法分析(parse)之後會構造出對應的DataFrame表現形式,所以後續實現當然就是一樣的。

這個優化器與執行器既然能處理SQL,其內裡多少也得跟傳統資料庫技術扯上點關係。Catalyst其實很大程度上就跟傳統關係型資料庫中的 query planner / query compiler 相似,實現了不少資料庫裡很常見的優化。謂詞下推就是這樣的例子。

網上關於Spark Catalyst的介紹文不少,題主感興趣的話可以搜搜看。我近期也會碼點相關的東西發出來 >_<

誰能介紹一下渦扇20?

才沒有 根據英國國防專家托馬斯 紐迪克的話,WS 20預計將提供約31,000磅 約14噸,最大可達16噸 的推力。油耗比D 30KP 2低30 預計翻修壽命5000多到6000小時。在渦扇 20披露之後,有俄羅斯的專家都開始擔心渦扇 20對俄羅斯航空發動機的衝擊,因為第一點,渦扇 20研發出來之後...

誰能幫忙介紹一下柬埔寨?

Lifeissothisorthat 袁蓮萬 吉凶指數 83孕婦夢見魚,在大多數情況下,意味著自己會生可愛乖巧的女兒,但也有生男孩兒的可能性。這主要是夢者對自己平常潛意識的想法,內心期望能夠生乙個可愛健康的寶寶 夢中看到有一群魚開心的游來游去,意指你的戀情老是停在原處,所以希望戀情有進一步的發展了。...

誰能詳細介紹一下黑寡婦啊?

天使沒有仁慈之心 你要想看mcu黑寡婦電影的話,那沒必要了解黑寡婦,因為mcu本來就沒啥涉及她的地方,出電影大概率是為了zzzq和讓鋼鐵俠出出鏡,估計會拍成 鋼鐵俠3.5 就我,看蜘蛛俠 各類蜘蛛俠,組合起來當乙個刊吧不然太多了 夜魔俠,死侍,惡靈騎士,四個刊的人,都甚少接觸到黑寡婦。其實她不算那種...