本文來自于2018年09月19日在 Adobe Systems Inc 舉行的Apache Spark Meetup。
即將發(fā)布的 Apache Spark 2.4 版本是 2.x 系列的第五個(gè)版本。 本文對(duì)Apache Spark 2.4 的主要功能和增強(qiáng)功能進(jìn)行了概述。
- 新的調(diào)度模型(Barrier Scheduling),使用戶能夠?qū)⒎植际缴疃葘W(xué)習(xí)訓(xùn)練恰當(dāng)?shù)厍度氲?Spark 的 stage 中,以簡(jiǎn)化分布式訓(xùn)練工作流程。
- 添加了35個(gè)高階函數(shù),用于在 Spark SQL 中操作數(shù)組/map。
- 新增一個(gè)新的基于 Databricks 的 spark-avro 模塊的原生 AVRO 數(shù)據(jù)源。
- PySpark 還為教學(xué)和可調(diào)試性的所有操作引入了熱切的評(píng)估模式(eager evaluation mode)。
- Spark on K8S 支持 PySpark 和 R ,支持客戶端模式(client-mode)。
- Structured Streaming 的各種增強(qiáng)功能。 例如,連續(xù)處理(continuous processing)中的有狀態(tài)操作符。
- 內(nèi)置數(shù)據(jù)源的各種性能改進(jìn)。 例如,Parquet 嵌套模式修剪(schema pruning)。
- 支持 Scala 2.12。
點(diǎn)擊 示說網(wǎng) ,即可下載此PPT。
總結(jié)
以上所述是小編給大家介紹的2018即將推出的Apache Spark 2.4都有哪些新功能,希望對(duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!