Apache Spark er designet til at forbedre behandlingen hastigheder til dataanalyse og manipulation programmer.
Det var skrevet i Java og Scala og indeholder funktioner ikke findes i andre systemer, mest fordi de ikke er mainstream eller at nyttige for ikke-edb-applikationer.
Spark blev først oprettet ved UC Berkeley AMP Lab og senere doneret til Apache Software Foundation
Hvad er nyt i denne udgivelse:.
- Unified Memory Management -. Delt hukommelse til udførelse og caching i stedet for eksklusiv opdeling af regioner
- Parket resultater - Forbedre Parket scanning ydeevne ved brug af flade skemaer .
- Forbedret forespørgsel planner for forespørgsler der har forskellige aggregeringer -. Søgeord planer distinkte aggregeringer er mere robuste, når distinkte kolonner har høj kardinaliteten
- Adaptive forespørgsel udførelse -. Initial støtte til automatisk at vælge antallet af reduktionsgear til sammenføjninger og aggregeringer
- Undgå dobbelt filtre i datakilde API -. Ved gennemførelsen af en datakilde med filter pushdown kan udviklere nu fortælle Spark SQL at undgå dobbelt evaluere en skubbet ned filter
- Hurtig null-safe slutter - Melder bruger null-safe lighed (& # X3C; = & # x3e;) vil nu udføre ved hjælp SortMergeJoin stedet for at beregne en cartisian produkt .
- I-memory Kolonneform Cache resultater - Signifikant (op til 14x) fremskynde når caching af data, der indeholder komplekse former i DataFrames eller SQL .
- SQL Udførelse Brug Off-Heap Hukommelse - Støtte til konfiguration forespørgsel udførelse at forekomme bruge off-bunke hukommelse for at undgå GC overliggende
Hvad er nye i version 1.5.2:
- Kernen API understøtter nu multi-level sammenlægning træer at bidrage til at fremskynde dyrt reducere operationer.
- Forbedret fejlrapportering er blevet tilføjet for visse gotcha operationer.
- Spark s Jetty afhængighed er nu nedtonet for at undgå konflikter med brugerprogrammer.
- Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
- Realtime GC målinger og optage tæller er blevet tilføjet til UI.
Hvad er nye i version 1.4.0:
- Kernen API understøtter nu multi-level sammenlægning træer at bidrage til at fremskynde dyrt reducere operationer.
- Forbedret fejlrapportering er blevet tilføjet for visse gotcha operationer.
- Spark s Jetty afhængighed er nu nedtonet for at undgå konflikter med brugerprogrammer.
- Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
- Realtime GC målinger og optage tæller er blevet tilføjet til UI.
Hvad er nyt i version 1.2.0:
- PySpark s slags operatør understøtter nu ekstern spilde for store datasæt .
- PySpark understøtter nu broadcast variabler større end 2 GB og udfører ekstern spild under slags.
- Spark tilføjer et job-niveau fremskridt siden i Spark UI, en stabil API for fremskridt rapportering og dynamisk opdatering af output målinger som job færdig.
- Spark har nu støtte til at læse binære filer for billeder og andre binære formater.
Hvad er nyt i version 1.0.0:
- Denne udgivelse udvider Spark s standard biblioteker, at indføre en ny SQL-pakke (Spark SQL), der lader brugerne integrere SQL-forespørgsler i eksisterende Spark arbejdsgange.
- MLlib, Spark maskine learning bibliotek, udvides med sparsomme vektor support og flere nye algoritmer.
Hvad er nyt i version 0.9.1:
- Fast hash kollision fejl i ekstern breder
- Fast konflikt med Spark s Log4J for brugere afhængige af andre skovhugst backends
- Fast Graphx mangler fra Spark samling krukke i maven bygger
- Faste tavse fejl, der skyldes at kortlægge output status over Akka ramme størrelse
- Fjernet Spark s unødvendig direkte afhængighed af ASM
- Fjernede målinger-ganglier fra standard build grundet konflikt LGPL licens
- Fixed bug i distributionen tarball der ikke indeholder gnist samling krukke
Hvad er nyt i version 0.8.0:
- Udvikling er flyttet til Apache Sowftware Foundation som en inkubator projekt.
Hvad er nyt i version 0.7.3:
- Python ydeevne: Spark mekanisme for gydende Python VM'er har blevet forbedret for at gøre det hurtigere, når JVM har en stor bunke størrelse, fremskynde Python API.
- Mesos løser: JAR føjet til dit job, vil nu være på classpath når deserializing opgave resultater i Mesos .
- Fejlrapportering:. Bedre rapportering fejl for ikke-Serializable undtagelser og alt for store opgave resultater
- Eksempler:. Tilføjet et eksempel på stateful stream processing med updateStateByKey
- Build:. Spark Streaming ikke længere afhænger af Twitter4J repo, hvilket skulle gøre det muligt at bygge i Kina
- Fejlrettelser i foldByKey, streaming optælling, statistik metoder, dokumentation, og web-UI.
Hvad er nyt i version 0.7.2:.
- Scala-version opdateret til 2.9.3
- Flere forbedringer af Bagel, herunder ydeevne rettelser og en konfigurerbar opbevaring niveau.
- Nye API metoder:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition og andre
- En ny målinger rapportering interface, SparkListener, til at indsamle oplysninger om hver enkelt beregning etape:. Opgave længder, bytes blandes, etc
- Flere nye eksempler ved hjælp af Java API, herunder K-midler og computing pi.
Hvad er nyt i version 0.7.0:
- Spark 0,7 tilføjer en Python API kaldet PySpark <. / li>
- Spark job nu lancere en web instrumentbræt til overvågning af hukommelsesbrug af hvert distribueret datasæt (RDD) i programmet.
- Spark kan nu bygget ved hjælp Maven foruden SBT.
Hvad er nyt i version 0.6.1:
- Fast alt for aggressiv besked timeouts, der kan forårsage arbejdstagere til afbryde forbindelsen til klyngen.
- Rettet en fejl i den enkeltstående deploy tilstand, der ikke udsætte værtsnavne til scheduler, der påvirker HDFS lokalitet.
- Forbedret tilslutning genbrug i shuffle, som i høj grad kan fremskynde små blander.
- Faste nogle potentielle blokeringer i blokken manager.
- Rettet en fejl få id'er for mislykkede værter fra Mesos.
- Flere EC2 script forbedringer, ligesom en bedre håndtering af spot tilfælde.
- Gjort lokale IP-adresse, Spark binder sig til tilpasses.
- Understøttelse af Hadoop 2 distributioner.
- Støtte til lokalisering Scala på Debian-distributioner.
Hvad er nyt i version 0.6.0:.
- Enklere installation
- Spark dokumentation er blevet udvidet med en ny hurtig start guide, yderligere instruktioner implementering, konfiguration guide, tuning guide, og forbedret Scaladoc API-dokumentation.
- En ny Communication Manager bruger asynkron Java NIO lader shuffle operationer køre hurtigere, især når du sender store mængder data, eller når arbejdspladser har mange opgaver.
- En ny Storage Manager understøtter pr-datasæt indstillinger opbevaring niveau (fx om at holde datasættet i hukommelsen, serialiseret, på disk, etc, eller endda gentaget tværs noder).
- Forbedret debugging.
Kommentarer ikke fundet