Apache Spark

Software screenshot:
Apache Spark
Software detaljer:
Version: 1.6.0 Opdateret
Upload dato: 6 Mar 16
Licens: Gratis
Popularitet: 104

Rating: 1.0/5 (Total Votes: 1)

Apache Spark er designet til at forbedre behandlingen hastigheder til dataanalyse og manipulation programmer.

Det var skrevet i Java og Scala og indeholder funktioner ikke findes i andre systemer, mest fordi de ikke er mainstream eller at nyttige for ikke-edb-applikationer.

Spark blev først oprettet ved UC Berkeley AMP Lab og senere doneret til Apache Software Foundation

Hvad er nyt i denne udgivelse:.

  • Unified Memory Management -. Delt hukommelse til udførelse og caching i stedet for eksklusiv opdeling af regioner
  • Parket resultater - Forbedre Parket scanning ydeevne ved brug af flade skemaer
  • .
  • Forbedret forespørgsel planner for forespørgsler der har forskellige aggregeringer -. Søgeord planer distinkte aggregeringer er mere robuste, når distinkte kolonner har høj kardinaliteten
  • Adaptive forespørgsel udførelse -. Initial støtte til automatisk at vælge antallet af reduktionsgear til sammenføjninger og aggregeringer
  • Undgå dobbelt filtre i datakilde API -. Ved gennemførelsen af ​​en datakilde med filter pushdown kan udviklere nu fortælle Spark SQL at undgå dobbelt evaluere en skubbet ned filter
  • Hurtig null-safe slutter - Melder bruger null-safe lighed (& # X3C; = & # x3e;) vil nu udføre ved hjælp SortMergeJoin stedet for at beregne en cartisian produkt
  • .
  • I-memory Kolonneform Cache resultater - Signifikant (op til 14x) fremskynde når caching af data, der indeholder komplekse former i DataFrames eller SQL
  • .
  • SQL Udførelse Brug Off-Heap Hukommelse - Støtte til konfiguration forespørgsel udførelse at forekomme bruge off-bunke hukommelse for at undgå GC overliggende

Hvad er nye i version 1.5.2:

  • Kernen API understøtter nu multi-level sammenlægning træer at bidrage til at fremskynde dyrt reducere operationer.
  • Forbedret fejlrapportering er blevet tilføjet for visse gotcha operationer.
  • Spark s Jetty afhængighed er nu nedtonet for at undgå konflikter med brugerprogrammer.
  • Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
  • Realtime GC målinger og optage tæller er blevet tilføjet til UI.

Hvad er nye i version 1.4.0:

  • Kernen API understøtter nu multi-level sammenlægning træer at bidrage til at fremskynde dyrt reducere operationer.
  • Forbedret fejlrapportering er blevet tilføjet for visse gotcha operationer.
  • Spark s Jetty afhængighed er nu nedtonet for at undgå konflikter med brugerprogrammer.
  • Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
  • Realtime GC målinger og optage tæller er blevet tilføjet til UI.

Hvad er nyt i version 1.2.0:

  • PySpark s slags operatør understøtter nu ekstern spilde for store datasæt .
  • PySpark understøtter nu broadcast variabler større end 2 GB og udfører ekstern spild under slags.
  • Spark tilføjer et job-niveau fremskridt siden i Spark UI, en stabil API for fremskridt rapportering og dynamisk opdatering af output målinger som job færdig.
  • Spark har nu støtte til at læse binære filer for billeder og andre binære formater.

Hvad er nyt i version 1.0.0:

  • Denne udgivelse udvider Spark s standard biblioteker, at indføre en ny SQL-pakke (Spark SQL), der lader brugerne integrere SQL-forespørgsler i eksisterende Spark arbejdsgange.
  • MLlib, Spark maskine learning bibliotek, udvides med sparsomme vektor support og flere nye algoritmer.

Hvad er nyt i version 0.9.1:

  • Fast hash kollision fejl i ekstern breder
  • Fast konflikt med Spark s Log4J for brugere afhængige af andre skovhugst backends
  • Fast Graphx mangler fra Spark samling krukke i maven bygger
  • Faste tavse fejl, der skyldes at kortlægge output status over Akka ramme størrelse
  • Fjernet Spark s unødvendig direkte afhængighed af ASM
  • Fjernede målinger-ganglier fra standard build grundet konflikt LGPL licens
  • Fixed bug i distributionen tarball der ikke indeholder gnist samling krukke

Hvad er nyt i version 0.8.0:

  • Udvikling er flyttet til Apache Sowftware Foundation som en inkubator projekt.

Hvad er nyt i version 0.7.3:

  • Python ydeevne: Spark mekanisme for gydende Python VM'er har blevet forbedret for at gøre det hurtigere, når JVM har en stor bunke størrelse, fremskynde Python API.
  • Mesos løser: JAR føjet til dit job, vil nu være på classpath når deserializing opgave resultater i Mesos
  • .
  • Fejlrapportering:. Bedre rapportering fejl for ikke-Serializable undtagelser og alt for store opgave resultater
  • Eksempler:. Tilføjet et eksempel på stateful stream processing med updateStateByKey
  • Build:. Spark Streaming ikke længere afhænger af Twitter4J repo, hvilket skulle gøre det muligt at bygge i Kina
  • Fejlrettelser i foldByKey, streaming optælling, statistik metoder, dokumentation, og web-UI.

Hvad er nyt i version 0.7.2:.

  • Scala-version opdateret til 2.9.3
  • Flere forbedringer af Bagel, herunder ydeevne rettelser og en konfigurerbar opbevaring niveau.
  • Nye API metoder:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition og andre
  • En ny målinger rapportering interface, SparkListener, til at indsamle oplysninger om hver enkelt beregning etape:. Opgave længder, bytes blandes, etc
  • Flere nye eksempler ved hjælp af Java API, herunder K-midler og computing pi.

Hvad er nyt i version 0.7.0:

  • Spark 0,7 tilføjer en Python API kaldet PySpark <. / li>
  • Spark job nu lancere en web instrumentbræt til overvågning af hukommelsesbrug af hvert distribueret datasæt (RDD) i programmet.
  • Spark kan nu bygget ved hjælp Maven foruden SBT.

Hvad er nyt i version 0.6.1:

  • Fast alt for aggressiv besked timeouts, der kan forårsage arbejdstagere til afbryde forbindelsen til klyngen.
  • Rettet en fejl i den enkeltstående deploy tilstand, der ikke udsætte værtsnavne til scheduler, der påvirker HDFS lokalitet.
  • Forbedret tilslutning genbrug i shuffle, som i høj grad kan fremskynde små blander.
  • Faste nogle potentielle blokeringer i blokken manager.
  • Rettet en fejl få id'er for mislykkede værter fra Mesos.
  • Flere EC2 script forbedringer, ligesom en bedre håndtering af spot tilfælde.
  • Gjort lokale IP-adresse, Spark binder sig til tilpasses.
  • Understøttelse af Hadoop 2 distributioner.
  • Støtte til lokalisering Scala på Debian-distributioner.

Hvad er nyt i version 0.6.0:.

  • Enklere installation
  • Spark dokumentation er blevet udvidet med en ny hurtig start guide, yderligere instruktioner implementering, konfiguration guide, tuning guide, og forbedret Scaladoc API-dokumentation.
  • En ny Communication Manager bruger asynkron Java NIO lader shuffle operationer køre hurtigere, især når du sender store mængder data, eller når arbejdspladser har mange opgaver.
  • En ny Storage Manager understøtter pr-datasæt indstillinger opbevaring niveau (fx om at holde datasættet i hukommelsen, serialiseret, på disk, etc, eller endda gentaget tværs noder).
  • Forbedret debugging.

Andre software developer Apache Software Foundation

Apache BookKeeper
Apache BookKeeper

13 Apr 15

Apache Crunch
Apache Crunch

10 Dec 15

Apache Etch
Apache Etch

13 Apr 15

Kommentarer til Apache Spark

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!