Apache Spark

Software screenshot:
Apache Spark
Software detaljer:
Version: 1.3.1 Opdateret
Upload dato: 12 May 15
Licens: Gratis
Popularitet: 45

Rating: 5.0/5 (Total Votes: 1)

Spark er designet til at forbedre behandlingen hastigheder til dataanalyse og manipulation programmer.
Den blev skrevet i Java og Scala og indeholder funktioner som ikke findes i andre systemer, mest fordi de ikke er mainstream eller at nyttige for behandling af ikke-data applikationer.

Hvad er nyt i denne udgave:.

  • Kernen API understøtter nu multi-level sammenlægning træer til at hjælpe fremskynde dyre reducere operationer
  • Forbedret fejlrapportering er blevet tilføjet for visse Gotcha operationer.
  • Spark s Jetty afhængighed er nu nedtonet for at hjælpe med at undgå konflikter med brugerprogrammer.
  • Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
  • Realtime GC målinger og optage tæller er blevet tilføjet til UI.

Hvad er nye i version 1.3.0:

  • Kernen API understøtter nu multi-level sammenlægning træer at hjælpe med at fremskynde dyre reducere operationer.
  • Forbedret fejlrapportering er blevet tilføjet for visse Gotcha operationer.
  • Spark s Jetty afhængighed er nu nedtonet for at hjælpe med at undgå konflikter med brugerprogrammer.
  • Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
  • Realtime GC målinger og optage tæller er blevet tilføjet til UI.

Hvad er nyt i version 1.2.1:

  • PySpark s slags operatør understøtter nu ekstern spilde for store datasæt .
  • PySpark understøtter nu broadcast variabler større end 2 GB og udfører ekstern spilde under slags.
  • Spark tilføjer et job-niveau fremskridt siden i Spark UI, en stabil API for fremskridt rapportering og dynamisk opdatering af output målinger som job færdig.
  • Spark har nu støtte til at læse binære filer for billeder og andre binære formater.

Hvad nyt i version 1.0.0:

  • Denne udgivelse udvider Spark er standard biblioteker, at indføre en ny SQL-pakke (Spark SQL), der lader brugerne integrere SQL-forespørgsler i eksisterende Spark arbejdsgange.
  • MLlib, Spark maskine learning bibliotek, udvides med sparsomme vektor support og flere nye algoritmer.

Hvad er nyt i version 0.9.1:

  • Fast hash kollision fejl i ekstern spild
  • Fast konflikt med Spark s Log4J for brugere afhængige af andre logging backends
  • Fast Graphx mangler fra Spark samling krukke i maven bygger
  • Faste tavse svigt grundet kortlægge output status over Akka rammestørrelse
  • Fjernet Spark er unødvendig direkte afhængighed af ASM
  • Fjernede målinger-ganglier fra standard build grundet LGPL licens konflikter
  • Fixed bug i distributionen tarball der ikke indeholder gnist samling krukke

Hvad er nyt i version 0.8.0:

  • Udvikling er flyttet til Apache Sowftware Foundation som en inkubator projekt.

Hvad nyt i version 0.7.3:

  • Python præstationer: Spark mekanisme for gydende Python VM'er har blevet forbedret for at gøre det hurtigere, når JVM har en stor bunke størrelse, fremskynde Python API.
  • Mesos løser: JAR tilføjet til dit job, vil nu være på classpath når deserializing opgave resulterer i Mesos
  • .
  • Fejlrapportering:. Bedre fejlrapportering for ikke-Serializable undtagelser og alt for store opgave resultater
  • Eksempler:. Tilføjet et eksempel på stateful stream processing med updateStateByKey
  • Build:. Spark Streaming ikke længere afhænger af Twitter4J repo, som skulle gøre det muligt at bygge i Kina
  • Fejlrettelser i foldByKey, streaming optælling, statistik metoder, dokumentation, og web-UI.

Hvad er nyt i version 0.7.2:.

  • Scala-version opdateret til 2.9.3
  • Flere forbedringer af Bagel, herunder ydeevne rettelser og en konfigurerbar opbevaring niveau.
  • Nye API metoder:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition og andre
  • En ny målinger rapportering interface, SparkListener, at indsamle oplysninger om hver enkelt beregning etape:. Opgave længder, bytes blandes osv
  • Flere nye eksempler ved hjælp af Java API, herunder K-midler og computing pi.

Hvad er nyt i version 0.7.0:

  • Spark 0,7 tilføjer en Python API kaldet PySpark <. / li>
  • Spark jobs nu lancere en web instrumentbræt til overvågning af hukommelsesbrug af hvert distribueret datasæt (RDD) i programmet.
  • Spark kan nu bygges ved hjælp Maven foruden SBT.

Hvad er nyt i version 0.6.1:

  • Fast alt for aggressiv besked timeouts, der kan forårsage arbejdstagere til afbryde forbindelsen til klyngen.
  • Rettet en fejl i enkeltstående deploy-mode, der ikke udsætte værtsnavne til scheduler, der påvirker HDFS lokalitet.
  • Forbedret tilslutning genbrug i shuffle, som i høj grad kan fremskynde små blander.
  • Faste nogle potentielle blokeringer i blokken manager.
  • Rettet en fejl få id'er for mislykkede værter fra Mesos.
  • Flere EC2 script forbedringer, ligesom en bedre håndtering af spot tilfælde.
  • Made den lokale IP-adresse, Spark bindes til tilpasses.
  • Understøttelse af Hadoop 2 distributioner.
  • Support til lokalisering Scala på Debian-distributioner.

Hvad er nyt i version 0.6.0:.

  • Enklere installation
  • Spark dokumentation er blevet udvidet med en ny hurtig start guide, yderligere implementering instruktioner, konfiguration guide, tuning guide, og forbedret Scaladoc API-dokumentation.
  • En ny kommunikation leder ved hjælp af asynkron Java NIO lader shuffle operationer køre hurtigere, især når du sender store mængder data, eller når job har mange opgaver.
  • En ny Storage Manager understøtter pr-datasæt indstillinger opbevaring niveau (fx om at holde datasættet i hukommelsen, serialiseret, på disk, etc, eller endda gentaget tværs noder).
  • Forbedret debugging.

Lignende software

Packer
Packer

10 Dec 15

Uptime
Uptime

13 May 15

Apache Helix
Apache Helix

13 Apr 15

Kommentarer til Apache Spark

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!
Søg efter kategori