Software detaljer:
Version: 1.3.1 Opdateret
Upload dato: 12 May 15
Licens: Gratis
Popularitet: 195
Spark er designet til at forbedre behandlingen hastigheder til dataanalyse og manipulation programmer.
Den blev skrevet i Java og Scala og indeholder funktioner som ikke findes i andre systemer, mest fordi de ikke er mainstream eller at nyttige for behandling af ikke-data applikationer.
Hvad er nyt i denne udgave:.
- Kernen API understøtter nu multi-level sammenlægning træer til at hjælpe fremskynde dyre reducere operationer
- Forbedret fejlrapportering er blevet tilføjet for visse Gotcha operationer.
- Spark s Jetty afhængighed er nu nedtonet for at hjælpe med at undgå konflikter med brugerprogrammer.
- Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
- Realtime GC målinger og optage tæller er blevet tilføjet til UI.
Hvad er nye i version 1.3.0:
- Kernen API understøtter nu multi-level sammenlægning træer at hjælpe med at fremskynde dyre reducere operationer.
- Forbedret fejlrapportering er blevet tilføjet for visse Gotcha operationer.
- Spark s Jetty afhængighed er nu nedtonet for at hjælpe med at undgå konflikter med brugerprogrammer.
- Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
- Realtime GC målinger og optage tæller er blevet tilføjet til UI.
Hvad er nyt i version 1.2.1:
- PySpark s slags operatør understøtter nu ekstern spilde for store datasæt .
- PySpark understøtter nu broadcast variabler større end 2 GB og udfører ekstern spilde under slags.
- Spark tilføjer et job-niveau fremskridt siden i Spark UI, en stabil API for fremskridt rapportering og dynamisk opdatering af output målinger som job færdig.
- Spark har nu støtte til at læse binære filer for billeder og andre binære formater.
Hvad nyt i version 1.0.0:
- Denne udgivelse udvider Spark er standard biblioteker, at indføre en ny SQL-pakke (Spark SQL), der lader brugerne integrere SQL-forespørgsler i eksisterende Spark arbejdsgange.
- MLlib, Spark maskine learning bibliotek, udvides med sparsomme vektor support og flere nye algoritmer.
Hvad er nyt i version 0.9.1:
- Fast hash kollision fejl i ekstern spild
- Fast konflikt med Spark s Log4J for brugere afhængige af andre logging backends
- Fast Graphx mangler fra Spark samling krukke i maven bygger
- Faste tavse svigt grundet kortlægge output status over Akka rammestørrelse
- Fjernet Spark er unødvendig direkte afhængighed af ASM
- Fjernede målinger-ganglier fra standard build grundet LGPL licens konflikter
- Fixed bug i distributionen tarball der ikke indeholder gnist samling krukke
Hvad er nyt i version 0.8.0:
- Udvikling er flyttet til Apache Sowftware Foundation som en inkubator projekt.
Hvad nyt i version 0.7.3:
- Python præstationer: Spark mekanisme for gydende Python VM'er har blevet forbedret for at gøre det hurtigere, når JVM har en stor bunke størrelse, fremskynde Python API.
- Mesos løser: JAR tilføjet til dit job, vil nu være på classpath når deserializing opgave resulterer i Mesos .
- Fejlrapportering:. Bedre fejlrapportering for ikke-Serializable undtagelser og alt for store opgave resultater
- Eksempler:. Tilføjet et eksempel på stateful stream processing med updateStateByKey
- Build:. Spark Streaming ikke længere afhænger af Twitter4J repo, som skulle gøre det muligt at bygge i Kina
- Fejlrettelser i foldByKey, streaming optælling, statistik metoder, dokumentation, og web-UI.
Hvad er nyt i version 0.7.2:.
- Scala-version opdateret til 2.9.3
- Flere forbedringer af Bagel, herunder ydeevne rettelser og en konfigurerbar opbevaring niveau.
- Nye API metoder:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition og andre
- En ny målinger rapportering interface, SparkListener, at indsamle oplysninger om hver enkelt beregning etape:. Opgave længder, bytes blandes osv
- Flere nye eksempler ved hjælp af Java API, herunder K-midler og computing pi.
Hvad er nyt i version 0.7.0:
- Spark 0,7 tilføjer en Python API kaldet PySpark <. / li>
- Spark jobs nu lancere en web instrumentbræt til overvågning af hukommelsesbrug af hvert distribueret datasæt (RDD) i programmet.
- Spark kan nu bygges ved hjælp Maven foruden SBT.
Hvad er nyt i version 0.6.1:
- Fast alt for aggressiv besked timeouts, der kan forårsage arbejdstagere til afbryde forbindelsen til klyngen.
- Rettet en fejl i enkeltstående deploy-mode, der ikke udsætte værtsnavne til scheduler, der påvirker HDFS lokalitet.
- Forbedret tilslutning genbrug i shuffle, som i høj grad kan fremskynde små blander.
- Faste nogle potentielle blokeringer i blokken manager.
- Rettet en fejl få id'er for mislykkede værter fra Mesos.
- Flere EC2 script forbedringer, ligesom en bedre håndtering af spot tilfælde.
- Made den lokale IP-adresse, Spark bindes til tilpasses.
- Understøttelse af Hadoop 2 distributioner.
- Support til lokalisering Scala på Debian-distributioner.
Hvad er nyt i version 0.6.0:.
- Enklere installation
- Spark dokumentation er blevet udvidet med en ny hurtig start guide, yderligere implementering instruktioner, konfiguration guide, tuning guide, og forbedret Scaladoc API-dokumentation.
- En ny kommunikation leder ved hjælp af asynkron Java NIO lader shuffle operationer køre hurtigere, især når du sender store mængder data, eller når job har mange opgaver.
- En ny Storage Manager understøtter pr-datasæt indstillinger opbevaring niveau (fx om at holde datasættet i hukommelsen, serialiseret, på disk, etc, eller endda gentaget tværs noder).
- Forbedret debugging.
Kommentarer ikke fundet