Apache Spark

Software screenshot:
Apache Spark
Software detaljer:
Version: 1.6.0 Opdateret
Upload dato: 6 Mar 16
Licens: Gratis
Popularitet: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark er designet til at forbedre behandlingen hastigheder til dataanalyse og manipulation programmer.

Det var skrevet i Java og Scala og indeholder funktioner ikke findes i andre systemer, mest fordi de ikke er mainstream eller at nyttige for ikke-edb-applikationer.

Spark blev først oprettet ved UC Berkeley AMP Lab og senere doneret til Apache Software Foundation

Hvad er nyt i denne udgivelse:.

  • Unified Memory Management -. Delt hukommelse til udførelse og caching i stedet for eksklusiv opdeling af regioner
  • Parket resultater - Forbedre Parket scanning ydeevne ved brug af flade skemaer
  • .
  • Forbedret forespørgsel planner for forespørgsler der har forskellige aggregeringer -. Søgeord planer distinkte aggregeringer er mere robuste, når distinkte kolonner har høj kardinaliteten
  • Adaptive forespørgsel udførelse -. Initial støtte til automatisk at vælge antallet af reduktionsgear til sammenføjninger og aggregeringer
  • Undgå dobbelt filtre i datakilde API -. Ved gennemførelsen af ​​en datakilde med filter pushdown kan udviklere nu fortælle Spark SQL at undgå dobbelt evaluere en skubbet ned filter
  • Hurtig null-safe slutter - Melder bruger null-safe lighed (& # X3C; = & # x3e;) vil nu udføre ved hjælp SortMergeJoin stedet for at beregne en cartisian produkt
  • .
  • I-memory Kolonneform Cache resultater - Signifikant (op til 14x) fremskynde når caching af data, der indeholder komplekse former i DataFrames eller SQL
  • .
  • SQL Udførelse Brug Off-Heap Hukommelse - Støtte til konfiguration forespørgsel udførelse at forekomme bruge off-bunke hukommelse for at undgå GC overliggende

Hvad er nye i version 1.5.2:

  • Kernen API understøtter nu multi-level sammenlægning træer at bidrage til at fremskynde dyrt reducere operationer.
  • Forbedret fejlrapportering er blevet tilføjet for visse gotcha operationer.
  • Spark s Jetty afhængighed er nu nedtonet for at undgå konflikter med brugerprogrammer.
  • Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
  • Realtime GC målinger og optage tæller er blevet tilføjet til UI.

Hvad er nye i version 1.4.0:

  • Kernen API understøtter nu multi-level sammenlægning træer at bidrage til at fremskynde dyrt reducere operationer.
  • Forbedret fejlrapportering er blevet tilføjet for visse gotcha operationer.
  • Spark s Jetty afhængighed er nu nedtonet for at undgå konflikter med brugerprogrammer.
  • Spark understøtter nu SSL-kryptering for nogle kommunikationsproblemer endpoints.
  • Realtime GC målinger og optage tæller er blevet tilføjet til UI.

Hvad er nyt i version 1.2.0:

  • PySpark s slags operatør understøtter nu ekstern spilde for store datasæt .
  • PySpark understøtter nu broadcast variabler større end 2 GB og udfører ekstern spild under slags.
  • Spark tilføjer et job-niveau fremskridt siden i Spark UI, en stabil API for fremskridt rapportering og dynamisk opdatering af output målinger som job færdig.
  • Spark har nu støtte til at læse binære filer for billeder og andre binære formater.

Hvad er nyt i version 1.0.0:

  • Denne udgivelse udvider Spark s standard biblioteker, at indføre en ny SQL-pakke (Spark SQL), der lader brugerne integrere SQL-forespørgsler i eksisterende Spark arbejdsgange.
  • MLlib, Spark maskine learning bibliotek, udvides med sparsomme vektor support og flere nye algoritmer.

Hvad er nyt i version 0.9.1:

  • Fast hash kollision fejl i ekstern breder
  • Fast konflikt med Spark s Log4J for brugere afhængige af andre skovhugst backends
  • Fast Graphx mangler fra Spark samling krukke i maven bygger
  • Faste tavse fejl, der skyldes at kortlægge output status over Akka ramme størrelse
  • Fjernet Spark s unødvendig direkte afhængighed af ASM
  • Fjernede målinger-ganglier fra standard build grundet konflikt LGPL licens
  • Fixed bug i distributionen tarball der ikke indeholder gnist samling krukke

Hvad er nyt i version 0.8.0:

  • Udvikling er flyttet til Apache Sowftware Foundation som en inkubator projekt.

Hvad er nyt i version 0.7.3:

  • Python ydeevne: Spark mekanisme for gydende Python VM'er har blevet forbedret for at gøre det hurtigere, når JVM har en stor bunke størrelse, fremskynde Python API.
  • Mesos løser: JAR føjet til dit job, vil nu være på classpath når deserializing opgave resultater i Mesos
  • .
  • Fejlrapportering:. Bedre rapportering fejl for ikke-Serializable undtagelser og alt for store opgave resultater
  • Eksempler:. Tilføjet et eksempel på stateful stream processing med updateStateByKey
  • Build:. Spark Streaming ikke længere afhænger af Twitter4J repo, hvilket skulle gøre det muligt at bygge i Kina
  • Fejlrettelser i foldByKey, streaming optælling, statistik metoder, dokumentation, og web-UI.

Hvad er nyt i version 0.7.2:.

  • Scala-version opdateret til 2.9.3
  • Flere forbedringer af Bagel, herunder ydeevne rettelser og en konfigurerbar opbevaring niveau.
  • Nye API metoder:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition og andre
  • En ny målinger rapportering interface, SparkListener, til at indsamle oplysninger om hver enkelt beregning etape:. Opgave længder, bytes blandes, etc
  • Flere nye eksempler ved hjælp af Java API, herunder K-midler og computing pi.

Hvad er nyt i version 0.7.0:

  • Spark 0,7 tilføjer en Python API kaldet PySpark <. / li>
  • Spark job nu lancere en web instrumentbræt til overvågning af hukommelsesbrug af hvert distribueret datasæt (RDD) i programmet.
  • Spark kan nu bygget ved hjælp Maven foruden SBT.

Hvad er nyt i version 0.6.1:

  • Fast alt for aggressiv besked timeouts, der kan forårsage arbejdstagere til afbryde forbindelsen til klyngen.
  • Rettet en fejl i den enkeltstående deploy tilstand, der ikke udsætte værtsnavne til scheduler, der påvirker HDFS lokalitet.
  • Forbedret tilslutning genbrug i shuffle, som i høj grad kan fremskynde små blander.
  • Faste nogle potentielle blokeringer i blokken manager.
  • Rettet en fejl få id'er for mislykkede værter fra Mesos.
  • Flere EC2 script forbedringer, ligesom en bedre håndtering af spot tilfælde.
  • Gjort lokale IP-adresse, Spark binder sig til tilpasses.
  • Understøttelse af Hadoop 2 distributioner.
  • Støtte til lokalisering Scala på Debian-distributioner.

Hvad er nyt i version 0.6.0:.

  • Enklere installation
  • Spark dokumentation er blevet udvidet med en ny hurtig start guide, yderligere instruktioner implementering, konfiguration guide, tuning guide, og forbedret Scaladoc API-dokumentation.
  • En ny Communication Manager bruger asynkron Java NIO lader shuffle operationer køre hurtigere, især når du sender store mængder data, eller når arbejdspladser har mange opgaver.
  • En ny Storage Manager understøtter pr-datasæt indstillinger opbevaring niveau (fx om at holde datasættet i hukommelsen, serialiseret, på disk, etc, eller endda gentaget tværs noder).
  • Forbedret debugging.

Andre software developer Apache Software Foundation

Kommentarer til Apache Spark

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!