mrjob

Software screenshot:
mrjob
Software detaljer:
Version: 0.4
Upload dato: 20 Feb 15
Udvikler: David Marin
Licens: Gratis
Popularitet: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob er en Python-modul, der hjælper dig med at skrive og køre Hadoop Streaming job.
mrjob støtter fuldt Amazons Elastic MapReduce (EMR) tjeneste, som giver dig mulighed for at købe tid på en Hadoop klynge på timebasis. Det virker også med din egen Hadoop klynge.
Installation:
python setup.py installere
Opsætning EMR på Amazon
& Nbsp; * skabe en Amazon Web Services-konto: http://aws.amazon.com/
& Nbsp; * tilmelde dig Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Få din adgang og hemmelige nøgler (gå til http://aws.amazon.com/account/ og klik på "Security legitimationsoplysninger"), og sætte miljø variablerne $ AWS_ACCESS_KEY_ID og $ AWS_SECRET_ACCESS_KEY overensstemmelse hermed

Prøv det!

# Lokalt
python mrjob / eksempler / mr_word_freq_count.py README.md> tæller
# På EMR
python mrjob / eksempler / mr_word_freq_count.py README.md -r EMR> tæller
# På din Hadoop klynge
python mrjob / eksempler / mr_word_freq_count.py README.md -r Hadoop> tæller
Avanceret konfiguration
Hvis du vil køre i andre AWS regioner, uploade din kilde træ, køre make, og bruge andre avancerede mrjob funktioner, skal du oprette mrjob.conf. mrjob ser for sin conf-fil på:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf overalt i dit $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Se mrjob.conf.example for mere information

Egenskaber :.

  • Kør job på EMR, din egen Hadoop klynge, eller lokalt (til test).
  • Skriv multi-trins job (en kort-reducere trin giver stof til det næste)
  • Dupliker dit produktionsmiljø inde Hadoop
  • Upload din kilde træet og sætte det i dit job er $ PYTHONPATH
  • Kør foretage og andre setup scripts
  • Angiv miljøvariabler (for eksempel $ TZ)
  • Nemt installere Python pakker fra tarballs (EMR kun)
  • Opsætning transparent af mrjob.conf konfigurationsfil
  • fortolke Automatisk fejllogs fra EMR
  • SSH tunnel til Hadoop job tracker på EMR
  • Minimal opsætning
  • Hvis du vil køre på EMR, sæt $ AWS_ACCESS_KEY_ID og $ AWS_SECRET_ACCESS_KEY
  • Hvis du vil køre på din Hadoop klynge, sæt $ HADOOP_HOME

Krav :

  • Python

Lignende software

openMosix
openMosix

3 Jun 15

Wackamole
Wackamole

2 Jun 15

Mrs
Mrs

20 Feb 15

Son of Grid Engine
Son of Grid Engine

19 Feb 15

Andre software developer David Marin

doloop
doloop

11 May 15

Kommentarer til mrjob

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!