Software detaljer:
Det er dybest set en Python bibliotek for MapReduce skrevet i Cython
Funktioner :.
- Lignende grænseflade som Hadoop API (design mønstre brugbare mellem Python / Java interfaces)
- Generelt kompatibilitet med dumbo at give brugerne mulighed for at skifte frem og tilbage
- Anvendelig på Hadoop klynger uden Python eller admin adgang
- Hurtig konvertering og forarbejdning
- Bo lille og veldokumenteret
- Være transparent med, hvad der foregår
- Håndtere programmer med komplicerede .so s, ctypes og udvidelser
- Kode skrevet til hack-evne
- Enkel HDFS adgang (fx læsning, skrivning, ls)
- Support (og ikke replikere) større Hadoop økosystem (f.eks Oozie, whirr)
- Automatiseret job parallelisering 'auto-oozie "tilgængelige i hadoopy flow-projektet (vedligeholdes ud af filial)
- Lokal udførelse af umodificeret MapReduce job med launch_local
- Læs / skrive sekvens filer af TypedBytes direkte til HDFS fra python (readtb, writetb)
- Giver udskrivning til stdout og stderr i Hadoop opgaver uden at forårsage problemer (bruger den "rør hopping" teknik, begge er tilgængelige i opgaven er stderr)
- Virker på klynger uden ekstra installation, Python, eller eventuelle Python biblioteker (bruger Pyinstaller der er inkluderet i denne kilde træ)
- Virker på OS X
- Kritisk vej er i Cython
- Enkel HDFS adgang (readtb og ls) i Python, selv inde kører job
- Unit test-grænseflade
- Rapportering hjælp status- og tællere (og udskrive udsagn! Ingen grund til at være bange for dem i Hadoopy)
- Understøtter design mønstre i Lin & Dyer bog
- Typedbytes support (meget hurtigt)
- Oozie support
Krav :
- Cython 0,13 eller højere
Kommentarer ikke fundet