DataFu blev udviklet på LinkedIn og er udelukkende skrevet i Java.
DataFu omfatter funktioner / biblioteker til at arbejde med:
- Statistik
- Skøn
- Sampling
- Sessions
- Link Analysis
- Set operationer
- Tasker
DataFu er perfekt til data mining og statistiske applikationer, der arbejder på toppen af Hadoop eller Pig databaser.
Disse funktioner gør det muligt for udviklere at drage fuld fordel af alle de data, der er lagret i en Hadoop eller Pig database uden at skulle beskæftige sig med massive systemkrav for at gøre det.
Hvad er nyt i denne udgivelse:.
- Et par brugerdefinerede funktioner til simpel tilfældig prøveudtagning med udskiftning
- Flere afhængigheder nu pakket i DataFu så færre JAR afhængigheder påkrævet.
- SetDifference UDF til beregning indstillet forskel (fx A-B eller A-B-C).
Hvad er nyt i version 1.2.0:
- Et par brugerdefinerede funktioner til simpel tilfældig prøveudtagning med udskiftning.
- Flere afhængigheder nu pakket i DataFu så færre JAR afhængigheder påkrævet.
- SetDifference UDF til beregning indstillet forskel (fx A-B eller A-B-C).
Hvad er nyt i version 1.1.0:.
- Tilføjet SHA hash UDF
- InUDF og AssertUDF tilføjet for Svin 0,12 kompatibilitet. Disse er de samme som i og hævde.
- SimpleRandomSample, som gennemfører en skalerbar simpel stikprøvekontrol algoritme.
Kommentarer ikke fundet