DataCleaner

Software screenshot:
DataCleaner
Software detaljer:
Version: 4.0.9 Opdateret
Upload dato: 27 Sep 15
Udvikler: -
Licens: Gratis
Popularitet: 0

Rating: nan/5 (Total Votes: 0)

DataCleaner er et open source og helt gratis løsning for organisationer og virksomheder, der ønsker at øge og måle kvaliteten af ​​deres data.
Med DataCleaner, vil brugere være i stand til at profilere, sammenligne, validere data mod forretningsregler, og overvåge udviklingen af ​​disse målinger over tid.
Blandt dens funktioner kan nævnes data overvågning, data profilering og DQ-analyse, data rengøring og berigelse, opdage og flette dubletter, kundedata kvalitet, samt superhurtige ETLightweight (Extract-Transform-Load).
Hvis du vil vide mere om DataCleaner funktioner og kapaciteter, samt hvordan man arbejder med det, henvises til http://eobjects.dk/docs

What er nyt i denne udgivelse :

  • Forbedringer og nye funktioner:
  • Vi har gjort det muligt at skabe og droppe tabeller via skrivebordet UI af DataCleaner. Bemærk, at udtrykket & quot; bord & quot; her faktisk dækker mere end blot relationelle database tabeller. Det omfatter også Ark i MS Excel datastores, samlinger i MongoDB, Dokumenttyper i CouchDB og ElasticSearch og så videre ... Dybest set alle datalager typer, der understøtter skrive-operationer, undtagen single-table datastores såsom CSV datastores, understøtter denne funktionalitet! Funktionaliteten er eksponeret via:
  • & quot; Opret bord & quot; aktiveret via højreklik-menu af skemaer i træet på venstre side af ansøgningen.
  • & quot; Opret bord & quot; aktiveret også via table-valg input i komponenter såsom Indsæt i tabellen, tabel opslag og opdatering bord.
  • & quot; Drop bord & quot; aktiveret via højreklik-menu af tabeller i træet på venstre side af ansøgningen.
  • Vi har tilføjet den (valgfrit) evne til at specificere din Salesforce.com webservice Endpoint URL. Dette giver dig mulighed for at bruge DataCleaner at oprette forbindelse til sandkasse miljøer i Salesforce.com samt til dine egne endpoints.
  • ElasticSearch understøttelse er blevet forbedret, så brugerdefinerede tilknytninger samt genbruge de ElasticSearch datalager definitioner nu også til at søge og indeksering.
  • prøvetagning af optegnelser og udvælgelse af potentielle dubletter i Duplicate funktion afsløring er blevet forbedret, hvilket fører til hurtigere konfiguration, fordi de beslutninger, der træffes under træningen er mere repræsentative.
  • Dubler afsløring model filformatet er blevet opdateret, som har fjernet behovet for en separat 'henvisning' fil for at spare beslutninger tidligere uddannelse. Kompatibilitet med det gamle format er bevaret, men ved hjælp af det nye format tilføjer mange fordele for brugeroplevelsen.
  • Fejlrettelser:
  • En tråd sult spørgsmål blev rettet i DataCleaner skærm. Virkningen af ​​dette spørgsmål var stor, men det skete kun i sjældne og meget tilpassede tilfælde. Hvis brugerdefinerede lytteren objekter på DataCleaner skærm ville kaste en fejl, ville det resultere i en ressource aldrig blive frigjort og optage en tråd fra Quartz-planlægning pulje på serveren. Hvis dette ville ske mange gange serveren kan i sidste ende løber tør for tråde i denne pulje.
  • Den lodrette menu på resultatet skærmen er nu gør et ordentligt stykke arbejde med at vise etiketterne på de komponenter, der har resultater. Dette gør det nemmere at genkende hvilke menupunktet peger på hvilket resultat element.

Hvad er nyt i version 3.5.7:

  • Den "Synonym opslag 'transformation har nu en mulighed at kigge op hver token af ​​input. Dette er nyttigt, hvis du laver udskiftning af synonymer inden værdierne af en lang tekstfelt.
  • Blokering udførelse af DataCleaner job gennem skærmens webservice for dette kunne nogle gange mislykkes med en bug forårsaget af blokering tråd. Dette problem er blevet løst.
  • En forbedring blev gjort i den måde, job og rækkefølgen af ​​komponenter er lukket / ryddet op efter udførelsen.
  • JNLP / Java WebStart version af DataCleaner blev afsløret ved en fejl i Java Runtime forårsager visse JAR filer ikke skal anerkendes af WebStart løfteraket, under visse omstændigheder. Dette problem er blevet rettet ved at foretage mindre ændringer til disse JAR-filer.
  • Et par døde links i dokumentationen blev fastsat.

Hvad er nyt i version 3.5.4:

  • Det er nu muligt at skjule output kolonner af transformationer . Hiding vil ikke påvirke behandlingen flow på alle, men blot skjule dem fra brugergrænsefladen, og dermed potentielt gøre oplevelsen mere ren, når interagere med andre komponenter.
  • Et nyt web-service er blevet tilføjet til overvågning web applikation, som giver en måde at polle status for udførelse af et bestemt job.
  • En fejl blev rettet, hvilket får HTML-rapport til at mislykkes for visse typer analyse, når ingen optegnelser var blevet behandlet.
  • Og 6 andre mindre fejl er blevet rettet.

Hvad er nyt i version 3.5.1:

  • Capture ændret optegnelser:
  • blev tilføjet et nyt filter til at muliggøre trinvis behandling af poster, der ikke er blevet forarbejdet før, f.eks til profilering eller kopiering kun ændrede poster. De nye filtre navn er Capture skiftede optegnelser, med henvisning til begrebet Change datafangst.
  • I kø udførelse af job:
  • DataCleaner skærm vil nu kø udførelsen af ​​det samme job, hvis det udløses flere gange. Dette sikrer, at du ikke ved et uheld kører det samme arbejde samtidigt hvilket kan føre til alle mulige spørgsmål, afhængigt af hvad jobbet gør.
  • Mindre fejlrettelser:
  • Flere fejlrettelser blev gennemført.

Hvad er nyt i version 3.5:

  • Flere guider er nu tilgængelige for registrering datastores; herunder fil-upload til serveren for CSV-filer, post database forbindelse, guidede registrering af Salesforce.com legitimationsoplysninger og meget mere.
  • De job bygning troldmænd er også blevet udvidet med flere forbedrede funktioner; Udvælgelse af værdi distribution og mønster finde felter i Hurtig analyse guiden, en helt ny guide til at oprette EasyDQ baseret kunde udrensning job og et nyt job guiden til fyring Pentaho data Integration job (læs mere nedenfor).
  • Du kan nu ad hoc forespørge enhver datalager direkte i web-brugergrænsefladen. Dette gør det nemt at få hurtige eller sporadiske indsigt i de data, uden at oprette arbejdspladser eller andre administrerede tilgange med behandlingen af ​​oplysningerne.
  • Når der skabes job eller datastores, føres brugeren til at træffe foranstaltninger med det nybyggede objekt. For eksempel, kan du meget hurtigt køre et job lige efter det er bygget, eller forespørge en datalager, efter at det er registreret.
  • Administratorer kan nu direkte uploade jobs til lageret, hvilket er særligt praktisk, hvis du ønsker at hånd-redigere indholdet af jobbet filer XML.
  • En masse af den tekniske cruft er nu gemt væk til fordel for at vise enkle dialoger. For eksempel, når et job er udløst en stor belastning Indikatoren vises, og når du er færdig resultatet vil blive vist. Den avancerede logning skærm, der tidligere kan der stadig blive vist, når klikke på et link for yderligere oplysninger.

Hvad er nyt i version 3.1.2:

  • Vi har tilføjet en web service i overvågningen ansøgning om at få en (liste over) metriske værdier. Dette gør overvågningen endnu mere anvendelig som en nøglekomponent infrastruktur, som en måde at overvåge data (kvalitet) og udsætte resultaterne til tredjeparts applikationer.
  • Den "Tabel opslag" komponent er blevet forbedret ved at tilføje slutte semantik som en konfigurerbar ejendom. Brug af slutte semantik du kan nappe, hvis du ønsker at opslag til at arbejde semantisk som en LEFT JOIN eller en indre JOIN.
  • De EasyDQ komponenter er blevet opgraderet, tilføjer yderligere konfigurationsmuligheder og en rigere deduplikering resultat interface.
  • ydeevne forbedringer har været et særligt fokus i denne udgivelse. Der er sket forbedringer i motoren af ​​DataCleaner til yderligere at udnytte en streaming behandling tilgang i visse tilfælde hjørne som ikke var omfattet tidligere.

Hvad er nyt i version 3.1.1:

  • dato og tidspunkt relateret analysemuligheder er blevet udvidet , tilføjer distributions- analysatorer til ugenumre, måneder og år. Alle analysatorer relateret til dato og tid er nu samlet i en undermenu kaldet & quot; Dato og tid & quot; under & quot; Analyser & quot;.
  • En valgfri & quot; beskrivende statistik & quot; mulighed er blevet tilføjet til nummer analysator og dato / tid analysator. Denne indstilling tilføjer yderligere målinger til resultaterne af disse analysatorer, såsom Median, Skævhed, percentiler og kurtosis. Disse målinger er valgfri, da deres hukommelse footprint er noget større end de eksisterende målinger.
  • Linjerne på tidslinjen diagrammer af overvågningen webapplikation har nu små prikker i dem. Dette er især nyttigt for diagrammer med få (eller endda kun én) observationer i dem -. At påpege præcis, hvor de observationspunkter er
  • Forespørgslen parser når påberåber ad hoc-forespørgsler er også blevet væsentligt forbedret. Nu forespørgsler kan indeholde FORSKELLIGE klausuler, * -wildcards, underforespørgsler og er fejltolerant mod tekst-case spørgsmål.
  • To nye transformatorer er blevet tilføjet til generering UUID'er og til generering af tidsstempler.

Hvad er nyt i version 3.1:

  • Metriske formler - uddybet Data Quality KPI'er:
  • Det er nu muligt at bygge meget mere udarbejde Data Quality KPI'er i DataCleaner overvågning webapplikation. Brugerfladen gør det muligt at bygge komplekse formler i et regneark-lignende formel stil, bruge variabler, indsamlet af DataCleaner arbejdspladser.
  • Metric formler kan kombinere et vilkårligt antal målinger, konstanter og operationer, så længe det kan udtrykkes i en matematisk ligning.
  • For eksempel - måle hastigheden af ​​dubletter i procent af den samlede rekord tæller. Eller måle mængden af ​​varenumre, der er i overensstemmelse med et sæt af flere string mønstre.
  • Ad hoc-forespørgsler - enhver datalager:
  • Med DataCleaner 3.1 kan du nu udføre ad hoc-forespørgsler til ethvert datalager! Forespørgsler kan udtrykkes i almindelig SQL og vil blive anvendt til databaser samt filer, NoSQL databaser og mere, hvilket giver en virkelig nyttige forespørgsel mekanisme til at strække sig ind i din opdagelse og data profilering oplevelse.
  • Forespørgslen mulighed er også tilgængelig via en web service til at overvåge brugere med ADMIN rolle. Forespørgslen er tilvejebragt som en HTTP-parameter eller POST krop, og resultatet er angivet som XHTML bord.
  • Value matcher - en ny analyse mulighed:
  • Ofte du har en fast idé om, hvilke værdier bør være tilladt og forventet for et bestemt område. I DataCleaner der altid har været den Value Distribution analysen mulighed, som ville hjælpe dig hævde dine antagelser. I DataCleaner 3.1 dog, har du en mere præcis udbud - værdien matcher. Denne analyse indstilling giver dig mulighed for at angive et sæt af forventede værdier og derefter udføre en værdi fordeling som analyse, specielt til at validere og identificere uventede værdier.
  • Kopiering, sletning og styring af job:
  • Forvaltning af arbejdspladser og resultater i monitor program for DataCleaner er blevet forbedret betydeligt. Du kan nu klikke på et job i Planlægning side af skærmen, og find ledelsesmæssige muligheder for operationer såsom omdøbning, kopiering, sletning og mere. Hver operation respekterer forbindelserne til andre artefakter i skærmen, såsom analyseresultater, tidsplaner og meget mere. Det betyder, at forvaltningen af ​​overvågningen arkivet er blevet meget nemmere og moden.
  • Administrer datakvaliteten historie:
  • Nogle gange du står situationer, hvor du rent faktisk ønsker at gøre overvågningen med historiske data! Det kan være, at du har historiske lossepladser eller sikkerhedskopiering af databaser, som du ønsker at vise og fortælle historien om. Du kan nu gøre analysen af ​​denne historiske data, uploade den til DataCleaner skærmen, og ved hjælp af en ny webservice, sæt en historisk data for denne særlige analyseresultat. Det betyder, at dine tidslinjer korrekt vil plotte resultaterne ved hjælp af deres tilsigtede dato, men med de resultater, som du har indsamlet måske på et senere tidspunkt.
  • Grupperet scheduler støtte (kun EE):
  • Planlæggeren af ​​DataCleaner skærm er blevet eksternaliseres, så den kan udskiftes ved hjælp af simpel konfiguration. I Enterprise Edition (EE) i DataCleaner, giver vi et cluster scheduler, giver mulighed for at indlæse balance og distribuere dine henrettelser på tværs af en klynge af maskiner.
  • Single-sign-on (SSO) ved hjælp af CAS (EE kun):
  • I Enterprise Edition (EE) i DataCleaner vi nu levere en enkelt signon mulighed for anvendelsen skærm. Nu DataCleaner kan være en integreret del af din it-infrastruktur, også sikkerheden-wise.
  • ... Og meget mere:
  • Ovenstående er blot et resumé. Mere end tredive problemer er blevet løst i denne udgivelse. Vi har løst flere anmodninger fra de fora og samfund, og vi opfordrer alle til at bruge dette medie som et redskab til forandring. Vi er meget glade for at gøre udviklingen af ​​DataCleaner være stærkt påvirket af de vandløb i samfundet.

Hvad er nyt i version 3.0.3:

  • Tilføjer en service for at omdøbe arbejdspladser i overvågningen repository .
  • Du kan få adgang til dette som en afslappende webtjeneste eller interaktivt i UI.
  • En webtjeneste blev tilføjet til at ændre den historiske dato for en analyse resultat i overvågningen arkiv.
  • Web ansøgningen er forenelig med arven JSF containere.
  • caching af konfigurationen i Web ansøgning blev væsentligt forbedret, hvilket fører til hurtigere side belastning og initialisering job gange.

Hvad er nyt i version 3.0.2:

  • Når udløser et job i overvågningen webapplikation, panelet automatisk opdateres hvert sekund for at få den seneste af fuldbyrdelsen.
  • Fil-baserede datastores (såsom CSV eller Excel-regneark) med absolutte stier er nu korrekt løst i overvågningen webapplikation.
  • & quot; Vælg fra nøgle / værdi map & quot; transformer understøtter nu indlejrede udvalgte udtryk som & quot; Address.Street & quot; eller & quot; ordrelinier [0] .product.name & quot;.
  • tabelopslag mekanisme er blevet optimeret til ydeevne, ved hjælp forberedte udsagn, når du kører mod JDBC-databaser.
  • Administratorer kan nu downloade filbaserede datastores direkte fra & quot; datastores & quot; side.
  • Undtagelse håndtering i overvågningen webapplikation er blevet forbedret en smule, hvilket gør fejlmeddelelser mere præcis og intuitiv.

Screenshots

datacleaner-70932_1_70932.png
datacleaner-70932_2_70932.png
datacleaner-70932_3_70932.png

Lignende software

Andre software developer -

Lince
Lince

20 Feb 15

Capuchin-Glib
Capuchin-Glib

2 Jun 15

SWFTools
SWFTools

14 Apr 15

Kommentarer til DataCleaner

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!