Store data er et marketingbegreb, der omfatter hele ideen om dataudnyttet fra kilder som søgemaskiner, købmands indkøbsmønstre sporet gennem point kort osv. I den moderne verden har internettet så mange Datakilder, at oftere end ikke skalaen gør det ubrugeligt uden behandling og forarbejdning ville tage utrolige mængder af tid af en server. Indtast Apache Hadoop
Mindre tid til databehandlingVed at udnytte Hadoop-arkitekturen til at distribuere behandlingsopgaver på tværs af flere maskiner på et netværk , reduceres behandlingstider astronomisk, og svarene kan bestemmes i rimelige mængder af tid. Apache Hadoop er opdelt i to forskellige komponenter: en lagerkomponent og en behandlingskomponent. I de enkleste termer gør Hapood en virtuel server ud af flere fysiske maskiner . I virkeligheden administrerer Hadoop kommunikationen mellem flere maskiner, så de arbejder tæt sammen, at det ser ud som om der kun er én maskine, der arbejder på beregningerne. Dataene fordeles på flere maskiner , der skal gemmes og Behandlingsopgaver er allokeret og koordineret af Hadoop-arkitekturen
. Denne type system er et krav for at konvertere rå data til nyttige oplysninger om omfanget af Big Data-indgange. Overvej mængden af data, som Google modtager hvert sekund fra brugere, der indtaster søgeforespørgsler. Som en samlet mængde data ville du ikke vide, hvor du skal starte, men Hadoop vil automatisk reducere datasættet til mindre, organiserede delsæt af data og tildele disse håndterbare undergrupper til specifikke ressourcer. Alle resultater bliver derefter rapporteret tilbage og samlet i brugbare oplysninger .
En server let at indstille
Selv om systemet lyder komplekst, er de fleste bevægelige dele obskured bag abstraktion. Konfigurationen af Hadoop-serveren er temmelig simpel . Installer kun serverkomponenterne på hardware, der opfylder systemkravene. Den hårdere del planlægger netværket af computere , at Hadoop-serveren vil udnytte for at distribuere lagrings- og behandlingsroller. Dette kan indebære opsætning af et lokalnetværk eller tilslutning af flere netværk sammen på tværs af internettet . Du kan også udnytte eksisterende cloud-tjenester og betale for en Hadoop-klynge på populære cloud-platforme som Microsoft Azure og Amazon EC2. Disse er endnu lettere at konfigurere, da du kan spinde dem ad ad hoc og derefter frigøre klyngerne, når du ikke længere har brug for dem. Disse typer af klynger er ideelle til test, da du kun betaler for den tid Hadoop-klyngen er aktiv.
Behandle dine data for at få de oplysninger, du har brug for
Store data er en ekstremt kraftig ressource, men data er ubrugelige, medmindre det kan kategoriseres korrekt og omdannes til information. På nuværende tidspunkt tilbyder Hadoop klynger en ekstremt omkostningseffektiv metode til behandling af disse samlinger af data til information.
Kommentarer ikke fundet