Methabot

Software screenshot:
Methabot
Software detaljer:
Version: 1.6.0.1
Upload dato: 3 Jun 15
Udvikler: Emil Romanus
Licens: Gratis
Popularitet: 9

Rating: nan/5 (Total Votes: 0)

Methabot software er en speed-optimeret, instrukser og meget konfigurerbar web, ftp og lokale filsystem crawler. Det understøtter Scripted filtype parsing, en bred vifte af muligheder for tilpasning og er let konfigureres til at passe anyones særlige behov.
Med brugen af ​​modulet, og scriptsprog, brugerne er i stand til at drage fuld eller delvis kontrol over crawling processen og beslutter dog Methabot bør gemme web data, statistik og meget mere.
Bare ved at køre Methabot fra kommandolinjen du er i stand konfigurere brugerdefinerede filtyper, filtrering udtryk, adfærd og meget mere, så du ikke behøver at være en scripter

Funktioner :

  • Det er hurtigt, designet fra bunden og op med speed-optimering i tankerne.
  • Scriptable gennem Javascript med E4X
  • Brugerdefineret filtype filtrering (ifølge MIME type, filtypenavn eller UMEX udtryk)
  • Multi-threaded
  • Meget konfigurerbar fra kommandolinjen
  • Extensible modulsystem, støtte brugerdefinerede data parsere og filtre.
  • Enkel endnu kraftfulde filtrering af URL'er via UMEX.
  • Automatiseret downloading
  • Understøttelse af automatisk behandling af cookies, når du kører over HTTP
  • Pålidelig, fejltolerant netværk
  • Bærbar, testet med succes på 32-bit / 64-bit Linux 2.6, 32-bit / 64-bit FreeBSD 6.x / 7.0, Windows XP og Mac OS X. Skal arbejde på næsten alle Unix-lignende OS.

Hvad er nyt i denne udgivelse:

  • Bugfix, når ekstern-kig anvendtes grænse dybden var rodet op.

  • Brug
  • Memory oprydning rettelser
  • dynamisk-url mulighed er ikke længere indstillet til opslag som standard, da det sinker kravle betydeligt
  • Byg systemet opretter og installerer nogle header-filer, som moduler kan bruge nu, når du linker
  • Metha-config værktøj tilføjet
  • lmm_mysql flyttet uden for denne pakke

Hvad er nyt i version 1.5.0:

  • Ændringer og nye funktioner:
  • Støtte til læsning intial buffer fra stdin
  • - type og --base-url kommandolinjetilvalg tilføjet, sammen med initial_filetype mulighed i konfigurationsfiler
  • Cookies og DNS info er nu korrekt deles mellem arbejdstagere, når du kører flertrådede
  • Tilføjet nogle eksempel forbrug kommandoer til --examples
  • Store forbedringer af inter-tråd kommunikation, nu hurtigere og mere organiseret
  • Tilføjet understøttelse af 'Init' funktioner til scripts. Læs mere om init funktioner på http://bithack.se/projects/methabot/docs/e4x/init_functions.html
  • libmetha ikke fryser, når du laver flere samtidige HTTP HEAD anmodninger længere. Årsagen til de fryser var en fejl i libcurl som nu fast. Nogle løsninger er blevet tilføjet til libmetha at forhindre fryser fra forekommende ved brug af defekt libcurl versioner også.
  • Support til ældre libcurl versioner 7.17.x og 7.16.x
  • Ny information er tilgængelig i & quot; dette & quot; genstand for javascript parsere, content-type og status transfer kode. Læs mere på http://bithack.se/projects/methabot/docs/e4x/this.html
  • - verbose mulighed erstattet med --silent, da verbose tilstand nu er standard
  • Initial støtte til FTP kravler og ftp_dir_url crawler option
  • Dybde begrænser nu crawler-specifik
  • Tilføjet kommandolinjeflag --crawler og --filetype
  • Støtte til at udvide og altoverskyggende allerede definerede crawlere og filtyper
  • Støtte til kopi søgeord i konfigurationsfiler
  • Support til dynamisk at skifte den aktive crawler, det kan du kravle forskellige hjemmesider på helt forskellige måder, en gennemsøgning session. Læs mere om crawler skift på http://bithack.se/projects/methabot/docs/crawler_switching.html
  • libev udgave opgradere til 3,51
  • omfatter direktivet konfigurationsfiler nu sørger den medfølgende konfigurationsfil ikke allerede er indlæst, for at forhindre omfatte-loops og flere filtype / crawler definitioner.
  • Diverse Spidermonkey garbage collection rettelser, libmetha ikke ned længere, når oprydning efter en flertrådede session
  • Tilføjet nogle ekstra oplysninger til --info mulighed
  • Den "ydre" option er nu fast og aktiveres igen
  • Ny option --spread medarbejdere
  • Ny libmetha API-funktionen lmetha_global_setopt () tillader at ændre den globale fejl / besked / advarsel reporter
  • Tilføjet indledende gennemførelse af en test suite for udviklere
  • Bedre fejlrapportering ved indlæsning konfigurationsfiler
  • Bugfix når en HTTP-server returnerede ikke et Content-Type hovedstød efter et HEAD anmodning
  • Bugfix når sortering URL'er efter flere HTTP HEAD anmodninger
  • Bugfix i html til xml-konverter, når HTML-siden ikke havde en & lt; html & gt; tag
  • Bugfix, har extless-url indstilling ikke virker
  • Bugfix, html til xml konverter ikke længere chokes på byte-order mærker eller anden tekst, før den egentlige HTML
  • Bugfix, forhindrede libmetha fra at forsøge at få adgang til webadresser på protokoller, der ikke understøttes
  • Bugfix når lukke ned efter en fejl.
  • Bugfix, var uløselige URL'er ikke bryde ud retry loop efter tre genforsøg
  • Meget eksperimenterende og ustabil støtte til Win32, primært beregnet til udviklere
  • Nye konfigurationsfiler:
  • google.conf, at udføre Google-søgninger
  • youtube.conf, youtube søger
  • meta.conf, prints meta-information såsom nøgleord og beskrivelse om HTML sider
  • title.conf, udskriver titlen på HTML-sider
  • ftp.conf, for gennemgang FTP-servere

Hvad er nyt i version 1.4.1:

  • Indstil kunne ikke finde jsapi.h på nogle systemer bør dette fastsættes nu.
  • Konfiguration filer er nu i stand til at modificere crawler og filtype flag, tilføjede de indstillinger 'ydre "og" external_peek "
  • Bugfix, Methabot ville sommetider gå ned, når oprydning tomme URL'er efter flere HTTP HEAD
  • Rettet et nedbrud, der opstod, når du kører synkront.
  • Byg systemet omfatter fix når jsconfig.h kunne ikke findes.

Krav :

  • Spidermonkey overskrifter
  • cURL

Lignende software

Allegro FTPd
Allegro FTPd

3 Jun 15

sftpserver
sftpserver

14 Apr 15

Gistpy
Gistpy

20 Feb 15

Kommentarer til Methabot

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!