Software detaljer:
Kan anvendes skriftligt søgning crawlere (edderkopper), at mine websider for forskellige oplysninger.
PHPCrawl erhverver oplysninger, den var konfigureret til at hente og sender det til mere kraftfulde apps til yderligere behandling
Funktioner :.
- Filtre til URL og Content-Type data li>
- Angiv måder at håndtere cookies
- Angiv måder at håndtere robots.txt-filer
- Begræns sine aktiviteter på forskellige måder
- multi-processing tilstande
Hvad er nyt i denne udgivelse:
- Faste bugs:
- Links, der er delvist urlencoded og delvist ikke gå genopbygge / kodet korrekt nu.
- fjernet en unødvendig debug var_dump () fra PHPCrawlerRobotsTxtParser.class.php
- Server-navn-indikation i TLS / SSL fungerer korrekt nu.
- & quot; basis-href & quot;. -tags I hjemmesider bliver fortolket korrekt nu igen
Hvad er nyt i version 0.80 beta:
- Code blev fuldstændig refactored, porteret til PHP5-OO- kode og en masse kode blev omskrevet.
- Tilføjet muligheden for at bruge eller betjene flere processer at spider en hjemmeside. Metode & quot; goMultiProcessed () & quot; tilføjet.
- Ny overridable metode & quot; initChildProcess () & quot; tilføjet for at indlede barn-processer ved brug af crawler i multi-proces-tilstand.
- Implementet et alternativ, intern SQLite caching-mekanisme for webadresser gør det muligt at edderkoppen meget store websites.
- Metode & quot; setUrlCacheType () & quot; tilføjet.
- Ny metode setWorkingDirectory () tilsat for at definere placeringen af crawlere midlertidig erhvervsaktive mappe manuelt. Hertil metode & quot; setTmpFile () & quot; er markeret som forældet (har ingen funktion længere).
- Ny metode & quot; addContentTypeReceiveRule () & quot; erstatter den gamle metode & quot; addReceiveContentType () & quot;.
- Funktionen & quot; addReceiveContentType () & quot; stadig er til stede, men blev markeret som forældet.
Krav :
- PHP 5 eller højere
- PHP med OpenSSL support
Kommentarer ikke fundet