ASPseek

Software screenshot:
ASPseek
Software detaljer:
Version: 1.2.10
Upload dato: 3 Jun 15
Udvikler: SWsoft
Licens: Gratis
Popularitet: 4

Rating: nan/5 (Total Votes: 0)

ASPseek er en søgemaskine på internettet software udviklet af SWsoft og licenseret som fri software under GNU GPL.
ASPseek består af en indeksering robot, en søgning dæmon og en CGI søgning frontend. Det kan indeksere så mange som et par millioner URL'er og søge efter ord og sætninger, brug jokertegn, og gøre en boolesk søgning. Søgeresultater kan begrænses til tidsperiode givet, websted eller web plads (sæt af websteder), og sorteret efter relevans (PageRank anvendes) eller dato.
ASPseek er optimeret til flere steder (gevind indeks, async DNS-opslag, gruppering resultater ved stedet, Web mellemrum), men kan bruges til at søge et websted. ASPseek kan arbejde med flere sprog / kodninger på en gang (herunder multibyte kodninger såsom kinesisk) på grund af Unicode storage mode. Andre funktioner omfatter stopord og ispell støtte, et tegnsæt og sprog guesser, HTML skabeloner til søgeresultater, uddrag og søgeord fremhæve.
ASPseek er skrevet i C ++ ved hjælp af STL biblioteket, og bruger mix af SQL database og binære filer til opbevaring.
Her er nogle vigtige funktioner i "ASPseek":
Evne til at indeksere og søgning via flere millioner dokumenter
 
· Brug ASPseek, kan du bygge en database og søge gennem mange steder, og resultaterne for hver forespørgsel vil blive returneret hurtigt, selvom du har et par millioner af dokumenter indekseret. Selvfølgelig afhænger hardware, så forvent ikke "gode gamle" i486-maskine til at håndtere alle steder i .com domæne. Alt afhænger af CPU (r), hukommelse, disk hastighed etc. Så du dine egne tests, før du køber dedikeret hardware.
 
· At ASPseek er optimeret til store mængder bør ikke stoppe dig fra at bruge den til at søge dit eget websted, der indeholder nogle få hundrede af dokumenter - det virker der.
 
Meget god relevans af resultater
 
· Formålet med søgemaskinen er at finde, hvad brugeren ønsker. Der kan være tusindvis af webadresser fundet som et resultat af søgning, men det kan alle være irrelevant, så brugeren vil være utilfredse.
 
· Output resultater i ASPseek er ordnet efter relevans (eller rang), men beregning rang er ikke en let opgave. Udviklere forsøgte deres bedste for at integrere største og nyeste teknikker i ASPseek motor samtidig opretholde god søgning hastighed.
 
Ispell support
 
· Når ASPseek bruges med ispell støtte searchd (1) kan eventuelt finde alle former for alle angivne ord (eksempel: oprette -> Opret eller skabt eller skaber). Så det giver dig mulighed for at finde ordet i alle forskellige former.
 
Unicode lagertilstand
 
· ASPseek kan gemme oplysninger om dokumenter i Unicode, og dermed gøre det muligt at gennemføre en flersproget søgemaskine. Så kan du indeksere og søge i dokumenter på engelsk, russisk og endda kinesisk, alt i én database.
 
HTTP, HTTPS, HTTP-proxy, FTP (via proxy) protokoller
 
· Som ASPseek er en web-søgemaskine, det bruger HTTP-protokollen til at indeksere websteder. ASPseek understøtter også sikker https: // protokol. FTP-protokollen understøttes ikke direkte, men du kan bruge proxy (ligesom blæksprutte) og indeksere FTP-steder via proxy.
 
· ASPseek understøtter "grundlæggende godkendelse" funktion i HTTP, så du kan indeksere password-beskyttede områder (f.eks private oplysninger i dit intranet).
 
Text / html og text / plain dokumenttyper support
 
· ASPseek kan forstå dokumenter skrevet i HTML og almindelig tekst dokumenter. Disse er de mest populære formater på internettet.
 
· Andre formater, såsom PDF, RTF, etc, kan understøttes ved hjælp af ethvert eksternt program / script der er i stand til at konvertere, at formater til HTML eller almindelig tekst.
 
Flertrådede design, async DNS resolver etc
 
· ASPseek bruger POSIX tråde, der betyder, at én proces har mange tråde kørende parallelt. Så indeks downloads dokumenter fra mange steder, og søg daemon processer mange søgeforespørgsler samtidigt. Dette hjælper ikke kun ASPseek at skalere godt på SMP (multiprocessorsystemer) systemer, men også forbedrer indeksering hastighed, fordi der i tilfælde af en tråd mest tid vil blive brugt på at vente på data fra netværket.
 
· En ting, langsom indeksering proces ned en masse er DNS-opslag (en proces med fastlæggelse IP-adresse ved hjælp af server navn). For at undgå forsinkelser, der asynkrone opslag (opslag sker ved separate dedikerede processer) og IP-adresse cache implementeret.
 
Stopord
 
· Stopord er et ord, der ikke har nogen betydning i sig selv. Eksempler: er, er, på dette. Søgning efter på er ubrugelig, så sådanne ord er udelukket fra søgning. Stopord er også udelukket fra databasen under indeksering, så databasen bliver mindre og hurtigere.
 
· Der er ingen "indbyggede" stopord i ASPseek, de er indlæst under opstart fra filer. Mange stopword filer til forskellige sprog kommer med ASPseek.
 
Charset guesse
 
· Nogle knuste eller fejlkonfigurerede servere ikke fortælle kunderne tegnsættet, hvor de giver indhold. Hvis du indeksering af sådanne servere eller bruge ASPseek at indeksere ftp-servere (FTP-protokollen kender intet om tegnsæt), kan tegnsæt guesser bruges til at beskæftige sig med det. Charset guesser bruger ordet frekvens tabeller (kaldet langmaps) at bestemme korrekte tegnsæt.
 
Robot udelukkelse standard (robots.txt) støtte
 
· ASPseek støtter fuldt ud denne standard. Det er beregnet til web site forfattere for at fortælle robotten (f.eks ASPseek indeks (1)) for at springe indeksering nogle mapper på deres websteder.
 
· Til se flere oplysninger http://www.robotstxt.org/wc/robots.html
 
Indstillinger til at styre brugen af ​​båndbredde og web-servere belastning
 
· Du kan præcist styre båndbredde, at index (1) anvender. Præcis, kan du begrænse båndbredden (udtrykt i bytes per sekund), der anvendes af indeks (1) for givet tidspunkt på dagen. For eksempel kan du begrænse båndbredden i åbningstiden, så folk på dit kontor ikke vil opleve langsom internetforbindelse.
 
· Du kan også indstille den minimale tid mellem to forespørgsler til den samme webserver, så det vil ikke blive overbelastet og kom ned i knæ, mens du kører indeks (1).
 
Real-time asynkron indeksering
 
· Nogle søgemaskiner kræver, at søgningen skal stoppes i den tid af databasen opdatering. ASPseek har ikke brug for det, så du kan søge non-stop.
 
· Mere at sige, der er en særlig form for indeksering kaldes "real-time" indeksering. Du kan bruge det til små antal dokumenter, og så vidt et sådant dokument er downloadet og behandles, ændringer er umiddelbart synlige på jagt interface. Denne funktion er en stor hjælp, hvis du er ved at opbygge søgemaskine til sider med hastigt skiftende indhold, såsom online-nyheder mv
 
· Bemærk, at antallet af dokumenter i "real-time" database er begrænset. Det er omkring 1000 på vores hardware (din kilometertal kan variere), og jo flere dokumenter, du har i "real-time" database, vil langsommere være hastigheden af ​​indeksering ind i det (og kun det) database. Dette vil ikke påvirke søgehastigheden selv.
 
· Dokumenter fra "real-time" database flyttes til normal database efter at have kørt index (1) på en normal måde.
 
Sortering resultater efter relevans eller efter dato
 
· Søgemaskiner normalt returnerer mest relevante resultater først. Men hvis du er på udkig efter nyeste sider, kan du fortælle ASPseek at sortere resultater efter sidste ændringsdato, så for nylig ændret (eller oprettet) sider vil blive vist først.
 
Uddrag, søgeord fremhæver
· Uddrag er et stykke fundet dokument med ord søgt efter fremhævet, bare for at give en idé om, hvad dokumentet handler om. Du kan tilpasse antallet af uddrag vise og deres længde. Hvis du vil deaktivere uddrag, vil i begyndelsen af ​​dokumentet vises.
 
· Hver fundet dokument er ledsaget med linket "Cached". ASPseek holder en lokal komprimeret kopi af hver dokument, der behandles, så brugeren kan se hele dokumentet med (valgfrit) fremhævede ord, der blev søgt efter, selv om det er blevet fjernet fra oprindelige websted (det sker nogle gange).
 
Gruppering resultater efter stedet
 
· Resultater fra ét sted kan grupperes sammen. Hvis gruppering af websteder er på, er kun to resultater vist fra samme sted som standard, og brugeren kan se andre sider fra samme sted ved at følge et "Flere resultater fra ..." linket.
 
Kloner
 
· Kloner er identiske dokumenter på forskellige lokaliteter. De opdages og grupperet sammen, så brugeren ikke vil blive præsenteret for en side fuld af URL'er til de samme dokumenter.
 
· Klon afsløring er normalt begrænset af et sted (så identiske dokumenter fra forskellige steder er ikke tælles som kloner), men du kan ændre dette ved omkompilering ASPseek med --disable-klonerne-by-site mulighed.
 
Rum og delmængder
 
· Rummet er det sæt af websteder. Så hvis du ønsker at give søgningen indsnævret til nogle område, kan du oprette et rum, og søge i dette rum. Kun hele sites (f.eks http://www.mysite.com/) får lov til at indgå i rummet.
 
· Delmængder kan også bruges til at begrænse søgningen. Du kan oprette delmængde og sætte URL maske (ligesom http://www.mysite.com/mydir/%) ind i det, og derefter begrænse søgeområdet til kun givet delmængde.
 
· Du kan begrænse søgeområdet til ikke kun én, men flere delmængder eller mellemrum.
 
HTML skabeloner til nem at tilpasse søgeresultater
 
· Du kan tilpasse dine søgesider, så de vil se ud og være problemfrit integreres med resten af ​​dit websted. Dette gøres ved simpel redigering af søgning skabelonfil.
Installation
gzip -dc aspseek-1.2.10.tar.gz | tar xf -
cd aspseek-1.2.10. / konfigurere
lave
su
make install

Andre software developer SWsoft

OpenVZ kernel
OpenVZ kernel

2 Jun 15

Plesk for Windows
Plesk for Windows

22 Sep 15

OpenVZ Live CD
OpenVZ Live CD

2 Jun 15

Kommentarer til ASPseek

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!