Beautiful Soup projekt er en Python HTML / XML-parser udviklet til hurtig ekspeditionstid projekter som screen-scraping. Tre funktioner gør det magtfulde:
Smukke Soup vil ikke kvalt, hvis du giver det dårlig markup. Det giver en parse træ, der gør omtrent lige så meget mening som det originale dokument. Dette er normalt godt nok til at indsamle de data, du har brug for og køre væk.
Smukke Soup giver et par enkle metoder og Pythonic idiomer til navigering, søgning, og ændre et parse træ: en værktøjskasse til at dissekere et dokument og udtrække hvad du har brug for. Du behøver ikke at oprette en brugerdefineret parser for hvert program.
Smukke Soup konverterer automatisk indkommende dokumenter til Unicode og udgående dokumenter til UTF-8. Du behøver ikke at tænke på kodninger, medmindre dokumentet ikke angiver en kodning og Beautiful Soup kan ikke autodetektere en. Så er du bare nødt til at specificere den oprindelige kodning.
Smukke Soup analyserer noget du giver det, og gør træet traversal kast dig. Du kan fortælle det "Find alle de links" eller "Find alle de links i klasse externalLink" eller "Find alle de links, hvis webadresser matche" foo.com "eller" Find tabellen overskrift der fik fed tekst, og derefter give mig, at teksten ".
Værdifulde data, der engang blev låst i dårligt designede hjemmesider er nu inden for din rækkevidde. . Projekter, der ville have taget timer tager kun få minutter med Beautiful Soup
Krav :
- Python
Kommentarer ikke fundet