PDFMiner virker ved først at tage indholdet af en PDF-fil og konvertere den til en mere plastisk format som HTML.
Derfra er tekst og data ekstraheret og analyseret, og baseret på foruddefinerede regler adskilt og præsenteres for brugeren eller sendt til andre mere kraftfulde data analyseværktøjer.
Hvis tekstanalyse er ikke, hvad du agter at gøre, kan du nemt konfigurere PDFMiner simpelthen udtrække eller bare konvertere PDF-data så godt.
Dens funktioner kan arbejde adskilt fra hinanden og tillade en bredere brug spektrum takket være det
Funktioner :.
- 100% Python kode, ingen C eller C ++
- parse PDF'er
- Analyser PDF'er
- Konverter PDF-filer til andre formater
- ToC emhætte
- Få kun tagget indhold
- Understøttelse af en lang række tekst PDF funktioner
- Understøttelse af en lang række skrifttyper inde PDF'er
- Grundlæggende kryptering (RC4) støtte
Hvad er nyt i denne udgivelse:
- PDFDocument.initialize () metode fjernes og ikke længere er nødvendige . Et kodeord er givet som et argument for en PDFDocument konstruktør.
Hvad er nyt i version 20110515:.
- API ændringer
- LTPolygon klasse blev omdøbt til LTCurve.
Hvad er nyt i version 20110227:.
- Fejlrettelser og forbedringer layout analyse
Hvad er nyt i version 20101226:.
- Et par fejlrettelser og mindre forbedringer
Hvad er nyt i version 20101017:.
- Et par fejlrettelser og en mindre forbedring
Hvad er nyt i version 20100424:.
- Fejlrettelser og små forbedringer på TOC udtræk
Krav :
- Python 2.4 op til 3
Begrænsninger :.
- PDFMiner kan være 20 gange langsommere end C / C ++ - baseret software
Kommentarer ikke fundet