Software detaljer:
Version: 2.6.0
Upload dato: 20 Feb 15
Licens: Shareware
Pris: 1900.00 $
Popularitet: 63
PDFTextStream projekt er en PDF tekst og metadata udvinding bibliotek til rådighed for Java, Python, og .NET.
Det understøtter alle versioner af PDF-dokumentet specifikationen, (herunder v1.6, som anvendes af Acrobat 7), udvinding af tekst kodet med dobbeltklæbende byte tegnsæt (herunder kinesisk, japansk og koreansk), dekryptering af 40-bit og 128- bit krypterede dokumenter og udvinding af alle dokumenttyper metadata, som PDF-dokumenter (herunder formulardata, bogmærker og noter).
Nem integration med Jakarta Lucene er inkluderet
Hvad er nyt i denne udgivelse:.
- Denne version indeholder en række rettelser foretaget at sikre PDFTextStream kan udtrække tekst fra PDF-dokumenter, der er afvigende i PDF-specifikationen.
- Det omfatter også en lang række forbedringer af ydeevne.
Hvad er nyt i version 2.3.0:
- Tilføjet en .isStruckThrough () metode til com. snowtide.pdf.TextUnit, der angiver, om et tegn har en gennemstregning trukket gennem det.
- Forbedret PDFTextStream støtte til indlejrede tegn tilknytninger.
- Beregningen af blanke mellem ord er blevet fastsat til korrekt højde for blanke tegn, der er udtrykkeligt kodet i kilden PDF-dokumenter.
- Forbedret PDFTextStream håndtering af sammensatte indhold kodninger, som tidligere kunne mislykkes resulterer i nogle intervaller af PDF-indhold bliver "ignoreret" under ekstraktionen.
- Rettet en fejl i VisualOutputTarget hvor tekst fra en enkelt linje vil blive delt over flere linjer
- Forbedret lodrette justering af tekst ekstraheres med VisualOutputTarget
- Forbedret VisualOutputTarget-producerede ekstrakter til at eliminere falske ekstra mellemrum mellem nært tilstødende ord
Hvad er nyt i version 2.2.5:
- Denne version tilføjer understøttelse for udvinding XFA formularer data XML.
- Det forbedrer ydeevnen af tekst ekstraktion med VisualOutputTarget. Støtte til PDF-dokumenter større end 2GB.
- En rettelse til en fejl, hvor de kodninger fra indlejrede Type1-skrifttyper var tidligere ikke anvendes korrekt under visse omstændigheder.
- En rettelse til et problem, hvor nyere indhold på opdaterede PDF-dokumenter blev undertiden bliver ignoreret.
- En rettelse til et problem, hvor PDFDocEncoding-kodet bogmærker og metadata ikke blev afkodes korrekt.
- A .getDestinationName () metode i com.snowtide.pdf.Bookmark.
Krav :
- Apache Lucene
Kommentarer ikke fundet