PDFTextStream

Software screenshot:
PDFTextStream
Software detaljer:
Version: 2.6.0
Upload dato: 20 Feb 15
Licens: Shareware
Pris: 1900.00 $
Popularitet: 2

Rating: nan/5 (Total Votes: 0)

PDFTextStream projekt er en PDF tekst og metadata udvinding bibliotek til rådighed for Java, Python, og .NET.
Det understøtter alle versioner af PDF-dokumentet specifikationen, (herunder v1.6, som anvendes af Acrobat 7), udvinding af tekst kodet med dobbeltklæbende byte tegnsæt (herunder kinesisk, japansk og koreansk), dekryptering af 40-bit og 128- bit krypterede dokumenter og udvinding af alle dokumenttyper metadata, som PDF-dokumenter (herunder formulardata, bogmærker og noter).
Nem integration med Jakarta Lucene er inkluderet

Hvad er nyt i denne udgivelse:.

  • Denne version indeholder en række rettelser foretaget at sikre PDFTextStream kan udtrække tekst fra PDF-dokumenter, der er afvigende i PDF-specifikationen.
  • Det omfatter også en lang række forbedringer af ydeevne.

Hvad er nyt i version 2.3.0:

  • Tilføjet en .isStruckThrough () metode til com. snowtide.pdf.TextUnit, der angiver, om et tegn har en gennemstregning trukket gennem det.
  • Forbedret PDFTextStream støtte til indlejrede tegn tilknytninger.
  • Beregningen af ​​blanke mellem ord er blevet fastsat til korrekt højde for blanke tegn, der er udtrykkeligt kodet i kilden PDF-dokumenter.
  • Forbedret PDFTextStream håndtering af sammensatte indhold kodninger, som tidligere kunne mislykkes resulterer i nogle intervaller af PDF-indhold bliver "ignoreret" under ekstraktionen.
  • Rettet en fejl i VisualOutputTarget hvor tekst fra en enkelt linje vil blive delt over flere linjer
  • Forbedret lodrette justering af tekst ekstraheres med VisualOutputTarget
  • Forbedret VisualOutputTarget-producerede ekstrakter til at eliminere falske ekstra mellemrum mellem nært tilstødende ord

Hvad er nyt i version 2.2.5:

  • Denne version tilføjer understøttelse for udvinding XFA formularer data XML.
  • Det forbedrer ydeevnen af ​​tekst ekstraktion med VisualOutputTarget. Støtte til PDF-dokumenter større end 2GB.
  • En rettelse til en fejl, hvor de kodninger fra indlejrede Type1-skrifttyper var tidligere ikke anvendes korrekt under visse omstændigheder.
  • En rettelse til et problem, hvor nyere indhold på opdaterede PDF-dokumenter blev undertiden bliver ignoreret.
  • En rettelse til et problem, hvor PDFDocEncoding-kodet bogmærker og metadata ikke blev afkodes korrekt.
  • A .getDestinationName () metode i com.snowtide.pdf.Bookmark.

Krav :

  • Apache Lucene

Kommentarer til PDFTextStream

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!