Apache Tika

Software screenshot:
Apache Tika
Software detaljer:
Version: 1.4
Upload dato: 20 Feb 15
Licens: Gratis
Popularitet: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika er en open source toolkit designet til at detektere og udtrække metadata, samt struktureret indhold tekst fra flere dokumenter, ved hjælp af intet andet end eksisterende parser biblioteker.
Apache Tika understøtter følgende dokumentformater: HyperText Markup Language (HTTP), XML og afledte formater, Microsoft Office dokumentformater, OpenDocument Format (ODF), Portable Document Format (PDF), Elektronisk publikation Format (EPF), Rich Text Format (RTF ), kompression og emballageformater, tekst / lyd / billede / video-formater, mbox formatet, og Java class filer og arkiver.
Tidligere Apache Tika var et delprojekt af Apache Lucene software bibliotek. Nu er fordelt som en standalone pakke af Apache Software Foundation

Hvad er nyt i denne udgivelse:.

  • Fjernet en test HTML-fil med en dårligt valgt GPL tekst i det (TIKA-1129).
  • Forbedringer tika-server til at gøre det muligt at producere tekst / html og tekst / XML-indhold (TIKA-1126, TIKA-1127).
  • Forbedringer blev foretaget til kompressoren Parser at håndtere g'zipped filer, der kræver decompressConcatenated indstillingen sat til true (TIKA-1096).
  • Rettet en typografisk fejl, der forhindrede fra påvisning af awk filer (TIKA-1081).
  • Tilføjet et nyt slutpunkt til Tika s JAX-RS REST-server, der kun registrerer medie-typen baseret på en lille del af dokumentet fremlagt (TIKA-1047).
  • RTF:. Bestilt og uordnede lister nu udvindes (TIKA-1062)
  • MP3: Audio varighed er nu fjernet (TIKA-991)
  • Java .class filer:. Opgraderet fra ASM 3,1 til ASM 4.1 for parsing Java bytecodes (TIKA-1053)
  • mimetyper: Definitioner udvidet til eventuelt omfatte Link (URL) og UTI, sammen med oplysninger om flere almindelige formater (TIKA-1012 / TIKA-1083)
  • Undtagelser når parsing OLE10 indlejret dokumenter, når parsing sammenfattende oplysninger fra Office-dokumenter, og når du gemmer indlejret documennts i TikaCLI er nu logget stedet for at afbryde udvinding (TIKA-1074)
  • MS Word: line tabelform karakter er nu erstattet med newline (TIKA-1128)
  • XML: ElementMetadataHandlers kan nu eventuelt acceptere dublerede og tomme værdier (TIKA-1133)
  • .

Krav :

  • Java 2 Standard Edition Runtime Environment

Andre software developer The Apache Software Foundation

Apache Avro
Apache Avro

18 Jul 15

Apache Lucy
Apache Lucy

20 Feb 15

Apache Chukwa
Apache Chukwa

19 Feb 15

Apache ZooKeeper
Apache ZooKeeper

20 Feb 15

Kommentarer til Apache Tika

Kommentarer ikke fundet
Tilføj kommentar
Tænd billeder!