Apache Tika blev udviklet som et lavt niveau toolkit til at søge indhold inde andre filer.
Tika ikke gøre meget på egen hånd at være en simpel bibliotek, men det kan integreres i mere kraftfulde værktøjer som søgemaskiner, digital asset management systemer eller CMS'er til at give en fuldt funktionel i-filsøgning system.
Biblioteket kan få adgang til netop filens header til hurtig samlede fil information, eller det kan gå rigtig dybt og søg selv i filen krop af forskellige former for data, i tekst eller binært format.
En bred vifte af filtyper understøttes og Tika kan også bruges sammen med andre programmeringssprog takket være en række tredjeparts bindinger og indpakning.
Hvad er nyt i denne udgivelse :
- Denne udgivelse indeholder fejlrettelser og nye funktioner, herunder en ny Tesseract OCR Parser; en ny GDAL Parser; mere understøttede formater, og overordnede forbedringer i Tika stabilitet.
Hvad er nyt i version 1.8:
- Denne udgivelse indeholder fejlrettelser og nye funktioner, herunder en ny Tesseract OCR Parser; en ny GDAL Parser; mere understøttede formater, og overordnede forbedringer i Tika stabilitet.
Hvad er nyt i version 1.7:
- Denne udgivelse indeholder fejlrettelser og nye funktioner, herunder en ny Tesseract OCR Parser; en ny GDAL Parser; mere understøttede formater, og overordnede forbedringer i Tika stabilitet.
Hvad er nyt i version 1.6:
- Denne udgivelse indeholder fejlrettelser og nye funktioner, herunder en ny oversættelse API, mere understøttede formater og generelle forbedringer i Tika stabilitet.
Hvad er nyt i version 1.5:.
- Fixed bug i håndteringen af integrerede fil forarbejdning i PDF-filer
- Tilføjet SourceCodeParser at støtte java, Groovy, C ++ filer.
- Opdateret Tika Server til at understøtte multipart / form-data nyttelast.
- Opdateret Tika Server til at CXF 2.7.8.
- Opdateret Tika Server til at acceptere anmodninger over wildcard adresser.
- Tilføjet mulighed for at bruge alternative NonSequentialPDFParser.
- Indhold fra PDF AcroForms nu udvindes.
- Faste ugyldige asterisker fra mester dias i PPT.
- Tilføjet testcases at bekræfte håndtering af auto-dato i PPT og PPTX.
Hvad er nyt i version 1.4:
- Fjernet en test HTML-fil med en dårligt valgt GPL tekst i det.
- Forbedringer til tika-server til at gøre det muligt at producere tekst / html og tekst / xml indhold.
- Forbedringer blev foretaget til kompressoren Parser at håndtere g'zipped filer, der kræver decompressConcatenated indstillingen sat til true.
- Rettet en typografisk fejl, som forhindrede fra påvisning af awk filer.
Hvad er nyt i version 1.2:
- Apache Tika 1.2 indeholder en række forbedringer og fejlrettelser.
Hvad er nyt i version 1.0:
- Apache Tika 1.0 indeholder en række forbedringer og fejlrettelser.
Hvad er nyt i version 0.9:.
- Denne udgivelse indeholder flere vigtige fejlrettelser og nye funktioner
Hvad er nyt i version 0.8:
- Sprog identifikation er nu dynamisk konfigurerbar, styres via en konfigurationsfil indlæst fra classpath.
- Tika understøtter nu parsing Feeds ved at vikle den underliggende Rom biblioteket.
- En hurtig-start guide til Tika parsing blev bidraget.
- En tilgang til VVS gennem XHTML attributter blev tilføjet.
- Medietype hierarki oplysninger er nu taget i betragtning, når du vælger den bedste parser for en given input-dokument.
- Støtte til parsing fælles videnskabelige dataformater herunder NetCDF og HDF4 / 5 blev tilføjet.
- Unit test for Windows er fastsat, så TestParsers at fuldføre.
Hvad er nyt i version 0.7:
- MP3-fil parsing blev forbedret, herunder Channel og sampleRate udvinding og ID3v2 støtte. Endvidere blev audio parsing mime afsløring også forbedret til MIDI-format.
- Tika ikke længere er afhængig af X11 for sin RTF parsing funktionalitet.
- En Thread-safe fejl i AutoDetectParser blev opdaget og rettet.
- Opgrader til PDFBox 1.0.0. Den nye PDFBox versionen forbedrer PDF parsing ydeevne og løser en række tekst udvinding spørgsmål.
Krav :
- Java 6 eller højere
Kommentarer ikke fundet