catdoc er program som læser en eller flere Microsoft Word-filer og output tekst, der er indeholdt insinde dem til standard output. Derfor gør samme arbejde for .doc-filer, som unix kat kommando til ren ASCII-filer
catdoc Projektet er nu ledsaget af xls2csv -. Program, som konverterer Excel-regneark i kommasepareret værdi-fil. Nyeste tilføjelse til catdoc suite er catppt - program, der udvinder læsbar tekst fra PowerPoint-filer.
tilvælges, catdoc er i stand til at oversætte nogle ikke-ASCII tegn i correspoindig TeX escape-sekvenser og konvertere tegnsæt fra Windows ANSI tegntabel eller Unicode til den lokale tegntabel af target maskine.
Det har også database over substitutions- sekvenser, som anvendes til symboler, der ikke er til stede i mål-kodning. Så hvis du forsøger at læse russiske ord fil under C locale, får du en translitteration.
Under Unix det bruger nl_langinfo funktion til at finde ud af, hvilken kodning at bruge, under DOS det bruger passende DOS-funktion, som får codepage værdi fra LAND erklæring CONFIG.SYS.
catdoc er også i stand til at læse RTF-filer og endda almindelig tekst, så det kan anvendes som generelle formål kodning konverter. (Da catdoc er russisk program, som standard det konverterer CP1251 at KOI8-r, når de kører under UNIX og cp866, når du kører under DOS.
Catdoc har rudimentær tabel håndtering. I TeX-tilstand indsætter & når møder feltseparator og når møder afslutning tabelrække. er ingen tabeloverskrifter produceret selv.
Catdoc ikke engang forsøge at preserver MS-Word formatering karakter. Det er målet at udtrække almindelig tekst og giver dig mulighed at læse den og sandsynligvis omformatere med TeX ifølge TeXnical regler, har de fleste Word-brugere ikke engang hørt om.
xls2csv gør nogenlunde samme for Excel-filer. Den trækker data og udelader enhver formatering info og formler. Concept er, at du ønsker at se data, ikke den måde, det blev oprettet.
Der er tcl / tk GUI script wordview som giver GUI til visning Word og RTF-filer ved hjælp af catdoc. Eftersom interne repræsentation af Tcl streng er utf-8, og de fleste systemer har nu unicode skrifttyper, du vil sandsynligvis være i stand til at læse dokumenter på alle sprog ved hjælp af dette script.
Software detaljer:
Kommentarer ikke fundet