uni2ascii og ascii2uni konvertere mellem UTF-8 Unicode og enhver af en række af 7-bit ASCII-ækvivalenter herunder: hexadecimal og decimal HTML numerisk vandelskrav, u-undslipper, standard hexadecimal, og rå hexadecimal.
Sådanne ASCII ækvivalenter er nyttige, når herunder Unicode-tekst i program kilde, når du indtaster tekst i web-programmer, der kan håndtere tegnsættet Unicode, men som ikke er 8-bit sikker, og når debugging.
Unicode undslipper til rådighed, er:
- HTML hexadecimal numeriske vandelskrav (f.eks)
- HTML decimal numerisk vandelskrav (f.eks ȳ)
- U-undslipper, som bruges i Python (f.eks u00E9)
- u-undslipper inden BMP og U-undslipper uden for BMP, fx u00E9 men U00010024.
- U -escapes (fx U 00E9)
- U-undslipper (fx U00E9)
- U-undslipper (fx u00E9)
- U-undslipper inden vinkelbeslag (f.eks)
- X-undslipper (fx x00E9)
- X-undslipper med seler (fx x {00E9})
- Standard hexadecimal (fx 0x00E9)
- Rå hexadecimal (fx 00E9)
uni2ascii accepterer en kommandolinje flag bestemme, om at generere store bogstaver AF eller små bogstaver AF som hexadecimale cifre da nogle nogle programmer kun acceptere den ene eller den anden. ascii2uni accepterer enten.
I tilfælde af uni2ascii som standard, er det kun tegn uden for ASCII-intervallet konverteret. Selv hvis ASCII-tegn også konverteres, er nye linjer bevares medmindre deres konvertering udtrykkeligt anmodet om. Mellemrum er også bevaret, medmindre konvertering udtrykkeligt anmodet om. I tilfælde af de tre ikke-ASCII mellemrum (etiopisk ord plads, Ogham plads, og ideografisk rum), hvis pladsen tegn ikke konverteres, disse erstattes med ASCII plads (0x20) så for at holde produktionen inden for 7- bit ASCII-intervallet.
Denne pakke indeholder fire programmer. Det vigtigste program er uni2ascii. Det er skrevet i C og skal udarbejdes. uni2html.py er forgængeren til uni2ascii. Som der er skrevet i Python, behøver det ikke skal udarbejdes, og skal køre på næsten enhver nuværende computer. uni2ascii ellers overlegen ved, at:
- Den genererer en bredere vifte af outputformater.
- Det er cirka 20 gange hurtigere.
- Det håndterer input i den fulde 32 bit Unicode rækkevidde. I modsætning hertil håndterer kun uni2html
Basic Multilingual Plane (Plane 0) fordi der på nuværende Python repræsenterer Unicode kodet tekst internt ved hjælp af 16-bit heltal. Hvis du har fået tekst i f.eks Linear B eller Ugaritisk, du har brug for uni2ascii.
Det gør et bedre stykke arbejde med at rapportere fejl. Hvis den møder en fejl i sit input, såsom mal-formet UTF-8, rapporterer placeringen af fejl både med hensyn til karakteren tælle fra begyndelsen af filen (begyndende ved 0) og med hensyn til byte count fra begyndelsen af filen (også begyndende ved 0). (Karakter tæller og byte tæller er generelt ikke det samme, da en UTF-8-kodet tegn indtager fra et til fire bytes.) Kun Python udgave rapporter karakter tæller. uni2ascii giver også oplysninger om karakteren af fejlen.
Det tredje program, ascii2uni, er den inverse af uni2ascii. Det accepterer tekst, der indeholder en bred vifte af ASCII repræsentationer af Unicode-tegn og genererer UTF-8 Unicode.
Det fjerde program, ascii2uni.py, læser 7-bit ASCII indeholder u-undslap Unicode, som bruges i Python og Tcl, og konverterer det til UTF-8 Unicode. Det er det oprindelige program, som ascii2uni er en generalisering
Hvad er nyt i denne udgivelse:.
- Fixed bug i uni2ascii hvor i visse tilfælde ombytte count var for høj, fastsættelse Debian bug # 626268.
- Patched til at håndtere situationen i NetBSD som mangler getline.
- Klarede semantik af ren mulighed som at konvertere tegn i ASCII rækkevidde andet end plads og newline. Fixed bug, hvor denne ikke blev gennemført korrekt for UTF8 typer.
Hvad er nyt i version 4.17:
- Tilføjet til uni2ascii følgende konverteringer til nærmeste ascii svarer: U 2022 bullet at 'o', U + 00B7 midterste prik til perioden, U + 0085 næste linje at Newline, U + 2028 line separator til newline.
Hvad er nyt i version 4.16:
- Q-formatet fungerer igen i ascii2uni .
- Tilføjet U + 2033 DOUBLE PRIME til de tegn, omdannes til deres nærmeste ascii svarende under brug af e-formatet i uni2ascii.
Hvad er nyt i version 4.15:
- Omdøbte endian.h at u2a_endian.h at fjerne konflikt med ekstern endian.h.
- Fjernet kopi af GNU getline fra ascii2uni.c som det er standard som for POSIX2008.
Hvad er nyt i version 4.14:
- Rettet en fejl, der blandede sig med brug af Q-formatet i uni2ascii.
- Fixed bug, hvor ascification af U + 2502 og U + 2503 tilføjet dobbelt citat til output.
- Rettet en fejl, hvor -en S option genereret en & quot; Omregnet så mange chars & quot; linje for hver karakter på grund af forlader i debugging kode.
Hvad er nyt i version 4.13:
- Fixed bug, der forårsagede overdrevne antal tegn ændret til ASCII til rapporteres.
Hvad er nyt i version 4.12:
- Begge programmer nu tillade input filnavn skal specificeres på kommandolinjen uden omdirigering.
Hvad er nyt i version 4.11:
- Denne version tilføjer understøttelse for & lt; XX & gt; & lt; XX & gt; og% uXXXX formater.
Hvad er nyt i version 4.10:
- Denne version løser en fejl, der gjorde Y argument til -en flag ascii2uni en no-op, og korrigerer man-sider og hjælp til Y og Q argumenter til -a flag for begge programmer.
- Y argument er nu en fejl for uni2ascii.
- Den information og handling versionen resuméer er mere informative.
Kommentarer ikke fundet