uni2ascii και ascii2uni τη μετατροπή μεταξύ UTF-8 Unicode και οποιοδήποτε από μια ποικιλία ισοδύναμων ASCII 7-bit, συμπεριλαμβανομένων: δεκαεξαδικό και δεκαδικό αναφορές αριθμητικών χαρακτήρων της HTML, u-αποδράσεις, πρότυπο δεκαεξαδικό, και των πρώτων δεκαεξαδικό.
Τέτοια ισοδύναμα ASCII είναι χρήσιμο όταν περιλαμβανομένων κείμενο Unicode στην πηγή του προγράμματος, κατά την εισαγωγή κειμένου σε προγράμματα Web που μπορεί να χειριστεί το σύνολο χαρακτήρων Unicode, αλλά δεν είναι 8-bit ασφαλές, και όταν τον εντοπισμό σφαλμάτων.
Το Unicode διαφεύγει διαθέσιμες είναι:
- HTML δεκαεξαδικό αναφορές αριθμητικών χαρακτήρων (π.χ.)
Δεκαδικά αναφορές αριθμητικών χαρακτήρων της HTML (π.χ. ȳ) -
- U-αποδράσεις, όπως χρησιμοποιείται στην Python (π.χ. u00E9)
- U-αποδράσεις εντός των BMP και U-αποδράσεις πέρα από το BMP, π.χ. u00E9 αλλά U00010024.
- U -escapes (π.χ. U 00E9)
- U-διαφυγές (π.χ. U00E9)
- U-διαφυγές (π.χ. u00E9)
- U-αποδράσεις μέσα σε αγκύλες (π.χ.)
- X-διαφυγές (π.χ. x00E9)
- X-αποδράσεις με τιράντες (π.χ. x {} 00E9)
- Πρότυπο δεκαεξαδικό (π.χ. 0x00E9)
- Πρώτες δεκαεξαδικό (π.χ. 00E9)
uni2ascii δέχεται μια σημαία της γραμμής εντολών αποφασίσει εάν θα δημιουργήσει κεφαλαία γράμματα AF ή πεζά AF ως δεκαεξαδικά ψηφία, δεδομένου ότι ορισμένες Κάποια προγράμματα δέχονται μόνο το ένα ή το άλλο. ascii2uni δέχεται είτε.
Στην περίπτωση uni2ascii από προεπιλογή, μόνο οι χαρακτήρες έξω από την περιοχή ASCII μετατρέπεται. Ακόμη και αν οι χαρακτήρες ASCII μετατρέπονται επίσης, οι νέες γραμμές διατηρημένα, εκτός εάν ζητηθεί ρητά τη μετατροπή τους. Οι διαστημικές χαρακτήρες σώζονται επίσης, εκτός εάν ρητά ζητείται η μετατροπή. Στην περίπτωση των τριών χαρακτήρων χώρο μη-ASCII (Αιθιοπική χώρου λέξη, Όγκχαμ χώρο, και ιδεογραφική χώρο), εάν ο χώρος χαρακτήρες δεν μετατρέπονται, αυτά αντικαθίστανται με το χώρο ASCII (0x20), έτσι ώστε να διατηρηθεί η παραγωγή εντός της 7- φάσμα ASCII λίγο.
Αυτό το πακέτο περιέχει τέσσερα προγράμματα. Το κύριο πρόγραμμα είναι uni2ascii. Είναι γραμμένο σε C και πρέπει να καταρτίζονται. uni2html.py είναι ο προκάτοχος uni2ascii. Όπως είναι γραμμένο σε Python, δεν πρέπει να καταρτίζονται και να πρέπει να τρέχει σε σχεδόν οποιαδήποτε τρέχοντα υπολογιστή. uni2ascii άλλα είναι ανώτερη από το ότι:
- Παράγει ένα ευρύ φάσμα των μορφών παραγωγής.
- Είναι περίπου 20 φορές γρηγορότερα.
- Χειρίζεται εισόδου στην πλήρη 32-bit Unicode φάσμα. Σε αντίθεση, uni2html χειρίζεται μόνο το
Βασικό Πολυγλωσσικό Επίπεδο (Επίπεδο 0), διότι προς το παρόν Python αντιπροσωπεύει Unicode κωδικοποιημένο κείμενο εσωτερικά χρησιμοποιώντας ακέραιους 16-bit. Αν έχετε το κείμενο, ας πούμε, Γραμμική Β ή Ουγκαρίτικ, θα πρέπει να έχετε uni2ascii.
Κάνει καλύτερη δουλειά αναφορά σφαλμάτων. Εάν αντιμετωπίζει ένα σφάλμα στην είσοδο του, όπως mal-σχηματίζονται UTF-8, αναφέρει τη θέση του σφάλματος τόσο από την άποψη του αριθμού των χαρακτήρων από την αρχή του αρχείου (ξεκινώντας από μηδέν), και από την άποψη του αριθμού των byte από την αρχή του αρχείου (επίσης αρχίζοντας από μηδέν). (Η Χαρακτήρα και Η byte δεν είναι γενικά η ίδια από μια κωδικοποίηση UTF-8 χαρακτήρων καταλαμβάνει από ένα έως τέσσερα bytes.) Οι εκθέσεις της έκδοσης Python μόνο ο αριθμός χαρακτήρων. uni2ascii παρέχει επίσης πληροφορίες σχετικά με τη φύση του σφάλματος.
Το τρίτο πρόγραμμα, ascii2uni, είναι το αντίστροφο της uni2ascii. Δέχεται κειμένου που περιέχει μια ποικιλία από ASCII αναπαραστάσεις των Unicode χαρακτήρες και δημιουργεί UTF-8 Unicode.
Το τέταρτο πρόγραμμα, ascii2uni.py, διαβάζει 7-bit ASCII περιέχει U-διέφυγε Unicode, όπως χρησιμοποιείται στην Python και Tcl, και το μετατρέπει σε UTF-8 Unicode. Είναι το αρχικό πρόγραμμα του οποίου ascii2uni είναι μια γενίκευση
Τι είναι καινούργιο σε αυτή την έκδοση:.
- Διορθώθηκε το bug στην uni2ascii στην οποία, σε ορισμένες περιπτώσεις, ο αριθμός subsitution ήταν πολύ υψηλό, για τον καθορισμό του Debian bug # 626268.
- ΡαίοΗβά να χειριστεί την κατάσταση στο NetBSD που στερείται getline.
- Διευκρινίζεται σημασιολογία της καθαρής επιλογή, όπως τη μετατροπή χαρακτήρων σε σειρά ASCII, εκτός από το διάστημα και αλλαγή γραμμής. Fixed bug στο οποίο δεν εφαρμόστηκε σωστά για τους τύπους UTF8.
Τι είναι καινούργιο στην έκδοση 4.17:
- Προστέθηκε uni2ascii τις παρακάτω μετατροπές από το πλησιέστερο ισοδύναμο ASCII: U 2022 σφαίρα «o», U + 00B7 μεσαία κουκίδα με την περίοδο, U + 0085 επόμενη γραμμή για αλλαγή γραμμής, U + 2028 διαχωριστή γραμμή για αλλαγή γραμμής.
Τι είναι καινούργιο στην έκδοση 4.16:
- Η μορφή Q λειτουργεί και πάλι στην ascii2uni .
- Προστέθηκε U + 2033 ΔΙΠΛΟ PRIME στους χαρακτήρες μετατρέπονται σε πλησιέστερο ισοδύναμο ascii τους που απορρέουν από τη χρήση στη μορφή ηλεκτρονικού στις uni2ascii.
Τι είναι καινούργιο στην έκδοση 4.15:
- Μετονομάστηκε endian.h να u2a_endian.h για την εξάλειψη των συγκρούσεων με εξωτερική endian.h.
- Αφαιρέθηκε αντίγραφο της GNU getline από ascii2uni.c όπως είναι πρότυπο από POSIX2008.
Τι είναι καινούργιο στην έκδοση 4.14:
- Διορθώθηκε ένα σφάλμα που παρεμβάλλονταν με τη χρήση της μορφής Q σε uni2ascii.
- Διορθώθηκε το bug στην οποία ascification του U + 2502 και U + 2503 προστίθεται διπλά εισαγωγικά για την έξοδο.
- Διορθώθηκε ένα σφάλμα κατά την οποία με την επιλογή -a S δημιουργείται ένας & quot? Αναπαλαιωμένο τόσοι πολλοί χαρακτήρες & quot? γραμμή για κάθε χαρακτήρα λόγω αφήνοντας κώδικα εντοπισμού σφαλμάτων.
Τι είναι καινούργιο στην έκδοση 4.13:
- Διορθώθηκε το bug που προκάλεσε υπερβολικό αριθμό των χαρακτήρων άλλαξε σε ASCII για να να αναφέρονται.
Τι είναι καινούργιο στην έκδοση 4.12:
- Και τα δύο προγράμματα επιτρέπουν πλέον το όνομα του αρχείου εισόδου πρέπει να προσδιορίζεται με Η γραμμή εντολών χωρίς ανακατεύθυνση.
Τι είναι καινούργιο στην έκδοση 4.11:
- Αυτή η έκδοση προσθέτει υποστήριξη για το & lt? XX & gt? & Lt? XX & gt? και μορφές% uXXXX.
Τι είναι καινούργιο στην έκδοση 4.10:
- Αυτή η έκδοση διορθώνει ένα bug που έκανε το επιχείρημα Υ στο -a σημαία ascii2uni ένα κανένας-op, και διορθώνει τις σελίδες man και βοήθεια για τα Υ και Q επιχειρήματα για την επιλογή -a για τα δύο προγράμματα.
- Το επιχείρημα Υ είναι τώρα ένα λάθος για uni2ascii.
- Οι πληροφορίες έκδοσης και η δράση είναι πιο κατατοπιστική.
Περιλήψεις
Τα σχόλια δεν βρέθηκε