Hướng dẫn codecs.open python example - ví dụ về codecs.open python

Mã nguồn: lib/codecs.py Lib/codecs.py

Nội phân chính

  • Các lớp cơ sở Codec
  • Người xử lý lỗi
  • Mã hóa không trạng thái và giải mã
  • Mã hóa gia tăng và giải mã
  • Mã hóa luồng và giải mã
  • Mã hóa và Unicode¶
  • Mã hóa tiêu chuẩn
  • Mã hóa cụ thể Python
  • Mã hóa văn bản
  • BiTHER biến đổi nhị phân
  • Transforms văn bản
  • Encodings.idna - Tên miền quốc tế hóa trong các ứng dụng Ăn
  • Encodings.MBCS - Windows ANSI CodePage¶
  • mã hóa.utf_8_sig-codec UTF-8 với chữ ký BOM

Nội phân chính

  • Các lớp cơ sở Codec
  • Người xử lý lỗi
  • Mã hóa không trạng thái và giải mã
  • Mã hóa gia tăng và giải mã
  • Mã hóa luồng và giải mã
  • Mã hóa và Unicode¶
  • Mã hóa tiêu chuẩn
  • Mã hóa cụ thể Python
  • Mã hóa văn bản
  • BiTHER biến đổi nhị phân
  • Transforms văn bản
  • Encodings.idna - Tên miền quốc tế hóa trong các ứng dụng Ăn
  • Encodings.MBCS - Windows ANSI CodePage¶
  • mã hóa.utf_8_sig-codec UTF-8 với chữ ký BOM

Mô -đun này xác định các lớp cơ sở cho các codec python tiêu chuẩn (bộ mã hóa và bộ giải mã) và cung cấp quyền truy cập vào Cơ quan đăng ký Codec Python nội bộ, quản lý quy trình tra cứu xử lý lỗi và xử lý lỗi. Hầu hết các codec tiêu chuẩn là mã hóa văn bản, mã hóa văn bản thành byte (và giải mã byte thành văn bản), nhưng cũng có các codec cung cấp mã hóa văn bản thành văn bản và byte cho byte. Các codec tùy chỉnh có thể mã hóa và giải mã giữa các loại tùy ý, nhưng một số tính năng mô -đun bị hạn chế được sử dụng cụ thể với mã hóa văn bản hoặc với các codec mã hóa thành bytes.text encodings, which encode text to bytes (and decode bytes to text), but there are also codecs provided that encode text to text, and bytes to bytes. Custom codecs may encode and decode between arbitrary types, but some module features are restricted to be used specifically with text encodings or with codecs that encode to bytes.

Mô -đun xác định các chức năng sau để mã hóa và giải mã với bất kỳ codec nào:

________ 2 ________ 3 (obj, mã hóa = 'utf-8', lỗi = 'nghiêm ngặt') ¶(obj, encoding='utf-8', errors='strict')

Mã hóa OBJ bằng cách sử dụng codec đã đăng ký để mã hóa.

Lỗi có thể được đưa ra để đặt sơ đồ xử lý lỗi mong muốn. Trình xử lý lỗi mặc định là 'strict' có nghĩa là các lỗi mã hóa tăng ValueError (hoặc một lớp con cụ thể CODEC hơn, chẳng hạn như UnicodeEncodeError). Tham khảo các lớp cơ sở Codec để biết thêm thông tin về xử lý lỗi Codec.Codec Base Classes for more information on codec error handling.

________ 2 ________ 8 (obj, mã hóa = 'utf-8', lỗi = 'nghiêm ngặt') ¶(obj, encoding='utf-8', errors='strict')

Giải mã OBJ bằng cách sử dụng codec đã đăng ký mã hóa.

Lỗi có thể được đưa ra để đặt sơ đồ xử lý lỗi mong muốn. Trình xử lý lỗi mặc định là 'strict' có nghĩa là việc giải mã các lỗi tăng ValueError (hoặc một lớp con cụ thể CODEC hơn, chẳng hạn như bytes1). Tham khảo các lớp cơ sở Codec để biết thêm thông tin về xử lý lỗi Codec.Codec Base Classes for more information on codec error handling.

Các chi tiết đầy đủ cho mỗi codec cũng có thể được tra cứu trực tiếp:

________ 2 ________ 13 (mã hóa) ¶(encoding)

Nhìn lên thông tin codec trong sổ đăng ký codec Python và trả về một đối tượng bytes4 như được định nghĩa dưới đây.

Mã hóa lần đầu tiên được tra cứu trong bộ đệm đăng ký. Nếu không tìm thấy, danh sách các chức năng tìm kiếm đã đăng ký được quét. Nếu không tìm thấy đối tượng bytes4, một bytes6 sẽ được nâng lên. Mặt khác, đối tượng bytes4 được lưu trữ trong bộ đệm và trả lại cho người gọi.

Lớp ________ 2 ________ 19 (mã hóa, giải mã, streamreader = none, streamwriter = none(encode, decode, streamreader=None, streamwriter=None, incrementalencoder=None, incrementaldecoder=None, name=None)

Chi tiết codec khi tìm kiếm sổ đăng ký codec. Các đối số hàm tạo được lưu trữ trong các thuộc tính cùng tên:

________ 20¶

Tên của mã hóa.

________ 3¶ ________ 8¶

Các chức năng mã hóa và giải mã không trạng thái. Đây phải là các hàm hoặc phương thức có cùng giao diện với các phương thức codecs.3 và codecs.4 của các phiên bản codec (xem giao diện codec). Các chức năng hoặc phương pháp dự kiến ​​sẽ hoạt động ở chế độ không trạng thái.Codec Interface). The functions or methods are expected to work in a stateless mode.

________ 25¶ ________ 26¶

Các lớp mã hóa và bộ giải mã gia tăng hoặc các chức năng nhà máy. Chúng phải cung cấp giao diện được xác định bởi các lớp cơ sở codecs.7 và codecs.8, tương ứng. Codec gia tăng có thể duy trì trạng thái.

________ 29¶ ________ 30¶

Stream Writer và các lớp đọc hoặc chức năng nhà máy. Chúng phải cung cấp giao diện được xác định bởi các lớp cơ sở encode1 và encode2, tương ứng. Stream Codec có thể duy trì trạng thái.

Để đơn giản hóa quyền truy cập vào các thành phần codec khác nhau, mô -đun cung cấp các chức năng bổ sung này sử dụng encode3 cho tra cứu codec:

________ 2 ________ 35 (mã hóa) ¶(encoding)

Tra cứu codec cho mã hóa đã cho và trả về chức năng mã hóa của nó.

Tăng bytes6 trong trường hợp mã hóa không thể được tìm thấy.

________ 2 ________ 38 (mã hóa) ¶(encoding)

Tra cứu codec cho mã hóa đã cho và trả về chức năng giải mã của nó.

Tăng bytes6 trong trường hợp mã hóa không thể được tìm thấy.

________ 2 ________ 38 (mã hóa) ¶(encoding)

Tra cứu codec cho mã hóa đã cho và trả về chức năng giải mã của nó.

________ 2 ________ 41 (mã hóa) ¶

Tra cứu codec cho mã hóa đã cho và trả về lớp mã hóa gia tăng hoặc chức năng nhà máy.(encoding)

Tăng bytes6 trong trường hợp mã hóa không thể được tìm thấy hoặc codec không hỗ trợ bộ mã hóa gia tăng.

Tăng bytes6 trong trường hợp mã hóa không thể được tìm thấy hoặc codec không hỗ trợ bộ giải mã gia tăng.

________ 2 ________ 47 (mã hóa) ¶(encoding)

Tra cứu codec cho mã hóa đã cho và trả về lớp encode2 hoặc chức năng nhà máy của nó.

Tăng bytes6 trong trường hợp mã hóa không thể được tìm thấy.

________ 2 ________ 51 (mã hóa) ¶(encoding)

Tra cứu codec cho mã hóa đã cho và trả về lớp encode1 hoặc chức năng nhà máy của nó.

Tăng bytes6 trong trường hợp mã hóa không thể được tìm thấy.

________ 2 ________ 51 (mã hóa) ¶

Tra cứu codec cho mã hóa đã cho và trả về lớp encode1 hoặc chức năng nhà máy của nó.(search_function)

Codec tùy chỉnh được cung cấp bằng cách đăng ký chức năng tìm kiếm codec phù hợp:

________ 2 ________ 55 (search_function) ¶Hyphens and spaces are converted to underscore.

Đăng ký một chức năng tìm kiếm codec. Các chức năng tìm kiếm dự kiến ​​sẽ lấy một đối số, là tên mã hóa trong tất cả các chữ cái chữ thường có dấu gạch nối và không gian được chuyển đổi thành dấu gạch dưới và trả về một đối tượng bytes4. Trong trường hợp chức năng tìm kiếm không thể tìm thấy mã hóa đã cho, nó sẽ trả về ValueError7.(search_function)

Đã thay đổi trong phiên bản 3.9: Hyphens và không gian được chuyển đổi thành dấu gạch dưới.

________ 2 ________ 59 (search_function) ¶

UNBISTER một chức năng tìm kiếm codec và xóa bộ đệm đăng ký. Nếu chức năng tìm kiếm không được đăng ký, không làm gì cả.

Mới trong phiên bản 3.10.(filename, mode='r', encoding=None, errors='strict', buffering=- 1)

Mặc dù mô -đun UnicodeEncodeError0 và mô -đun UnicodeEncodeError1 được liên kết là cách tiếp cận được khuyến nghị để làm việc với các tệp văn bản được mã hóa, mô -đun này cung cấp các chức năng và lớp tiện ích bổ sung cho phép sử dụng phạm vi codec rộng hơn khi làm việc với các tệp nhị phân:

________ 2 ________ 63 (tên tệp, mode = 'r', mã hóa = không, lỗi = 'nghiêm ngặt', bộ đệm =- 1) ¶

Mở một tệp được mã hóa bằng chế độ đã cho và trả về một thể hiện là UnicodeEncodeError4, cung cấp mã hóa/giải mã trong suốt. Chế độ tệp mặc định là UnicodeEncodeError5, có nghĩa là mở tệp ở chế độ đọc.

Ghi chú

Các tệp được mã hóa cơ bản luôn được mở ở chế độ nhị phân. Không có sự chuyển đổi tự động của UnicodeEncodeError6 được thực hiện khi đọc và viết. Đối số chế độ có thể là bất kỳ chế độ nhị phân nào được chấp nhận cho hàm UnicodeEncodeError0 tích hợp; UnicodeEncodeError8 được tự động thêm vào.

Mã hóa chỉ định mã hóa sẽ được sử dụng cho tệp. Bất kỳ mã hóa nào mã hóa và giải mã từ byte đều được cho phép và các loại dữ liệu được hỗ trợ bởi các phương thức tệp phụ thuộc vào codec được sử dụng.

Lỗi có thể được đưa ra để xác định xử lý lỗi. Nó mặc định là 'strict' khiến ValueError được nêu ra trong trường hợp xảy ra lỗi mã hóa.(file, data_encoding, file_encoding=None, errors='strict')

Bộ đệm có cùng ý nghĩa như đối với hàm UnicodeEncodeError0 tích hợp. Nó mặc định là -1 có nghĩa là kích thước bộ đệm mặc định sẽ được sử dụng.

________ 2 ________ 73 (Tệp, data_encoding, file_encoding = none, error = 'nghiêm ngặt') ¶

Trả về một thể hiện codecs.4, một phiên bản được bọc của tệp cung cấp mã hóa trong suốt. Tệp gốc được đóng khi phiên bản gói được đóng.

Dữ liệu được ghi vào tệp được bọc được giải mã theo Data_encoding đã cho và sau đó được ghi vào tệp gốc dưới dạng byte bằng File_encoding. Các byte được đọc từ tệp gốc được giải mã theo File_encoding và kết quả được mã hóa bằng Data_encoding.

Nếu File_encoding không được đưa ra, nó mặc định là Data_encoding.(iterator, encoding, errors='strict', **kwargs)

Lỗi có thể được đưa ra để xác định xử lý lỗi. Nó mặc định là 'strict', khiến ValueError được nêu ra trong trường hợp xảy ra lỗi mã hóa.generator. The errors argument (as well as any other keyword argument) is passed through to the incremental encoder.

________ 2 ________ 78 (iterator, mã hóa, lỗi = 'nghiêm ngặt', ** kwargs) ¶

Sử dụng bộ mã hóa gia tăng để lặp lại mã hóa đầu vào được cung cấp bởi iterator. Hàm này là một trình tạo. Đối số lỗi (cũng như bất kỳ đối số từ khóa nào khác) được truyền qua bộ mã hóa gia tăng.(iterator, encoding, errors='strict', **kwargs)

Hàm này yêu cầu codec chấp nhận các đối tượng văn bản codecs.9 để mã hóa. Do đó, nó không hỗ trợ các bộ mã hóa byte-to-byte như decode0.generator. The errors argument (as well as any other keyword argument) is passed through to the incremental decoder.

________ 2 ________ 82 (iterator, mã hóa, lỗi = 'nghiêm ngặt', ** kwargs) ¶

Sử dụng bộ giải mã gia tăng để giải mã lặp lại đầu vào được cung cấp bởi iterator. Hàm này là một trình tạo. Đối số lỗi (cũng như bất kỳ đối số từ khóa nào khác) được chuyển qua trình giải mã gia tăng.

Hàm này yêu cầu codec chấp nhận các đối tượng bytes để giải mã. Do đó, nó không hỗ trợ các bộ mã hóa văn bản với văn bản như decode4, mặc dù decode4 có thể được sử dụng tương đương với decode6.

Mô -đun cũng cung cấp các hằng số sau đây hữu ích cho việc đọc và ghi vào các tệp phụ thuộc vào nền tảng:

Các lớp cơ sở Codec

Mô -đun bytes16 xác định một tập hợp các lớp cơ sở xác định các giao diện để làm việc với các đối tượng codec và cũng có thể được sử dụng làm cơ sở để triển khai CODEC tùy chỉnh.

Mỗi codec phải xác định bốn giao diện để làm cho nó có thể sử dụng được là codec trong python: bộ mã hóa không trạng thái, bộ giải mã không trạng thái, trình đọc luồng và người viết luồng. Trình đọc luồng và nhà văn thường sử dụng lại bộ mã hóa/bộ giải mã không trạng thái để thực hiện các giao thức tệp. Các tác giả Codec cũng cần xác định cách thức codec sẽ xử lý các lỗi mã hóa và giải mã.

Người xử lý lỗi

Để đơn giản hóa và chuẩn hóa xử lý lỗi, CODEC có thể thực hiện các sơ đồ xử lý lỗi khác nhau bằng cách chấp nhận đối số chuỗi lỗi:

>>> 'German ß, ♬'.encode(encoding='ascii', errors='backslashreplace')
b'German \\xdf, \\u266c'
>>> 'German ß, ♬'.encode(encoding='ascii', errors='xmlcharrefreplace')
b'German ß, ♬'

Các trình xử lý lỗi sau đây có thể được sử dụng với tất cả các mã hóa mã hóa tiêu chuẩn Python:Standard Encodings codecs:

Giá trị

Nghĩa

'strict'

Tăng bytes18 (hoặc một lớp con), đây là mặc định. Được thực hiện trong bytes19.

bytes20

Bỏ qua dữ liệu dị dạng và tiếp tục mà không cần thông báo thêm. Được thực hiện trong bytes21.

bytes22

Thay thế bằng một điểm đánh dấu thay thế. Khi mã hóa, sử dụng bytes23 (ký tự ASCII). Khi giải mã, sử dụng bytes24 (U+FFFD, ký tự thay thế chính thức). Được thực hiện trong bytes25.

bytes26

Thay thế bằng trình tự thoát hiểm. Khi mã hóa, hãy sử dụng hình thức thập lục phân của điểm mã Unicode với các định dạng bytes27 bytes28 bytes29. Khi giải mã, sử dụng dạng thập lục phân của giá trị byte với định dạng bytes27. Được thực hiện trong bytes31.

bytes32

Khi giải mã, thay thế byte bằng mã thay thế riêng lẻ từ bytes33 đến bytes34. Mã này sau đó sẽ được biến trở lại thành cùng một byte khi trình xử lý lỗi bytes32 được sử dụng khi mã hóa dữ liệu. (Xem PEP 383 để biết thêm.)PEP 383 for more.)

Trình xử lý lỗi sau chỉ áp dụng cho mã hóa (trong mã hóa văn bản):text encodings):

Giá trị

Nghĩa

bytes36

Tăng bytes18 (hoặc một lớp con), đây là mặc định. Được thực hiện trong bytes19.

bytes39

Bỏ qua dữ liệu dị dạng và tiếp tục mà không cần thông báo thêm. Được thực hiện trong bytes21.

Thay thế bằng một điểm đánh dấu thay thế. Khi mã hóa, sử dụng bytes23 (ký tự ASCII). Khi giải mã, sử dụng bytes24 (U+FFFD, ký tự thay thế chính thức). Được thực hiện trong bytes25.

Giá trị

Nghĩa

Nghĩa

bytes42

Tăng bytes18 (hoặc một lớp con), đây là mặc định. Được thực hiện trong bytes19.

Bỏ qua dữ liệu dị dạng và tiếp tục mà không cần thông báo thêm. Được thực hiện trong bytes21.

Thay thế bằng một điểm đánh dấu thay thế. Khi mã hóa, sử dụng bytes23 (ký tự ASCII). Khi giải mã, sử dụng bytes24 (U+FFFD, ký tự thay thế chính thức). Được thực hiện trong bytes25.The bytes32 and bytes42 error handlers.

Thay thế bằng trình tự thoát hiểm. Khi mã hóa, hãy sử dụng hình thức thập lục phân của điểm mã Unicode với các định dạng bytes27 bytes28 bytes29. Khi giải mã, sử dụng dạng thập lục phân của giá trị byte với định dạng bytes27. Được thực hiện trong bytes31.The bytes42 error handler now works with utf-16* and utf-32* codecs.

Khi giải mã, thay thế byte bằng mã thay thế riêng lẻ từ bytes33 đến bytes34. Mã này sau đó sẽ được biến trở lại thành cùng một byte khi trình xử lý lỗi bytes32 được sử dụng khi mã hóa dữ liệu. (Xem PEP 383 để biết thêm.)The bytes39 error handler.

Trình xử lý lỗi sau chỉ áp dụng cho mã hóa (trong mã hóa văn bản):The bytes26 error handler now works with decoding and translating.

Thay thế bằng tham chiếu ký tự số XML/HTML, đây là một dạng thập phân của điểm mã Unicode với định dạng bytes37 được triển khai trong bytes38.

Thay thế bằng các chuỗi thoát bytes40, những gì xuất hiện trong niềng răng là thuộc tính tên từ cơ sở dữ liệu ký tự Unicode. Được thực hiện trong bytes41.(name, error_handler)

Ngoài ra, trình xử lý lỗi sau đây dành riêng cho các codec đã cho:

Codec

UTF-8, UTF-16, UTF-32, UTF-16-BE, UTF-16-LE, UTF-32-BE, UTF-32-LE

Cho phép mã hóa và giải mã điểm mã thay thế (bytes43 - bytes44) làm điểm mã bình thường. Mặt khác, các codec này coi sự hiện diện của điểm mã thay thế trong codecs.9 là một lỗi.

Mới trong phiên bản 3.1: Trình xử lý lỗi bytes32 và bytes42.(name)

Đã thay đổi trong phiên bản 3.4: Trình xử lý lỗi bytes42 hiện hoạt động với các codec UTF-16* và UTF-32*.

Mới trong phiên bản 3.5: Trình xử lý lỗi bytes39.

Đã thay đổi trong phiên bản 3.5: Trình xử lý lỗi bytes26 hiện hoạt động với việc giải mã và dịch.

Tập hợp các giá trị được phép có thể được mở rộng bằng cách đăng ký một trình xử lý lỗi được đặt tên mới:(exception)

________ 2 ________ 152 (Tên, Error_Handler) ¶

Đăng ký hàm xử lý lỗi ERROR_Handler dưới tên. Đối số Error_Handler sẽ được gọi trong quá trình mã hóa và giải mã trong trường hợp lỗi, khi tên được chỉ định là tham số lỗi.

________ 2 ________ 167 (Ngoại lệ) ¶(exception)

Thực hiện xử lý lỗi bytes20.

Dữ liệu dị dạng bị bỏ qua; Mã hóa hoặc giải mã được tiếp tục mà không cần thông báo thêm.

________ 2 ________ 170 (Ngoại lệ) ¶(exception)

Thực hiện xử lý lỗi bytes22.

Các sản phẩm thay thế bytes23 (ký tự ASCII) cho các lỗi mã hóa hoặc bytes24 (U+FFFD, ký tự thay thế chính thức) để giải mã các lỗi.

________ 2 ________ 175 (Ngoại lệ) ¶(exception)

Thực hiện xử lý lỗi bytes26.

Dữ liệu dị dạng được thay thế bằng chuỗi thoát hiểm. Khi mã hóa, hãy sử dụng dạng thập phân của điểm mã Unicode với các định dạng bytes27 bytes28 bytes29. Khi giải mã, sử dụng dạng thập lục phân của giá trị byte với định dạng bytes27.

Thay đổi trong phiên bản 3.5: Hoạt động với giải mã và dịch.Works with decoding and translating.

________ 2 ________ 182 (Ngoại lệ) ¶(exception)

Thực hiện xử lý lỗi bytes36 (chỉ mã hóa trong mã hóa văn bản).text encoding only).

Ký tự không thể kiểm soát được thay thế bằng tham chiếu ký tự số XML/HTML thích hợp, đây là một dạng thập phân của điểm mã Unicode với định dạng bytes37.

________ 2 ________ 186 (Ngoại lệ) ¶(exception)

Thực hiện xử lý lỗi bytes39 (chỉ mã hóa trong mã hóa văn bản).text encoding only).

Ký tự không thể kiểm soát được thay thế bằng chuỗi thoát bytes40. Tập hợp các ký tự xuất hiện trong niềng răng là thuộc tính tên từ cơ sở dữ liệu ký tự Unicode. Ví dụ, chữ thường của Đức bytes89 sẽ được chuyển đổi thành chuỗi byte bytes90.

Mới trong phiên bản 3.5.

Mã hóa không trạng thái và giải mã

Lớp cơ sở bytes91 xác định các phương thức này cũng xác định các giao diện chức năng của bộ mã hóa và bộ giải mã không trạng thái:

________ 192 ________ 3 (đầu vào, lỗi = 'nghiêm ngặt') ¶(input, errors='strict')

Mã hóa đầu vào đối tượng và trả về một tuple (đối tượng đầu ra, độ dài tiêu thụ). Chẳng hạn, mã hóa văn bản chuyển đổi một đối tượng chuỗi thành đối tượng byte bằng cách sử dụng mã hóa bộ ký tự cụ thể (ví dụ: bytes94 hoặc bytes95).text encoding converts a string object to a bytes object using a particular character set encoding (e.g., bytes94 or bytes95).

Đối số lỗi xác định xử lý lỗi để áp dụng. Nó mặc định để xử lý 'strict'.

Phương pháp có thể không lưu trữ trạng thái trong ví dụ bytes91. Sử dụng encode1 cho các codec phải giữ trạng thái để làm cho mã hóa hiệu quả.

Bộ mã hóa phải có khả năng xử lý đầu vào không có độ dài và trả về một đối tượng trống của loại đối tượng đầu ra trong tình huống này.

________ 192 ________ 8 (đầu vào, lỗi = 'nghiêm ngặt') ¶(input, errors='strict')

Giải mã đầu vào đối tượng và trả về một tuple (đối tượng đầu ra, độ dài tiêu thụ). Chẳng hạn, đối với mã hóa văn bản, việc giải mã chuyển đổi một đối tượng byte được mã hóa bằng một bộ ký tự cụ thể mã hóa thành một đối tượng chuỗi.text encoding, decoding converts a bytes object encoded using a particular character set encoding to a string object.

Đối với mã hóa văn bản và các codec byte-to-byte, đầu vào phải là đối tượng byte hoặc một đối tượng cung cấp giao diện bộ đệm chỉ đọc-ví dụ: các đối tượng bộ đệm và các tệp được ánh xạ bộ nhớ.

Đối số lỗi xác định xử lý lỗi để áp dụng. Nó mặc định để xử lý 'strict'.

Phương pháp có thể không lưu trữ trạng thái trong ví dụ bytes91. Sử dụng encode1 cho các codec phải giữ trạng thái để làm cho mã hóa hiệu quả.

Bộ mã hóa phải có khả năng xử lý đầu vào không có độ dài và trả về một đối tượng trống của loại đối tượng đầu ra trong tình huống này.

________ 192 ________ 8 (đầu vào, lỗi = 'nghiêm ngặt') ¶

Giải mã đầu vào đối tượng và trả về một tuple (đối tượng đầu ra, độ dài tiêu thụ). Chẳng hạn, đối với mã hóa văn bản, việc giải mã chuyển đổi một đối tượng byte được mã hóa bằng một bộ ký tự cụ thể mã hóa thành một đối tượng chuỗi.

Đối với mã hóa văn bản và các codec byte-to-byte, đầu vào phải là đối tượng byte hoặc một đối tượng cung cấp giao diện bộ đệm chỉ đọc-ví dụ: các đối tượng bộ đệm và các tệp được ánh xạ bộ nhớ.

Phương pháp có thể không lưu trữ trạng thái trong ví dụ bytes91. Sử dụng encode2 cho các codec phải giữ trạng thái để làm cho việc giải mã hiệu quả.

Bộ giải mã phải có khả năng xử lý đầu vào có độ dài bằng không và trả về một đối tượng trống của loại đối tượng đầu ra trong tình huống này.

Mã hóa gia tăng và giải mã(errors='strict')

Các lớp codecs.7 và codecs.8 cung cấp giao diện cơ bản để mã hóa và giải mã gia tăng. Mã hóa/giải mã đầu vào được thực hiện với một cuộc gọi đến hàm mã hóa/bộ giải mã không trạng thái, nhưng với nhiều cuộc gọi đến phương thức ____ 23/________ 24 của bộ mã hóa/bộ giải mã gia tăng. Bộ mã hóa/bộ giải mã gia tăng theo dõi quá trình mã hóa/giải mã trong các cuộc gọi phương thức.

Đầu ra đã tham gia của các cuộc gọi đến phương thức ____ 23/________ 24 giống như khi tất cả các đầu vào duy nhất được nối thành một và đầu vào này được mã hóa/giải mã với bộ mã hóa/bộ giải mã không trạng thái.

Đối tượng gia tăngError Handlers for possible values.

Lớp codecs.7 được sử dụng để mã hóa đầu vào trong nhiều bước. Nó xác định các phương thức sau mà mọi bộ mã hóa gia tăng phải xác định để tương thích với sổ đăng ký codec Python.

________ 3 (đối tượng, cuối cùng = sai) ¶(object, final=False)

Mã hóa đối tượng (đưa trạng thái hiện tại của bộ mã hóa vào tài khoản) và trả về đối tượng được mã hóa kết quả. Nếu đây là cuộc gọi cuối cùng đến cuối cùng codecs.3 phải đúng (mặc định là sai).

________ 218 ()()

Đặt lại bộ mã hóa về trạng thái ban đầu. Đầu ra bị loại bỏ: Gọi codecs.19, chuyển một byte trống hoặc chuỗi văn bản nếu cần, để đặt lại bộ mã hóa và để lấy đầu ra.

________ 220 ()()

Trả về trạng thái hiện tại của bộ mã hóa phải là một số nguyên. Việc thực hiện phải đảm bảo rằng codecs.21 là trạng thái phổ biến nhất. .

________ 222 (Bang) ¶(state)

Đặt trạng thái của bộ mã hóa thành trạng thái. Trạng thái phải là trạng thái mã hóa được trả về bởi codecs.23.

Gia tăng đối tượng

Lớp codecs.8 được sử dụng để giải mã đầu vào trong nhiều bước. Nó xác định các phương thức sau mà mọi bộ giải mã gia tăng phải xác định để tương thích với sổ đăng ký codec Python.

Lớp ________ 2 ________ 226 (lỗi = 'nghiêm ngặt') ¶(errors='strict')

Hàm tạo cho một ví dụ codecs.8.

Tất cả các bộ giải mã gia tăng phải cung cấp giao diện hàm tạo này. Chúng được tự do thêm các đối số từ khóa bổ sung, nhưng chỉ những đối số được xác định ở đây được sử dụng bởi Cơ quan đăng ký codec Python.

codecs.8 có thể thực hiện các sơ đồ xử lý lỗi khác nhau bằng cách cung cấp đối số từ khóa lỗi. Xem trình xử lý lỗi cho các giá trị có thể.Error Handlers for possible values.

Đối số lỗi sẽ được gán cho một thuộc tính cùng tên. Việc gán cho thuộc tính này cho phép chuyển đổi giữa các chiến lược xử lý lỗi khác nhau trong suốt vòng đời của đối tượng codecs.8.

________ 8 (đối tượng, cuối cùng = sai) ¶(object, final=False)

Đối tượng giải mã (đưa trạng thái hiện tại của bộ giải mã vào tài khoản) và trả về đối tượng được giải mã kết quả. Nếu đây là cuộc gọi cuối cùng đến cuối cùng codecs.4 phải đúng (mặc định là sai). Nếu cuối cùng là đúng, bộ giải mã phải giải mã hoàn toàn đầu vào và phải xóa tất cả các bộ đệm. Nếu điều này không thể có (ví dụ: do các chuỗi byte không đầy đủ ở cuối đầu vào), nó phải bắt đầu xử lý lỗi giống như trong trường hợp không trạng thái (có thể tăng một ngoại lệ).

________ 218 ()()

Đặt lại bộ mã hóa về trạng thái ban đầu. Đầu ra bị loại bỏ: Gọi codecs.19, chuyển một byte trống hoặc chuỗi văn bản nếu cần, để đặt lại bộ mã hóa và để lấy đầu ra.

________ 220 ()()

Trả về trạng thái hiện tại của bộ mã hóa phải là một số nguyên. Việc thực hiện phải đảm bảo rằng codecs.21 là trạng thái phổ biến nhất. .

________ 222 (Bang) ¶(state)

Đặt trạng thái của bộ mã hóa thành trạng thái. Trạng thái phải là trạng thái mã hóa được trả về bởi codecs.23.

Gia tăng đối tượng

Lớp codecs.8 được sử dụng để giải mã đầu vào trong nhiều bước. Nó xác định các phương thức sau mà mọi bộ giải mã gia tăng phải xác định để tương thích với sổ đăng ký codec Python.

Lớp ________ 2 ________ 226 (lỗi = 'nghiêm ngặt') ¶

Hàm tạo cho một ví dụ codecs.8.

Tất cả các bộ giải mã gia tăng phải cung cấp giao diện hàm tạo này. Chúng được tự do thêm các đối số từ khóa bổ sung, nhưng chỉ những đối số được xác định ở đây được sử dụng bởi Cơ quan đăng ký codec Python.(stream, errors='strict')

codecs.8 có thể thực hiện các sơ đồ xử lý lỗi khác nhau bằng cách cung cấp đối số từ khóa lỗi. Xem trình xử lý lỗi cho các giá trị có thể.

Đối số lỗi sẽ được gán cho một thuộc tính cùng tên. Việc gán cho thuộc tính này cho phép chuyển đổi giữa các chiến lược xử lý lỗi khác nhau trong suốt vòng đời của đối tượng codecs.8.

________ 8 (đối tượng, cuối cùng = sai) ¶

Đối tượng giải mã (đưa trạng thái hiện tại của bộ giải mã vào tài khoản) và trả về đối tượng được giải mã kết quả. Nếu đây là cuộc gọi cuối cùng đến cuối cùng codecs.4 phải đúng (mặc định là sai). Nếu cuối cùng là đúng, bộ giải mã phải giải mã hoàn toàn đầu vào và phải xóa tất cả các bộ đệm. Nếu điều này không thể có (ví dụ: do các chuỗi byte không đầy đủ ở cuối đầu vào), nó phải bắt đầu xử lý lỗi giống như trong trường hợp không trạng thái (có thể tăng một ngoại lệ).Error Handlers for the standard error handlers the underlying stream codec may support.

Đặt lại bộ giải mã về trạng thái ban đầu.

Trả về trạng thái hiện tại của bộ giải mã. Đây phải là một tuple với hai mục, đầu tiên phải là bộ đệm chứa đầu vào vẫn chưa được giải quyết. Thứ hai phải là một số nguyên và có thể là thông tin trạng thái bổ sung. . Cho ăn đầu vào được đệm trước đó cho bộ giải mã trả nó về trạng thái trước mà không tạo ra bất kỳ đầu ra nào. .(object)

Đặt trạng thái của bộ giải mã thành trạng thái. Nhà nước phải là trạng thái giải mã được trả lại bởi codecs.23.

________ 250 (Danh sách) ¶(list)

Viết các chuỗi có thể sử dụng được kết nối vào luồng (có thể bằng cách sử dụng lại phương thức codecs.51). Vòng lặp vô hạn hoặc rất lớn không được hỗ trợ. Các codec byte-to-bytes tiêu chuẩn không hỗ trợ phương pháp này.

________ 218 ()()

Đặt lại các bộ đệm codec được sử dụng để giữ trạng thái nội bộ.

Gọi phương thức này phải đảm bảo rằng dữ liệu trên đầu ra được đưa vào trạng thái sạch cho phép nối thêm dữ liệu mới mà không phải hủy toàn bộ luồng để khôi phục trạng thái.

Ngoài các phương thức trên, encode1 cũng phải kế thừa tất cả các phương thức và thuộc tính khác từ luồng cơ bản.

StreamReader Đối tượng

Lớp encode2 là một lớp con của bytes91 và xác định các phương thức sau mà mọi đầu đọc luồng phải xác định để tương thích với sổ đăng ký codec Python.

Lớp ________ 2 ________ 257 (stream, error = 'nghiêm ngặt') ¶(stream, errors='strict')

Hàm tạo cho một ví dụ encode2.

Tất cả các đầu đọc luồng phải cung cấp giao diện cấu trúc này. Chúng được tự do thêm các đối số từ khóa bổ sung, nhưng chỉ những đối số được xác định ở đây được sử dụng bởi Cơ quan đăng ký codec Python.

Đối số luồng phải là một đối tượng giống như tệp mở để đọc văn bản hoặc dữ liệu nhị phân, khi phù hợp với codec cụ thể.

encode2 có thể thực hiện các sơ đồ xử lý lỗi khác nhau bằng cách cung cấp đối số từ khóa lỗi. Xem trình xử lý lỗi cho trình xử lý lỗi tiêu chuẩn mà codec luồng cơ bản có thể hỗ trợ.Error Handlers for the standard error handlers the underlying stream codec may support.

Đối số lỗi sẽ được gán cho một thuộc tính cùng tên. Việc gán cho thuộc tính này cho phép chuyển đổi giữa các chiến lược xử lý lỗi khác nhau trong suốt vòng đời của đối tượng encode2.

Tập hợp các giá trị được phép cho đối số lỗi có thể được mở rộng với codecs.61.

________ 262 (size =- 1, chars =- 1, firstline = false) ¶(size=- 1, chars=- 1, firstline=False)

Giải mã dữ liệu từ luồng và trả về đối tượng kết quả.

Đối số chars cho biết số lượng điểm hoặc byte được giải mã để trả về. Phương thức codecs.63 sẽ không bao giờ trả về nhiều dữ liệu hơn yêu cầu, nhưng nó có thể trả về ít hơn, nếu không có đủ.

Đối số kích thước cho biết số lượng byte được mã hóa tối đa gần đúng hoặc các điểm mã cần đọc để giải mã. Bộ giải mã có thể sửa đổi cài đặt này khi thích hợp. Giá trị mặc định -1 chỉ ra để đọc và giải mã càng nhiều càng tốt. Tham số này nhằm ngăn chặn phải giải mã các tệp khổng lồ trong một bước.

Cờ FirstLine chỉ ra rằng nó sẽ đủ để chỉ trả về dòng đầu tiên, nếu có lỗi giải mã trên các dòng sau.

Phương pháp nên sử dụng chiến lược đọc tham lam có nghĩa là nó nên đọc càng nhiều dữ liệu được phép trong định nghĩa của mã hóa và kích thước đã cho, ví dụ: Nếu các kết thúc mã hóa tùy chọn hoặc các điểm đánh dấu trạng thái có sẵn trên luồng, chúng cũng nên được đọc.

________ 264 (size = none, keepends = true) ¶(size=None, keepends=True)

Đọc một dòng từ luồng đầu vào và trả về dữ liệu được giải mã.

Kích thước, nếu được đưa ra, được truyền dưới dạng đối số kích thước cho phương thức luồng codecs.63.

Nếu Keepends là kết thúc dòng sai sẽ bị tước khỏi các dòng được trả về.

________ 266 (sizehint = none, keepends = true) ¶(sizehint=None, keepends=True)

Đọc tất cả các dòng có sẵn trên luồng đầu vào và trả về chúng dưới dạng danh sách các dòng.

Kết thúc dòng được triển khai bằng phương pháp codec từ ____ ____24 và được đưa vào các mục danh sách nếu Keepends là đúng.

sizehint, nếu được đưa ra, được truyền dưới dạng đối số kích thước cho phương thức luồng ____ ____263.

________ 218 ()()

Đặt lại các bộ đệm codec được sử dụng để giữ trạng thái nội bộ.

Gọi phương thức này phải đảm bảo rằng dữ liệu trên đầu ra được đưa vào trạng thái sạch cho phép nối thêm dữ liệu mới mà không phải hủy toàn bộ luồng để khôi phục trạng thái.

Ngoài các phương thức trên, encode1 cũng phải kế thừa tất cả các phương thức và thuộc tính khác từ luồng cơ bản.

StreamReader Đối tượng

Lớp encode2 là một lớp con của bytes91 và xác định các phương thức sau mà mọi đầu đọc luồng phải xác định để tương thích với sổ đăng ký codec Python.

Lớp ________ 2 ________ 257 (stream, error = 'nghiêm ngặt') ¶

Hàm tạo cho một ví dụ encode2.(stream, Reader, Writer, errors='strict')

Tất cả các đầu đọc luồng phải cung cấp giao diện cấu trúc này. Chúng được tự do thêm các đối số từ khóa bổ sung, nhưng chỉ những đối số được xác định ở đây được sử dụng bởi Cơ quan đăng ký codec Python.

Đối số luồng phải là một đối tượng giống như tệp mở để đọc văn bản hoặc dữ liệu nhị phân, khi phù hợp với codec cụ thể.

encode2 có thể thực hiện các sơ đồ xử lý lỗi khác nhau bằng cách cung cấp đối số từ khóa lỗi. Xem trình xử lý lỗi cho trình xử lý lỗi tiêu chuẩn mà codec luồng cơ bản có thể hỗ trợ.

Đối số lỗi sẽ được gán cho một thuộc tính cùng tên. Việc gán cho thuộc tính này cho phép chuyển đổi giữa các chiến lược xử lý lỗi khác nhau trong suốt vòng đời của đối tượng encode2.

Thiết kế sao cho người ta có thể sử dụng các chức năng nhà máy được trả về bởi hàm encode3 để xây dựng thể hiện.

Lớp ________ 2 ________ 284 (luồng, mã hóa, giải mã, người đọc, người viết, lỗi = 'nghiêm ngặt') ¶(stream, encode, decode, Reader, Writer, errors='strict')

Tạo một thể hiện codecs.4 thực hiện chuyển đổi hai chiều: mã hóa và giải mã hoạt động trên frontend & nbsp;-dữ liệu có thể hiển thị để gọi mã codecs.63 và codecs.51, trong khi người đọc và người viết làm việc trên phần phụ trợ & nbsp;-dữ liệu trong luồng.

Bạn có thể sử dụng các đối tượng này để thực hiện các chuyển đổi trong suốt, ví dụ, từ Latin-1 đến UTF-8 và trở lại.

Đối số luồng phải là một đối tượng giống như tệp.

Các đối số mã hóa và giải mã phải tuân thủ giao diện bytes91. Người đọc và người viết phải là các chức năng hoặc các lớp của nhà máy cung cấp các đối tượng của giao diện encode2 và encode1 tương ứng.

Xử lý lỗi được thực hiện theo cách tương tự như được xác định cho các độc giả và nhà văn luồng.

codecs.4 Các trường hợp xác định các giao diện kết hợp của các lớp encode2 và encode1. Họ thừa hưởng tất cả các phương thức và thuộc tính khác từ luồng cơ bản.

Mã hóa và Unicode¶

Các chuỗi được lưu trữ nội bộ dưới dạng chuỗi các điểm mã trong phạm vi ________ 294 ____________ 295. . Cũng như các codec khác, việc tuần tự hóa một chuỗi thành một chuỗi byte được gọi là mã hóa và tái tạo chuỗi từ chuỗi byte được gọi là giải mã. Có một loạt các codec tuần tự hóa văn bản khác nhau, có tính tập thể được gọi là mã hóa văn bản.PEP 393 for more details about the implementation.) Once a string object is used outside of CPU and memory, endianness and how these arrays are stored as bytes become an issue. As with other codecs, serialising a string into a sequence of bytes is known as encoding, and recreating the string from the sequence of bytes is known as decoding. There are a variety of different text serialisation codecs, which are collectivity referred to as text encodings.

Mã hóa văn bản đơn giản nhất (được gọi là codecs.96 hoặc codecs.97) ánh xạ các điểm mã 0 Phản255 đến byte ________ 298, ____________ 299, điều đó có nghĩa là một đối tượng chuỗi chứa các điểm mã trên encode00 có thể được mã hóa bằng codec này. Làm như vậy sẽ tăng một UnicodeEncodeError trông giống như sau (mặc dù các chi tiết của thông báo lỗi có thể khác nhau): encode02.

Có một nhóm mã hóa khác (cái gọi là mã hóa charmap) chọn một tập hợp con khác của tất cả các điểm mã Unicode và cách các điểm mã này được ánh xạ tới byte ________ 298. Để xem làm thế nào điều này được thực hiện chỉ đơn giản là mở, ví dụ: encode05 (là một mã hóa được sử dụng chủ yếu trên Windows). Có một hằng số chuỗi với 256 ký tự cho bạn thấy ký tự nào được ánh xạ theo giá trị byte nào.

Tất cả các mã hóa này chỉ có thể mã hóa 256 trong số 1114112 điểm được xác định trong Unicode. Một cách đơn giản và đơn giản có thể lưu trữ từng điểm mã Unicode, là lưu trữ từng điểm mã dưới dạng bốn byte liên tiếp. Có hai khả năng: lưu trữ các byte trong Big Endian hoặc Little Endian Order. Hai mã hóa này được gọi là encode06 và encode07 tương ứng. Nhược điểm của họ là nếu ví dụ: Bạn sử dụng encode06 trên một máy endian nhỏ, bạn sẽ luôn phải trao đổi byte khi mã hóa và giải mã. encode09 Tránh vấn đề này: Byte sẽ luôn ở trong sự tự nhiên. Khi các byte này được đọc bởi một CPU với một endianness khác, thì byte phải được hoán đổi mặc dù. Để có thể phát hiện tính cuối cùng của chuỗi byte encode10 hoặc encode09, có cái gọi là BOM (By Byte Order Mark Mark). Đây là ký tự Unicode encode12. Nhân vật này có thể được chuẩn bị cho mỗi chuỗi byte encode10 hoặc encode09. Phiên bản hoán đổi byte của ký tự này (encode15) là một nhân vật bất hợp pháp có thể không xuất hiện trong một văn bản Unicode. Vì vậy, khi ký tự đầu tiên trong chuỗi byte encode10 hoặc encode09 dường như là một encode18, các byte phải được hoán đổi khi giải mã. Thật không may, nhân vật encode12 có mục đích thứ hai là encode20: một nhân vật không có chiều rộng và không cho phép một từ được chia tách. Nó có thể, ví dụ: được sử dụng để đưa ra gợi ý cho một thuật toán dây chằng. Với Unicode 4.0 sử dụng encode12 làm encode20 đã được không dùng nữa (với encode23 (encode24) giả định vai trò này). Tuy nhiên, phần mềm Unicode vẫn phải có khả năng xử lý encode12 trong cả hai vai trò: Là một BOM, nó là một thiết bị để xác định bố cục lưu trữ của các byte được mã hóa và biến mất một khi chuỗi byte đã được giải mã thành một chuỗi; Là một encode26, nó là một nhân vật bình thường sẽ được giải mã như bất kỳ nhân vật nào khác.

Có một mã hóa khác có thể mã hóa toàn bộ các ký tự Unicode: UTF-8. UTF-8 là mã hóa 8 bit, có nghĩa là không có vấn đề gì với thứ tự byte trong UTF-8. Mỗi byte trong chuỗi Byte UTF-8 bao gồm hai phần: bit đánh dấu (các bit quan trọng nhất) và bit tải trọng. Các bit đánh dấu là một chuỗi từ 0 đến bốn bit encode27 theo sau là bit codecs.21. Các ký tự Unicode được mã hóa như thế này (với x là bit tải trọng, khi được ghép lại cho ký tự Unicode):

Phạm vi

Mã hóa

encode29 encode30

0xxxxxxx

encode31 encode32

110xxxxxx 10xxxxxxx

encode33 encode34

1110xxxx 10xxxxxx 10xxxxxxx

encode35 encode36

11110xxx 10xxxxxx 10xxxxxx 10xxxxxxx

Bit ít đáng kể nhất của ký tự Unicode là bit X ngoài cùng bên phải.

Vì UTF-8 là mã hóa 8 bit không cần BOM và bất kỳ ký tự encode12 nào trong chuỗi được giải mã (ngay cả khi nó là ký tự đầu tiên) được coi là encode38.

Nếu không có thông tin bên ngoài, không thể xác định đáng tin cậy nào mã hóa được sử dụng để mã hóa một chuỗi. Mỗi mã hóa Charmap có thể giải mã bất kỳ chuỗi byte ngẫu nhiên nào. Tuy nhiên, điều đó không thể xảy ra với UTF-8, vì các chuỗi byte UTF-8 có cấu trúc không cho phép các chuỗi byte tùy ý. Để tăng độ tin cậy mà mã hóa UTF-8 có thể được phát hiện, Microsoft đã phát minh ra một biến thể của UTF-8 (mà Python gọi encode39) cho chương trình Notepad của mình: trước bất kỳ ký tự Unicode nào được ghi vào tệp, UTF-8 BOM được mã hóa (trông giống như một chuỗi byte: encode40, encode41, encode42) được viết. Vì nó khá không thể, bất kỳ tệp được mã hóa Charmap nào cũng bắt đầu với các giá trị byte này (ví dụ: bản đồ để

Latin nhỏ chữ I với đường đi

Dấu ngoặc kép bên phải

Dấu hỏi đảo ngược

Trong ISO-8859-1), điều này làm tăng xác suất mã hóa encode43 có thể được đoán chính xác từ chuỗi byte. Vì vậy, ở đây BOM không được sử dụng để có thể xác định thứ tự byte được sử dụng để tạo chuỗi byte, nhưng là một chữ ký giúp đoán mã hóa. Khi mã hóa codec UTF-8-SIG sẽ viết encode40, encode41, encode42 là ba byte đầu tiên cho tệp. Khi giải mã encode43 sẽ bỏ qua ba byte đó nếu chúng xuất hiện dưới dạng ba byte đầu tiên trong tệp. Trong UTF-8, việc sử dụng BOM không được khuyến khích và thường nên tránh.

Mã hóa tiêu chuẩn

Python đi kèm với một số codec tích hợp, được triển khai dưới dạng hàm C hoặc với từ điển dưới dạng bảng ánh xạ. Bảng sau đây liệt kê các codec theo tên, cùng với một vài bí danh phổ biến và các ngôn ngữ mà mã hóa có thể được sử dụng. Cả danh sách các bí danh và danh sách các ngôn ngữ đều có nghĩa là toàn diện. Lưu ý rằng các lựa chọn thay thế chính tả chỉ khác nhau trong trường hợp hoặc sử dụng dấu gạch nối thay vì dấu gạch dưới cũng là bí danh hợp lệ; Do đó, ví dụ: encode48 là bí danh hợp lệ cho codec encode49.

Chi tiết triển khai CPYThon: Một số mã hóa phổ biến có thể bỏ qua bộ máy tra cứu Codecs để cải thiện hiệu suất. Các cơ hội tối ưu hóa này chỉ được CPython công nhận cho một bộ bí danh giới hạn (trường hợp không nhạy cảm) -ascii, UTF-16, UTF16, UTF-32, UTF32 và tương tự bằng cách sử dụng dấu gạch dưới thay vì dấu gạch ngang. Sử dụng các bí danh thay thế cho các mã hóa này có thể dẫn đến việc thực hiện chậm hơn. Some common encodings can bypass the codecs lookup machinery to improve performance. These optimization opportunities are only recognized by CPython for a limited set of (case insensitive) aliases: utf-8, utf8, latin-1, latin1, iso-8859-1, iso8859-1, mbcs (Windows only), ascii, us-ascii, utf-16, utf16, utf-32, utf32, and the same using underscores instead of dashes. Using alternative aliases for these encodings may result in slower execution.

Đã thay đổi trong phiên bản 3.6: Cơ hội tối ưu hóa được công nhận cho US-ASCII.Optimization opportunity recognized for us-ascii.

Nhiều bộ ký tự hỗ trợ cùng một ngôn ngữ. Chúng khác nhau ở các ký tự riêng lẻ (ví dụ: dấu hiệu Euro có được hỗ trợ hay không) và trong việc gán ký tự cho các vị trí mã. Đối với các ngôn ngữ châu Âu nói riêng, các biến thể sau đây thường tồn tại:

  • một mã ISO 8859

  • Trang mã Windows Windows, thường có nguồn gốc từ mã 8859, nhưng thay thế các ký tự điều khiển bằng các ký tự đồ họa bổ sung

  • Trang mã EBCDIC IBM

  • Trang mã PC IBM, tương thích ASCII

Codec

Bí danh

Ngôn ngữ

ascii

646, US-ASCII

Tiếng Anh

big5

BIG5-TW, CSBIG5

Truyền thống Trung Quốc

big5hkscs

BIG5-HKSCS, HKSCS

Truyền thống Trung Quốc

cp037

BIG5-HKSCS, HKSCS

Tiếng Anh

cp273

BIG5-TW, CSBIG5

Truyền thống Trung Quốc

BIG5-HKSCS, HKSCS

cp424

IBM037, IBM039

273, IBM273, CSIBM273

cp437

tiếng Đức

Tiếng Anh

cp500

BIG5-TW, CSBIG5

Truyền thống Trung Quốc

cp720

BIG5-HKSCS, HKSCS

cp737

IBM037, IBM039

cp775

IBM775

273, IBM273, CSIBM273

cp850

tiếng Đức

Truyền thống Trung Quốc

cp852

BIG5-HKSCS, HKSCS

IBM037, IBM039

cp855

273, IBM273, CSIBM273

tiếng Đức

cp856

273, IBM273, CSIBM273

cp857

tiếng Đức

Mới trong phiên bản 3.4.

cp858

EBCDIC-CP-HE, IBM424

Truyền thống Trung Quốc

cp860

BIG5-HKSCS, HKSCS

IBM037, IBM039

cp861

273, IBM273, CSIBM273

tiếng Đức

cp862

Mới trong phiên bản 3.4.

273, IBM273, CSIBM273

cp863

tiếng Đức

Mới trong phiên bản 3.4.

cp864

IBM864

BIG5-HKSCS, HKSCS

cp865

IBM037, IBM039

273, IBM273, CSIBM273

cp866

tiếng Đức

Mới trong phiên bản 3.4.

cp869

EBCDIC-CP-HE, IBM424

IBM037, IBM039

cp874

273, IBM273, CSIBM273

cp875

IBM037, IBM039

cp932

273, IBM273, CSIBM273

tiếng Đức

cp949

Mới trong phiên bản 3.4.

EBCDIC-CP-HE, IBM424

cp950

Tiếng Do Thái

Truyền thống Trung Quốc

cp1006

BIG5-HKSCS, HKSCS

cp1026

ibm1026

Mới trong phiên bản 3.4.

cp1125

EBCDIC-CP-HE, IBM424

Tiếng Do Thái

BIG5-HKSCS, HKSCS

cp1140

ibm1140

Truyền thống Trung Quốc

cp1250

windows-1250

Trung và Đông Âu

cp1251

windows-1251

Tiếng Bêl La, Byelorussian, người Macedonia, tiếng Nga

cp1252

windows-1252

Tây Âu

cp1253

windows-1253

người Hy Lạp

cp1254

windows-1254

Thổ Nhĩ Kỳ

cp1255

windows-1255

Tiếng Do Thái

cp1256

windows-1256

tiếng Ả Rập

cp1257

windows-1257

Ngôn ngữ Baltic

cp1258

windows-1258

Tiếng Việt

euc_jp

eucjp, ujis, u-jis

tiếng Nhật

euc_jis_2004

JISX0213, EUCJIS2004

tiếng Nhật

euc_jisx0213

eucjisx0213

tiếng Nhật

euc_kr

JISX0213, EUCJIS2004

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

gb2312

Hàn Quốc

Trung Quốc, CSISO58GB231280, EUC-CN, EUCCN, EUCGB2312-CN, GB2312-1980, GB2312-80, ISO-IR-58

Tiếng Trung giản thể

GBK

936, CP936, MS936

gb18030

gb18030-2000

936, CP936, MS936

Trung Quốc thống nhất

Hz

Trung Quốc, CSISO58GB231280, EUC-CN, EUCCN, EUCGB2312-CN, GB2312-1980, GB2312-80, ISO-IR-58

iso2022_jp

Tiếng Trung giản thể

tiếng Nhật

iso2022_jp_1

JISX0213, EUCJIS2004

tiếng Nhật

iso2022_jp_2

JISX0213, EUCJIS2004

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

iso2022_jp_2004

Hàn Quốc

tiếng Nhật

iso2022_jp_3

JISX0213, EUCJIS2004

tiếng Nhật

iso2022_jp_ext

JISX0213, EUCJIS2004

tiếng Nhật

iso2022_kr

JISX0213, EUCJIS2004

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

latin_1

Hàn Quốc

Tây Âu

iso8859_2

Trung Quốc, CSISO58GB231280, EUC-CN, EUCCN, EUCGB2312-CN, GB2312-1980, GB2312-80, ISO-IR-58

Trung và Đông Âu

iso8859_3

Tiếng Trung giản thể

GBK

iso8859_4

936, CP936, MS936

Ngôn ngữ Baltic

iso8859_5

Tiếng Việt

Tiếng Bêl La, Byelorussian, người Macedonia, tiếng Nga

iso8859_6

eucjp, ujis, u-jis

tiếng Ả Rập

iso8859_7

Ngôn ngữ Baltic

người Hy Lạp

iso8859_8

Tiếng Việt

Tiếng Do Thái

iso8859_9

tiếng Ả Rập

Thổ Nhĩ Kỳ

iso8859_10

Ngôn ngữ Baltic

Tiếng Việt

iso8859_11

eucjp, ujis, u-jis

tiếng Nhật

iso8859_13

JISX0213, EUCJIS2004

Ngôn ngữ Baltic

iso8859_14

Tiếng Việt

eucjp, ujis, u-jis

iso8859_15

tiếng Nhật

Tây Âu

iso8859_16

JISX0213, EUCJIS2004

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

Hàn Quốc

Trung Quốc, CSISO58GB231280, EUC-CN, EUCCN, EUCGB2312-CN, GB2312-1980, GB2312-80, ISO-IR-58

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

koi8_r

Hàn Quốc

koi8_t

Trung Quốc, CSISO58GB231280, EUC-CN, EUCCN, EUCGB2312-CN, GB2312-1980, GB2312-80, ISO-IR-58

Tiếng Trung giản thể

koi8_u

GBK

kz1048

936, CP936, MS936

Trung Quốc thống nhất

Tiếng Trung giản thể

mac_cyrillic

GBK

Tiếng Bêl La, Byelorussian, người Macedonia, tiếng Nga

mac_greek

936, CP936, MS936

người Hy Lạp

mac_iceland

Trung Quốc thống nhất

Hz

mac_latin2

HZGB, HZ-GB, HZ-GB-2312

Trung và Đông Âu

mac_roman

CSISO2022JP, ISO2022JP, ISO-2022-JP

Tây Âu

mac_turkish

ISO2022JP-1, ISO-2022-JP-1

Thổ Nhĩ Kỳ

ptcp154

ISO2022JP-2, ISO-2022-JP-2

Trung Quốc thống nhất

shift_jis

Hz

tiếng Nhật

shift_jis_2004

JISX0213, EUCJIS2004

tiếng Nhật

shift_jisx0213

JISX0213, EUCJIS2004

tiếng Nhật

utf_32

JISX0213, EUCJIS2004

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

utf_32_be

UTF-32BE

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

utf_32_le

UTF-32LE

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

utf_16

Hàn Quốc

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

utf_16_be

UTF-16BE

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

utf_16_le

UTF-16LE

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

utf_7

Hàn Quốc

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

utf_8

Hàn Quốc

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

utf_8_sig

Euckr, Hàn Quốc, KSC5601, KS_C-5601, KS_C-5601-1987, KSX1001, KS_X-1001

Hàn QuốcThe utf-16* and utf-32* encoders no longer allow surrogate code points (bytes43–bytes44) to be encoded. The utf-32* decoders no longer decode byte sequences that correspond to surrogate code points.

Trung Quốc, CSISO58GB231280, EUC-CN, EUCCN, EUCGB2312-CN, GB2312-1980, GB2312-80, ISO-IR-58encode52 is now an alias to encode53.

Tiếng Trung giản thể

GBK

936, CP936, MS936

Trung Quốc thống nhấtbytes-like object to codecs.9 decoding, similar to the Unicode text encodings.

Hz

HZGB, HZ-GB, HZ-GB-2312

CSISO2022JP, ISO2022JP, ISO-2022-JP

ISO2022JP-1, ISO-2022-JP-1

ISO2022JP-2, ISO-2022-JP-2RFC 3490, see also encode57. Only encode58 is supported.

Nhật Bản, Hàn Quốc, đơn giản hóa Trung Quốc, Tây Âu, Hy Lạp

ISO2022JP-2004, ISO-2022-JP-2004

ISO2022JP-3, ISO-2022-JP-3

ISO2022JP-ext, ISO-2022-JP-ext

csiso2022kr, iso2022kr, iso-2022-kr

ISO-8859-1, ISO8859-1, 8859, CP819, Latin, Latin1, L1

ISO-8859-2, Latin2, L2

ISO-8859-3, Latin3, L3

Esperanto, Malta

ISO-8859-4, Latin4, L4RFC 3492. Stateful codecs are not supported.

raw_unicode_escape

ISO-8859-5, Cyrillic

ISO-8859-6, tiếng Ả Rập

ISO-8859-7, Hy Lạp, Hy Lạp8

unicode_escape

ISO-8859-8, tiếng Do Thái

Đã thay đổi trong phiên bản 3.8: Codec của Unicode_Inodernal đã bị xóa.“unicode_internal” codec is removed.

BiTHER biến đổi nhị phân

Các codec sau đây cung cấp các biến đổi nhị phân: đối tượng giống như byte cho ánh xạ bytes. Chúng không được hỗ trợ bởi encode62 (chỉ tạo ra đầu ra codecs.9).bytes-like object to bytes mappings. They are not supported by encode62 (which only produces codecs.9 output).

Codec

Bí danh

Nghĩa

Bộ mã hóa / bộ giải mã

cơ sở64_codec 1

cơ sở64, base_64

Chuyển đổi toán hạng thành mime base64 multiline (kết quả luôn bao gồm một dấu vết UnicodeEncodeError6).

Thay đổi trong phiên bản 3.4: Chấp nhận bất kỳ đối tượng giống như byte nào làm đầu vào để mã hóa và giải mãaccepts any bytes-like object as input for encoding and decoding

encode65 / encode66

bz2_codec

bz2

Nén toán hạng bằng BZ2.

encode67 / encode68

hex_codec

Hex

Chuyển đổi toán hạng thành đại diện thập lục phân, với hai chữ số mỗi byte.

encode69 / encode70

quopri_codec

Quopri, trích dẫn có thể trích dẫn, trích dẫn_printable

Chuyển đổi toán hạng thành mime được trích dẫn có thể in.

encode71 với encode72 / encode73

uu_codec

uu

Chuyển đổi toán hạng bằng UUenCode.

encode74 / encode75

zlib_codec

Zip, Zlib

Nén toán hạng bằng GZIP.

encode76 / encode77

1

Ngoài các đối tượng giống như byte, encode78 cũng chấp nhận các trường hợp ASCII-chỉ của codecs.9 để giải mãbytes-like objects, encode78 also accepts ASCII-only instances of codecs.9 for decoding

Mới trong phiên bản 3.2: Phục hồi các biến đổi nhị phân.Restoration of the binary transforms.

Đã thay đổi trong phiên bản 3.4: Phục hồi các bí danh cho các biến đổi nhị phân.Restoration of the aliases for the binary transforms.

Transforms văn bản

Codec sau đây cung cấp một phép biến đổi văn bản: ánh xạ codecs.9 sang codecs.9. Nó không được hỗ trợ bởi encode82 (chỉ tạo ra đầu ra bytes).

Codec

Bí danh

Nghĩa

rot_13

rot13

Bộ mã hóa / bộ giải mã

cơ sở64_codec 1Restoration of the decode4 text transform.

cơ sở64, base_64Restoration of the encode85 alias.

Chuyển đổi toán hạng thành mime base64 multiline (kết quả luôn bao gồm một dấu vết UnicodeEncodeError6).

Thay đổi trong phiên bản 3.4: Chấp nhận bất kỳ đối tượng giống như byte nào làm đầu vào để mã hóa và giải mãRFC 3490 (Internationalized Domain Names in Applications) and RFC 3492 (Nameprep: A Stringprep Profile for Internationalized Domain Names (IDN)). It builds upon the encode86 encoding and encode87.

encode65 / encode66RFC 5891 and RFC 5895, use the third-party idna module.

Nén toán hạng bằng BZ2.

encode67 / encode68section 3.1 of RFC 3490 and converting each label to ACE as required, and conversely separating an input byte string into labels based on the encode91 separator and converting any ACE labels found into unicode. Furthermore, the encode92 module transparently converts Unicode host names to ACE, so that applications need not be concerned about converting host names themselves when they pass them to the socket module. On top of that, modules that have host names as function parameters, such as encode93 and encode94, accept Unicode host names (encode93 then also transparently sends an IDNA hostname in the field if it sends that field at all).

Hex

Chuyển đổi toán hạng thành đại diện thập lục phân, với hai chữ số mỗi byte.

encode69 / encode70(label)

Quopri, trích dẫn có thể trích dẫn, trích dẫn_printable

Chuyển đổi toán hạng thành mime được trích dẫn có thể in.(label)

encode71 với encode72 / encode73RFC 3490. 'strict'02 is assumed to be false.

uu(label)

Chuyển đổi toán hạng bằng UUenCode.RFC 3490.

encode74 / encode75

Zip, Zlib

Nén toán hạng bằng GZIP.: Windows only.

encode76 / encode77Support any error handler.

Ngoài các đối tượng giống như byte, encode78 cũng chấp nhận các trường hợp ASCII-chỉ của codecs.9 để giải mãBefore 3.2, the errors argument was ignored; bytes22 was always used to encode, and bytes20 to decode.

mã hóa.utf_8_sig-codec UTF-8 với chữ ký BOM

Mô-đun này thực hiện một biến thể của codec UTF-8.Khi mã hóa, BOM được mã hóa UTF-8 sẽ được chuẩn bị cho UTF-8 được mã hóa byte.Đối với bộ mã hóa trạng thái, điều này chỉ được thực hiện một lần (trên lần ghi đầu tiên vào luồng byte).Khi giải mã, một BOM được mã hóa UTF-8 tùy chọn khi bắt đầu dữ liệu sẽ bị bỏ qua.