Utf-8: Bộ mã hoá ký tự cho Unicode

UTF-8 (8-bit Unicode Transformation Format - Định dạng chuyển đổi Unicode 8-bit) là một bộ mã hóa ký tự với chiều rộng biến thiên dành cho Unicode.

Tương tự như UTF-16 và UTF-32, UTF-8 có thể biểu diễn tất cả các chữ cái trong bộ ký tự Unicode, nhưng điểm khác biệt quan trọng nhất là nó có thể tương thích ngược với ASCII. Vì lý do này, UTF-8 nhanh chóng trở thành bộ mã hóa thống trị trong các tập tin, thư điện tử, trang web, và các phần mềm xử lý văn bản.

UTF-8 mã hóa mỗi ký tự (điểm mã) thành 1 đến 8 octet (tức là byte gồm 8-bit). 128 ký tự đầu tiên của bộ ký tự Unicode (tương ứng một-một với bộ ASCII) chỉ dùng một octet có cùng giá trị nhị phân như bộ ASCII.

Lực lượng Chuyên trách về Kỹ thuật Liên mạng (Internet Engineering Task Force - IETF) bắt buộc mọi giao thức Internet phải xác định bộ mã hóa dùng trong dữ liệu ký tự, và trong các bộ mã hóa ký tự hỗ trợ phải có UTF-8. Liên minh Thư tín Internet (Internet Mail Consortium - IMC) khuyến cáo tất cả các chương trình thư điện tử phải hiển thị và tạo được thư bằng UTF-8.

Lịch sử

Cho đến đầu năm 1992, người ta vẫn đang tìm kiếm một bộ mã hóa thành byte cho các tập ký tự có nhiều byte. Tiêu chuẩn ISO 10646 ở dạng nháp có một phần phụ không bắt buộc có tên là UTF cung cấp một cách mã hóa ra dạng byte cho các điểm mã 32-bit của nó. Cách mã hóa này không tốt về mặt hiệu suất, nhưng đã giới thiệu cách ký hiệu ở dạng byte trong dải 0–127 của ASCII theo UTF, từ đó tạo ra khả năng tương thích ngược.

Vào tháng 7 năm 1992, ủy bản XoJIG của X/Open bắt đầu tìm kiếm một cách mã hóa tốt hơn. Dave Prosser thuộc Phòng thí nghiệm Hệ thống Unix đề xuất một cách mã hóa có đặc tính hiện thực nhanh hơn và giới thiệu cải tiến sao cho các ký tự ASCII 7-bit chỉ đại diện cho chính chúng; còn mọi chuỗi nhiều byte khác sẽ chỉ thêm các byte có bit cao bằng 1.

Vào tháng 8 năm 1992, đề xuất này đã được đại diện của IBM X/Open chuyển giao cho các bên có quan tâm. Ken Thompson thuộc nhóm hệ điều hành Plan 9 tại Bell Labs sau đó đã thực hiện một chỉnh sửa quan trọng cho bộ mã hóa, cho phép nó tự đồng bộ, tức là, không cần phải đọc từ đầu dãy để tìm các biên điểm mã nữa. Thiết kế của Thompson được mô tả tổng quan vào ngày 2 tháng 9 năm 1992 trong bữa ăn với Rob Pike. Những ngày sau, Pike và Thompson hiện thực nó và cập nhật Plan 9 để sử dụng nó rộng rãi, rồi thông báo thành công của họ lại cho X/Open.

UTF-8 lần đầu tiên được giới thiệu chính thức là tại hội nghị USENIX ở San Diego, diễn ra từ ngày 25-29 tháng 1 năm 1993.

Chú thích

Tags:

ASCIIBitBiên mã kí tựPhần mềm ứng dụngThư điện tửUnicodeWebsite

🔥 Trending searches on Wiki Tiếng Việt:

Cà MauYĐài Truyền hình Việt NamThượng HảiThám tử lừng danh ConanChủ nghĩa khắc kỷChiến tranh Nguyên Mông – Đại ViệtMười hai con giápNgân hàng thương mại cổ phần Quân độiCúp bóng đá trong nhà châu Á 2022Tiền GiangThanh gươm diệt quỷNguyễn Chí ThanhHoàng tử béKim Bình MaiXung đột Israel–PalestineRunning Man (chương trình truyền hình)Võ Thị Ánh XuânPhạm Phương Thảo (ca sĩ)Cục An ninh mạng và phòng, chống tội phạm sử dụng công nghệ caoĐội tuyển bóng đá trong nhà quốc gia Việt NamNgân hàng Thương mại cổ phần Đầu tư và Phát triển Việt NamThời bao cấpTín ngưỡng thờ Mẫu Việt NamBlackpinkBà Rịa – Vũng TàuViệt Nam Dân chủ Cộng hòaXVideosCampuchiaHKT (nhóm nhạc)Lê Đức ThọNorthrop Grumman B-2 SpiritCông an thành phố Hải PhòngLiếm âm hộBTSTư Mã ÝBan Chấp hành Trung ương Đảng Cộng sản Việt NamElon MuskHoàng Văn HoanPhổ NghiLiên Hợp QuốcDanh sách phim điện ảnh Thám tử lừng danh ConanLương Tam QuangDanh sách vườn quốc gia tại Việt NamNhà bà NữEFL ChampionshipCộng hòa Dân chủ Nhân dân Triều TiênCục Cảnh sát điều tra tội phạm về tham nhũng, kinh tế, buôn lậuTrái ĐấtDanh sách di sản thế giới tại Việt NamCác vị trí trong bóng đáTình yêuThế hệ ZKim LânÔ nhiễm môi trườngĐộng đấtVụ án Thiên Linh CáiLe SserafimNguyễn Xuân ThắngThủy triềuA.S. RomaChu vi hình trònHốt Tất LiệtKinh Dương vươngNgười một nhàXử Nữ (chiêm tinh)Tết Nguyên ĐánChợ Bến ThànhGia KhánhNguyễn Trung TrựcDeclan RiceChữ Quốc ngữDanh sách đảo Việt NamCách mạng Tháng TámChân Hoàn truyệnBiểu tình Thái Bình 1997Tranh Đông HồNhà HồPhú Quốc🡆 More