Lập trình Web ASP với tiếng Việt Unicode
Số trang: 6
Loại file: pdf
Dung lượng: 178.10 KB
Lượt xem: 21
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
LẬP TRÌNH WEB ASP VỚI TIẾNG VIỆT UNICODE
Một số khái niệm căn bản về biểu diễn kí tự bên trong máy tính 1.1. Khái niệm về điểm mã, đơn vị mã, bảng mã Về mặt bản chất, máy tính chỉ làm việc với các con số, do đó để biểu diễn các kí tự trên máy tính cần phải có một qui ước nhất quán giữa các kí tự cần biểu diễn và các con số tương ứng mà máy tính xử lí. Qui ước này được thể hiện qua các bước sau: Chọn tập các kí tự cần mã...
Nội dung trích xuất từ tài liệu:
Lập trình Web ASP với tiếng Việt Unicode LẬP TRÌNH WEB ASP VỚI TIẾNG VIỆT UNICODE Lê Đình Duy Khoa CNTT - ĐHKHTN Tp. HCM ldduy@fit.hcmuns.edu.vn 08.2002 1. Một số khái niệm căn bản về biểu diễn kí tự bên trong máy tính 1.1. Khái niệm về điểm mã, đơn vị mã, bảng mã Về mặt bản chất, máy tính chỉ làm việc với các con số, do đó để biểu diễn các kí tự trên máy tính cần phải có một qui ước nhất quán giữa các kí tự cần biểu diễn và các con số tương ứng mà máy tính xử lí. Qui ước này được thể hiện qua các bước sau: - Chọn tập các kí tự cần mã hóa (character set). - Gán cho mỗi kí tự cần mã hóa một giá trị nguyên không âm, gọi là điểm mã (code point). - Chuyển các điểm mã thành dãy các đơn vị mã (code units) để cho phục vụ cho việc lưu trữ và mã hóa. Một đơn vị mã là một đơn vị của bộ nhớ, có thể là 8, 16, hay 32 bit. Các điểm mã không nhất thiết phải có cùng số đơn vị mã. Tập hợp những điểm mã của một tập các kí tự được gọi là một trang mã (code page) hay còn gọi là bảng mã hay bộ mã. Như vậy khi nói về một bảng mã, chúng ta quan tâm đến hai điều chính, số lượng các kí tự được mã hóa, và cách mã hóa chúng thành các đơn vị mã. Lấy ví dụ bảng mã ASCII, tập kí tự cần mã hóa có 128 kí tự bao gồm các kí tự tiếng Anh, kí tự số, kí tự tiền tệ Anh, Mỹ và các kí tự điều khiển hệ thống ngoại vi. Các điểm mã có giá trị nằm trong khoảng từ 0-127. Mỗi điểm mã được mã hóa bằng đúng một đơn vị mã 8 bit, có nghĩa là đúng một byte. Việc quyết định chọn cách mã hóa như thế nào sẽ quyết định số lượng kí tự được mã hóa. Ví dụ, nếu chọn cách mã hóa các điểm mã bằng đúng một đơn vị mã 8-bit thì số lượng điểm mã của một bảng mã (tạm gọi là bảng mã 8 bit) chỉ có thể tối đa là 256. Do bảng mã ASCII không đủ để biểu diễn các kí tự của các ngôn ngữ khác, ví dụ như tiếng Việt, nên Microsoft đã nới rộng bảng mã ASCII bằng cách sử dụng 128 điểm mã có giá trị từ 128-255 để mã hóa cho các kí tự ngoài ASCII này. Tuy nhiên do chỉ có 128 điểm mã, trong khi số lượng các kí tự của các ngôn ngữ khác nhiều hơn, nên Microsoft đã tạo ra nhiều bảng mã khác nhau cho từng loại ngôn ngữ [1]. Ví dụ: code page 1250 1251 1252 1253 1254 1258 etc., upper Eastern Europe Cyrillic West Euro Greek Turkish Vietnamese etc., 128 ANSI lower ASCII ASCII ASCII ASCII ASCII ASCII etc., 128 Tuy nhiên trong từng bảng mã này, không phải tất cả các kí tự của một ngôn ngữ đều có trong bảng mã. Hay nói chính xác hơn là không phải tất cả các kí tự đều được biểu diễn bằng duy nhất một điểm mã. Lấy ví dụ tiếng Việt chúng ta có 134 kí tự tổ hợp từ 28 chữ cái và 5 dấu thanh. Do chỉ có 128 điểm mã nên bảng mã windows-1258 dành cho tiếng Việt biểu diễn một số kí tự thành hai điểm mã liên tiếp, một điểm mã dành cho kí tự cơ sở và một điểm mã dành cho dấu thanh. Ví dụ: kí tự “ế” được biểu diễn bằng hai điểm mã 1 tương ứng với các kí tự ê và kí tự dấu sắc: ế = ê + ́ . Cách biểu diễn như vậy được gọi là cách biểu diễn tách rời (decomposed) mà thuật ngữ chúng ta hay gọi là tổ hợp. Bảng mã TCVN3-ABC dùng 134 điểm mã để biểu diễn hết các kí tự tiếng Việt, chính điều này đã dẫn đến phải sử dụng một số điểm mã của bảng mã ASCII. Đây chính là lí do mà các trang web sử dụng bảng mã này không hiển thị được kí tự ư trong các trình duyệt Internet Explorer 5.0 trở lên. Cách biểu diễn như vậy được gọi là cách biểu diễn kết hợp sẵn (precomposed) mà thuật ngữ chúng ta hay gọi là dựng sẵn. 1.2. Bảng mã Unicode Về mặt bản chất các bảng mã trên của Windows là bảng mã 8-bit, nghĩa là mỗi điểm mã được mã hóa bằng đúng một đơn vị mã 8-bit. Chính điều này đã giới hạn số lượng các các kí tự được mã chỉ là 256. Do đó trong một văn bản không thể cùng hiển thị nhiều kí tự của các ngôn ngữ khác nhau được. Unicode ra đời nhằm thống nhất chung các kí tự của mọi ngôn ngữ trong một bảng mã duy nhất [2]. Hai vấn đề nên lưu ý khi đề cập đến thuật ngữ Unicode đó là: - Tập kí tự mà Unicode biểu diễn: ở đây muốn nói đến tập kí tự và cách ánh xạ các kí tự bằng các điểm mã tương ứng. - Cách mã hóa các điểm mã thành các đơn vị mã. Unicode dùng 16 bit để biểu diễn các điểm mã, do đó nó có thể biểu diễn được đến 65,536 kí tự có điểm mã nằm trong khoảng từ 0-65,535. Do vậy với Unicode người ta có thể biểu diễn được hầu hết các kí tự của các ngôn ngữ. Cách đơn giản nhất để mã hóa các kí tự Unicode là biểu diễn mỗi điểm mã bằng đúng một đơn vị mã 16-bit. Đây chính là cách mã hóa nguyên thủy của Unicode trong phiên bản 2.0 được ISO/IEC chuẩn hóa thành ISO/IEC 10646 hay còn gọi là UCS-2. Tuy nhiên, để tương thích với các hệ thống xử lí trước khi Unicode ra đời cũng như tối ưu hóa trong quá trình lưu trữ và truyền dữ liệu, người ta dùng các cách khác nhau để mã hóa các điểm mã thành các đơn vị mã. Mỗi cách mã hóa như vậy được gọi là một dạng biến đổi của Unicode (UTF – Unicode Transformation Format). Thông dụng nhất hiện nay là UTF-8 và UTF-16 dùng dãy các đơn vị mã có độ dài khác nhau để mã hóa các điểm mã. UTF-8 dùng 1 đến 4 đơn vị mã 8-bit trong khi UTF-16 dùng 1 đến 2 đơn vị mã 16-bit để mã hóa. Ví dụ sau minh họa cách mã hóa của UTF-8: - 128 kí tự đầu tiên của Unicode từ điểm mã U+0000 đến U+007F, được mã hóa thành 1 byte. - Từ điểm mã U+0080 đến U+07FF, được mã hóa thành 2 byte. - Từ điểm mã U+0800 đến U+FFFF, được mã hóa thành 3 byte. - Từ điểm mã U+0800 đến U+FFFF, được mã hóa thành 4 byte. Như vậy khi đề cập đến Unicode trong lập trình, cần phải xác định rõ chúng ta dùng bảng mã Unicode theo dạng biến đổi nào: UCS-2, UTF ...
Nội dung trích xuất từ tài liệu:
Lập trình Web ASP với tiếng Việt Unicode LẬP TRÌNH WEB ASP VỚI TIẾNG VIỆT UNICODE Lê Đình Duy Khoa CNTT - ĐHKHTN Tp. HCM ldduy@fit.hcmuns.edu.vn 08.2002 1. Một số khái niệm căn bản về biểu diễn kí tự bên trong máy tính 1.1. Khái niệm về điểm mã, đơn vị mã, bảng mã Về mặt bản chất, máy tính chỉ làm việc với các con số, do đó để biểu diễn các kí tự trên máy tính cần phải có một qui ước nhất quán giữa các kí tự cần biểu diễn và các con số tương ứng mà máy tính xử lí. Qui ước này được thể hiện qua các bước sau: - Chọn tập các kí tự cần mã hóa (character set). - Gán cho mỗi kí tự cần mã hóa một giá trị nguyên không âm, gọi là điểm mã (code point). - Chuyển các điểm mã thành dãy các đơn vị mã (code units) để cho phục vụ cho việc lưu trữ và mã hóa. Một đơn vị mã là một đơn vị của bộ nhớ, có thể là 8, 16, hay 32 bit. Các điểm mã không nhất thiết phải có cùng số đơn vị mã. Tập hợp những điểm mã của một tập các kí tự được gọi là một trang mã (code page) hay còn gọi là bảng mã hay bộ mã. Như vậy khi nói về một bảng mã, chúng ta quan tâm đến hai điều chính, số lượng các kí tự được mã hóa, và cách mã hóa chúng thành các đơn vị mã. Lấy ví dụ bảng mã ASCII, tập kí tự cần mã hóa có 128 kí tự bao gồm các kí tự tiếng Anh, kí tự số, kí tự tiền tệ Anh, Mỹ và các kí tự điều khiển hệ thống ngoại vi. Các điểm mã có giá trị nằm trong khoảng từ 0-127. Mỗi điểm mã được mã hóa bằng đúng một đơn vị mã 8 bit, có nghĩa là đúng một byte. Việc quyết định chọn cách mã hóa như thế nào sẽ quyết định số lượng kí tự được mã hóa. Ví dụ, nếu chọn cách mã hóa các điểm mã bằng đúng một đơn vị mã 8-bit thì số lượng điểm mã của một bảng mã (tạm gọi là bảng mã 8 bit) chỉ có thể tối đa là 256. Do bảng mã ASCII không đủ để biểu diễn các kí tự của các ngôn ngữ khác, ví dụ như tiếng Việt, nên Microsoft đã nới rộng bảng mã ASCII bằng cách sử dụng 128 điểm mã có giá trị từ 128-255 để mã hóa cho các kí tự ngoài ASCII này. Tuy nhiên do chỉ có 128 điểm mã, trong khi số lượng các kí tự của các ngôn ngữ khác nhiều hơn, nên Microsoft đã tạo ra nhiều bảng mã khác nhau cho từng loại ngôn ngữ [1]. Ví dụ: code page 1250 1251 1252 1253 1254 1258 etc., upper Eastern Europe Cyrillic West Euro Greek Turkish Vietnamese etc., 128 ANSI lower ASCII ASCII ASCII ASCII ASCII ASCII etc., 128 Tuy nhiên trong từng bảng mã này, không phải tất cả các kí tự của một ngôn ngữ đều có trong bảng mã. Hay nói chính xác hơn là không phải tất cả các kí tự đều được biểu diễn bằng duy nhất một điểm mã. Lấy ví dụ tiếng Việt chúng ta có 134 kí tự tổ hợp từ 28 chữ cái và 5 dấu thanh. Do chỉ có 128 điểm mã nên bảng mã windows-1258 dành cho tiếng Việt biểu diễn một số kí tự thành hai điểm mã liên tiếp, một điểm mã dành cho kí tự cơ sở và một điểm mã dành cho dấu thanh. Ví dụ: kí tự “ế” được biểu diễn bằng hai điểm mã 1 tương ứng với các kí tự ê và kí tự dấu sắc: ế = ê + ́ . Cách biểu diễn như vậy được gọi là cách biểu diễn tách rời (decomposed) mà thuật ngữ chúng ta hay gọi là tổ hợp. Bảng mã TCVN3-ABC dùng 134 điểm mã để biểu diễn hết các kí tự tiếng Việt, chính điều này đã dẫn đến phải sử dụng một số điểm mã của bảng mã ASCII. Đây chính là lí do mà các trang web sử dụng bảng mã này không hiển thị được kí tự ư trong các trình duyệt Internet Explorer 5.0 trở lên. Cách biểu diễn như vậy được gọi là cách biểu diễn kết hợp sẵn (precomposed) mà thuật ngữ chúng ta hay gọi là dựng sẵn. 1.2. Bảng mã Unicode Về mặt bản chất các bảng mã trên của Windows là bảng mã 8-bit, nghĩa là mỗi điểm mã được mã hóa bằng đúng một đơn vị mã 8-bit. Chính điều này đã giới hạn số lượng các các kí tự được mã chỉ là 256. Do đó trong một văn bản không thể cùng hiển thị nhiều kí tự của các ngôn ngữ khác nhau được. Unicode ra đời nhằm thống nhất chung các kí tự của mọi ngôn ngữ trong một bảng mã duy nhất [2]. Hai vấn đề nên lưu ý khi đề cập đến thuật ngữ Unicode đó là: - Tập kí tự mà Unicode biểu diễn: ở đây muốn nói đến tập kí tự và cách ánh xạ các kí tự bằng các điểm mã tương ứng. - Cách mã hóa các điểm mã thành các đơn vị mã. Unicode dùng 16 bit để biểu diễn các điểm mã, do đó nó có thể biểu diễn được đến 65,536 kí tự có điểm mã nằm trong khoảng từ 0-65,535. Do vậy với Unicode người ta có thể biểu diễn được hầu hết các kí tự của các ngôn ngữ. Cách đơn giản nhất để mã hóa các kí tự Unicode là biểu diễn mỗi điểm mã bằng đúng một đơn vị mã 16-bit. Đây chính là cách mã hóa nguyên thủy của Unicode trong phiên bản 2.0 được ISO/IEC chuẩn hóa thành ISO/IEC 10646 hay còn gọi là UCS-2. Tuy nhiên, để tương thích với các hệ thống xử lí trước khi Unicode ra đời cũng như tối ưu hóa trong quá trình lưu trữ và truyền dữ liệu, người ta dùng các cách khác nhau để mã hóa các điểm mã thành các đơn vị mã. Mỗi cách mã hóa như vậy được gọi là một dạng biến đổi của Unicode (UTF – Unicode Transformation Format). Thông dụng nhất hiện nay là UTF-8 và UTF-16 dùng dãy các đơn vị mã có độ dài khác nhau để mã hóa các điểm mã. UTF-8 dùng 1 đến 4 đơn vị mã 8-bit trong khi UTF-16 dùng 1 đến 2 đơn vị mã 16-bit để mã hóa. Ví dụ sau minh họa cách mã hóa của UTF-8: - 128 kí tự đầu tiên của Unicode từ điểm mã U+0000 đến U+007F, được mã hóa thành 1 byte. - Từ điểm mã U+0080 đến U+07FF, được mã hóa thành 2 byte. - Từ điểm mã U+0800 đến U+FFFF, được mã hóa thành 3 byte. - Từ điểm mã U+0800 đến U+FFFF, được mã hóa thành 4 byte. Như vậy khi đề cập đến Unicode trong lập trình, cần phải xác định rõ chúng ta dùng bảng mã Unicode theo dạng biến đổi nào: UCS-2, UTF ...
Tìm kiếm theo từ khóa liên quan:
công nghệ thông tin kỹ thuật máy tính lập trình quản trị mạng tin học vi tính Lập trình Web ASP với tiếng Việt UnicodeTài liệu có liên quan:
-
52 trang 468 1 0
-
24 trang 370 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 367 0 0 -
96 trang 335 0 0
-
74 trang 329 0 0
-
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 321 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 321 1 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 304 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 303 0 0 -
Giáo trình Hệ thống mạng máy tính CCNA (Tập 4): Phần 2
102 trang 299 0 0