Giáo Trình Mạng Máy Tính: Vấn đề Số Hóa Thông Tin - VOER

Số hóa văn bản

Mã Morse

Hệ thống mã hóa đầu tiên liên quan đến văn bản là hệ thống mã Morse, được sử dụng rộng rãi trước khi có máy tính. Đây là một bộ mã nhị phân sử dụng 2 ký tự chấm (.) và gạch (-) để số hóa văn bản (có thể xem tương đương với các bit 0 và 1).

Tuy nhiên nó có nhiều điểm bất lợi sau:

  • Nghèo nàn: ít các ký tự được mã hóa;
  • Nó sử dụng sự phối hợp của các dấu gạch và dấu chấm với độ dài khác nhau, điều này không được tiện lợi đặc biệt cho các ký tự có tần suất xuất hiện giống nhau.

Chính vì thế nó không được dùng để số hóa thông tin.

Nếu chúng ta qui định rằng số bit dùng để mã hóa cho một ký tự phải bằng nhau thì với p bit ta có thể mã hóa cho 2p ký tự. Hệ thống mã hóa như thế đã được dùng trong quá khứ.

Ví dụ :

5 bit: dùng trong hệ thống ATI (Alphabet Télégraphique International)

7 bit : gọi là mã ASCII (American Standard Code for Informatics Interchange) được dùng rộng rãi trong máy tính.

Mã ASCII chuẩn

Bảng mã này có cả các ký tự không in được gọi là các ký tự điều khiển được dùng để tạo ra các tác vụ trên các thiết bị tin học hay dùng để điều khiển thông tin truyền tải.

Bảng mã 8 bits: có mã ASCII mở rộng và mã EBCDIC

Vì máy tính lưu thông tin dưới dạng các byte 8 bit nên khi sử dụng mã ASCII 7 bít thì bit có trọng số lớn nhất (vị trí thứ 7) luôn có giá trị là 0. Chúng ta có thể sử dụng bit này để định nghĩa các ký tự đặc biệt bằng cách đặt nó giá trị 1. Và như thế chúng ta có một bảng mã ASCII mở rộng. Tuy nhiên, điều này sẽ dẫn đến việc tồn tại nhiều bảng mã ASCII mở rộng khác nhau làm khó khăn trong việc trao đổi thông tin trên phạm vi toàn thế giới.

Mã EBCDIC dùng 8 bits để mã hóa nhờ đó có thể thể hiện được 256 ký tự. Nó được sử dụng trong các máy tính IBM. Tuy nhiên nó không thông dụng như mã ASCII.

Mã 16 bits : Mã Unicode

Mã này được phát triển gần đây để thỏa mãn nhu cầu trao đổi thông tin giữa những người dùng Web. Nó mã hóa hầu hết tất cả các ký tự của các ngôn ngữ trên thế giới. Nó tương thích với mã ASCII 7 bits ở 127 ký tự đầu tiên. Hiện nay mã Unicode bắt đầu được sử dụng rộng rãi.

Từ khóa » để Mã Hóa Thông Tin Bộ Unicode Dùng