Thông Tin Và Biểu Diễn Thông Tin - Biểu Diễn Dữ Liệu Trong Máy Tính

I.1. Thông tin và biểu diễn thông tin (5T lý thuyết)

I.1.2. Biểu diễn dữ liệu trong máy tính (4T lý thuyết)

I.1.2.1. Biểu diễn số trong các hệ đếm

Hệ đếm là tập hợp các ký hiệu và qui tắc sử dụng tập ký hiệu đó để biểu diễn và xác định các giá trị các số. Mỗi hệ đếm có một số ký số (digits) hữu hạn. Tổng số ký số của mỗi hệ đếm được gọi là cơ số (base hay radix), ký hiệu là b.

a. Hệ đếm cơ số b

Hệ đếm cơ số b (b ≥ 2 và nguyên dương) mang tính chất sau :

    • Có b ký số để thể hiện giá trị số. Ký số nhỏ nhất là 0 và lớn nhất là b-1.
    • Giá trị vị trí thứ n trong một số của hệ đếm bằng cơ số b lũyũy thừa n: bn
    • Số N(b) trong hệ đếm cơ số (b) được biểu diễn bởi:

trong đó, số N(b) n+1 ký số biểu diễn cho phần nguyên và m ký số lẻ biểu diễn cho phần b_phân, và có giá trị là:

Trong ngành toán - tin học hiện nay phổ biến 4 hệ đếm là hệ thập phân, hệ nhị phân, hệ bát phân và hệ thập lục phân.

b. Hệ đếm thập phân (Decimal system, b=10)

Hệ đếm thập phân hay hệ đếm cơ số 10 là một trong các phát minh của người Ả rập cổ, bao gồm 10 ký số theo ký hiệu sau:

0, 1, 2, 3, 4, 5, 6, 7, 8, 9

Qui tắc tính giá trị của hệ đếm này là mỗi đơn vị ở một hàng bất kỳ có giá trị bằng 10 đơn vị của hàng kế cận bên phải. Ở đây b=10. Bất kỳ số nguyên dương trong hệ thập phân có thể biểu diễn như là một tổng các số hạng, mỗi số hạng là tích của một số với 10 lũy thừa, trong đó số mũ lũy thừa được tăng thêm 1 đơn vị kể từ số mũ lũy thừa phía bên phải nó. Số mũ lũy thừa của hàng đơn vị trong hệ thập phân là 0.

Ví dụ: Số 5246 có thể được biểu diễn như sau:

5246 = 5 x 103 + 2 x 102 + 4 x 101 + 6 x 100

= 5 x 1000 + 2 x 100 + 4 x 10 + 6 x 1

Thể hiện như trên gọi là ký hiệu mở rộng của số nguyên vì

5246 = 5000 + 200 + 40 + 6

Như vậy, trong số 5246 : ký số 6 trong số nguyên đại diện cho giá trị 6 đơn vị (1s), ký số 4 đại diện cho giá trị 4 chục (10s), ký số 2 đại diện cho giá trị 2 trăm (100s) và ký số 5 đại diện cho giá trị 5 ngàn (1000s). Nghĩa là, số lũy thừa của 10 tăng dần 1 đơn vị từ trái sang phải tương ứng với vị trí ký hiệu số,

100 = 1 101 = 10 102 = 100 103 = 1000 104 = 10000 ...

Mỗi ký số ở thứ tự khác nhau trong số sẽ có giá trị khác nhau, ta gọi là giá trị vị trí (place value).

Phần thập phân trong hệ thập phân sau dấu chấm phân cách thập phân (theo qui ước của Mỹ) thể hiện trong ký hiệu mở rộng bởi 10 lũy thừa âm tính từ phải sang trái kể từ dấu chấm phân cách:

101101−= 1011002−= 10110003−= ...

Ví dụ: 254.68 = 2 x 102 + 5 x 101 + 4 x 100 + 6 x 10-1 + 8 x 10-2

c. Hệ đếm nhị phân (Binary system, b=2)

Với cơ số b=2, chúng ta có hệ đếm nhị phân. Đây là hệ đếm đơn giản nhất với 2 chữ số là 0 và 1. Mỗi chữ số nhị phân gọi là BIT (viết tắt từ chữ BInary digiT). Vì hệ nhị phân chỉ có 2 trị số là 0 và 1, nên khi muốn diễn tả một số lớn hơn, hoặc các ký tự phức tạp hơn thì cần kết hợp nhiều bit với nhau. Ta có thể chuyển đổi số trong hệ nhị phân sang số trong hệ thập phân quen thuộc.

Ví dụ: Số 11101.11(2) sẽ tương đương với giá trị thập phân là :

d. Hệ đếm bát phân (Octal system, b=8)

Nếu dùng 1 tập hợp 3 bit thì có thể biểu diễn 8 trị khác nhau : 000, 001, 010, 011, 100, 101, 110, 111. Các trị này tương đương với 8 trị trong hệ thập phân là 0, 1, 2, 3, 4, 5, 7. Tập hợp các chữ số này gọi là hệ bát phân, là hệ đếm với b = 8 = 23. Trong hệ bát phân, trị vị trí là lũy thừa của 8.

Ví dụ:

235 . 64(8) = 2x82 + 3x81 + 5x80 + 6x8-1 + 4x8-2 = 157. 8125(10)

e. Hệ đếm thập lục phân (Hexa-decimal system, b=16)

Hệ đếm thập lục phân là hệ cơ số b=16 = 24, tương đương với tập hợp 4 chữ số nhị phân (4 bit). Khi thể hiện ở dạng hexa-decimal, ta có 16 ký tự gồm 10 chữ số từ 0 đến 9, và 6 chữ in A, B, C, D, E, F để biểu diễn các giá trị số tương ứng là 10, 11, 12, 13, 14, 15. Với hệ thập lục phân, trị vị trí là lũy thừa của 16.

Ví dụ:

34F5C(16) = 3x164 + 4x163 + 15x162 + 5x161 + 12x160 = 216294(10)

Ghi chú: Một số ngôn ngữ lập trình qui định viết số hexa phải có chữ H ở cuối chữ số. Ví dụ: Số 15 viết là FH.

f. Chuyển đổi một số từ hệ thập phân sang hệ đếm cơ số b

Đổi phần nguyên từ hệ thập phân sang hệ b

Tổng quát: Lấy số nguyên thập phân N(10) lần lượt chia cho b cho đến khi thương số bằng 0. Kết quả số chuyển đổi N(b) là các dư số trong phép chia viết ra theo thứ tự ngược lại.. Ví dụ: Số 12(10) = ?(2). Dùng phép chia cho 2 liên tiếp, ta có một loạt các số dư như sau:

Đổi phần thập phân từ hệ thập phân sang hệ cơ số b

Tổng quát: Lấy phần thập phân N(10) lần lượt nhân với b cho đến khi phần thập phân của tích số bằng 0. Kết quả số chuyển đổi N(b) là các số phần nguyên trong phép nhân viết ra theo thứ tự tính toán.

I.1.2.2. Biểu diễn dữ liệu trong máy tính và đơn vị thông tin

a. Nguyên tắc chung

Thông tin và dữ liệu mà con người hiểu được tồn tại dưới nhiều dạng khác nhau, ví dụ như các số liệu, các ký tự văn bản, âm thanh, hình ảnh,… nhưng trong máy tính mọi thông tin và dữ liệu đều được biểu diễn bằng số nhị phân (chuỗi bit).

Để đưa dữ liệu vào cho máy tính, cần phải mã hoá nó về dạng nhị phân. Với các kiểu dữ liệu khác nhau cần có cách mã hoá khác nhau. Cụ thể:

Các dữ liệu dạng số (số nguyên hay số thực) sẽ được chuyển đổi trực tiếp thành các chuỗi số nhị phân theo các chuẩn xác định.

Các ký tự được mã hoá theo một bộ mã cụ thể, có nghĩa là mỗi ký tự sẽ tương ứng với một chuỗi số nhị phân.

Các dữ liệu phi số khác như âm thanh, hình ảnh và nhiều đại lượng vật lý khác muốn đưa vào máy phải số hoá (digitalizing). Có thể hiểu một cách đơn giản khái niệm số hoá như sau: các dữ liệu tự nhiên thường là quá trình biến đổi liên tục, vì vậy để đưa vào máy tính, nó cần được biến đổi sang một dãy hữu hạn các giá trị số (nguyên hay thực) và được biểu diễn dưới dạng nhị phân.

Với các tín hiệu như âm thanh, video, hay các tín hiệu vật lý khác, qui trình mã hoá được biểu diễn như sau:

Hình I.2.1.1.a. Quá trình số hoá tín hiệu vật lý

Tuy rằng mọi dữ liệu trong máy tính đều ở dạng nhị phân, song do bản chất của dữ liệu, người ta thường phân dữ liệu thành 2 dạng:

    • Dạng cơ bản: gồm dạng số (nguyên hay thực) và dạng ký tự. Số nguyên không dấu được biểu diễn theo dạng nhị phân thông thường, số nguyên có dấu theo mã bù hai, còn số thực theo dạng dấu phảy động. Để biểu diễn một dữ liệu cơ bản, người ta sử dụng 1 số bit. Các bit này ghép lại với nhau để tạo thành từ: từ 8 bít, từ 16 bít,…
    • Dạng có cấu trúc: Trên cơ sở dữ liệu cơ bản, trong máy tính, người ta xây dựng nên các dữ liệu có cấu trúc phục vụ cho các mục đích sử dụng khác nhau. Tuỳ theo cách “ghép” chúng ta có mảng, tập hợp,xâu, bản ghi,…

b. Đơn vị thông tin

Đơn vị nhỏ nhất để biểu diễn thông tin gọi là bit. Một bit tương ứng với một sự kiện có 1 trong 2 trạng thái.

Ví dụ: Một mạch đèn có 2 trạng thái là:

    • Tắt (Off) khi mạch điện qua công tắc là hở
    • Mở (On) khi mạch điện qua công tắc là đóng

Số học nhị phân sử dụng hai ký số 0 và 1 để biểu diễn các số. Vì khả năng sử dụng hai số 0 và 1 là như nhau nên một chỉ thị chỉ gồm một chữ số nhị phân có thể xem như là đơn vị chứa thông tin nhỏ nhất.

Bit là chữ viết tắt của BInary digiT. Trong tin học, người ta thường sử dụng các đơn vị đo thông tin lớn hơn như sau:

Tên gọi

Ký hiệu

Giá trị

Byte

KiloByte

MegaByte

GigaByte

TeraByte

B

KB

MB

GB

TB

8 bit

210 B = 1024 Byte

220 B

230 B

240 B

I.1.2.3. Biểu diễn số nguyên

Số nguyên gồm số nguyên không dấu và số nguyên có dấu. Về nguyên tắc đều dùng 1 chuỗi bit để biểu diễn. Đối với số nguyên có dấu, người ta sử dụng bit đầu tiên để biểu diễn dấu ‘-‘ và bit này gọi là bit dấu.

a. Số nguyên không dấu

Trong biểu diễn số nguyên không dấu, mọi bit đều được sử dụng để biểu diễn giá trị số. Ví dụ 1 dãy 8 bit biểu diễn số nguyên không dấu có giá trị:

28 = 256 số nguyên dương, cho giá trị từ 0 (0000 0000) đến 255 (1111 1111).

Với n bits ta có thể biểu diễn 1 số nguyên có giá trị lớn nhất là 2n-1 và dải giá trị biểu diễn được từ 0 đến 2n-1.

Thí dụ: 00000000 = 0

00000010 = 2

00000100 = 4

………….

11111111 = 255

b. Số nguyên có dấu

Trong biểu diễn số nguyên có dấu, bit đầu làm bít dấu: 0 là số dương và 1 cho số âm. Số nguyên có dấu thể hiện trong máy tính ở dạng nhị phân là số dùng 1 bit làm bít dấu, người ta qui ước dùng bit ở hàng đầu tiên bên trái làm bit dấu (S): 0 là số dương và 1 cho số âm. Cách phổ biến biểu diễn số âm có dấu là dùng mã bù hai:

Số bù hai được tính như sau:

    • Biểu diễn số nguyên không dấu
    • Nghịch đảo tất cả các bit (số bù một)
    • Cộng thêm một. (số bù hai)

Thí dụ biểu diễn trên 8 bits:

37 = 00100101

Bù một (nghịch đảo) = 11011010

Bù hai (cộng thêm 1) 1

11011011 số -37

Bit dấu

Chú ý: Thử biểu diễn mã bù hai của -37 để thu được số +35

c. Tính toán số học với số nguyên

Cộng/ trừ số nguyên

Cộng/ trừ số nguyên không dấu

Khi cộng hai số nguyên không dấu n bits ta thu được một số nguyên không dấu cũng n bits. Vì vậy,

    • Nếu tổng của hai số đó nhỏ hơn hoặc bằng 2n-1 thì kết quả nhận được là đúng.
    • Nếu tổng của hai số đó lớn hơn 2n-1 thì khi đó sẽ tràn số và kết quả sẽ là sai.

Thí dụ với trường hợp 8 bits, tổng nhỏ hơn 255 thì ta sẽ có kết quả đúng:

Để tránh hiện tượng tràn số này ta phải sử dụng nhiều bit hơn để biểu diễn.

Cộng/trừ số nguyên có dấu

Số nguyên có dấu được biểu diễn theo mã bù hai, vậy qui tắc chung như sau:

    • Cộng hai số nguyên có dấu n-bit sẽ bỏ qua giá trị nhớ ra khỏi bit có ý nghĩa cao nhất, tổng nhận được sẽ có giá trị đúng và cũng được biểu diễn theo mã bù hai, nếu kết quả nhận được nằm trong dải -2n-1 đến + 2n-1 -1.
    • Để trừ hai số nguyên có dấu X và Y (X – Y) , cần lấy bù hai của Y tức –Y, sau đó cộng X với –Y theo nguyên tắc trên.
Như vậy, khi thực hiện phép tính trên sẽ thừa ra 1 bit bên trái cùng, bit này sẽ không được lưu trong kết quả và sẽ được bỏ qua.

Nhân/ chia số nguyên

So với phép cộng và phép trừ, phép nhân và phép chia phức tạp hơn nhiều. Dưới đây, chỉ giới thiệu phép nhân/phép chia với số nhị phân. Ví dụ sau mô tả phép nhân hai số nhị phân:

10001111 kết quả 143 trong cơ số 10

Chúng ta có một số nhận xét sau:

    1. Phép nhân tạo ra các tích riêng, mỗi tích thu được là kết quả của việc nhân từng bit.
    1. Các tích riêng dễ dàng xác định theo qui tắc:
    • Bit tương ứng số nhân là 1 thì tích riêng bằng số bị nhân
    • Bit tương ứng số nhân bằng 0 thì tích riêng bằng 0
    1. Tích được tính bằng tổng các tích riêng.

Phép chia phức tạp hơn phép nhân nhưng dựa trên cùng 1 nguyên tắc. Hãy xem thí dụ sau:

Phép chia với số nguyên sẽ cho 2 kết quả là thương và phần dư.

BUỔI 2.

I.1.2.4. Biểu diễn số thực

a. Nguyễn tắc chung

Để biểu diễn số thực, trong máy tính người ta dùng ký pháp dấu phảy động (Floating Point Number). Một cách tổng quát, một số thực biểu diễn theo cách này gồm 3 thành phần:

N = M x RE

Với M: phần định trị (Mantissa), N là cơ số: (Radix), còn E là phần số mũ (Exponent)

Cơ số thường được sử dụng là cơ số 2 hay cơ số 10, còn M và E biểu diễn theo kiểu số nguyên. Thực tế, người ta chỉ cần lưu trữ M và E.

Ví dụ, với cơ số R = 10, giả sử 2 số thực N1 và N2 được lưu trữ theo phần định trị và số mũ như sau:

M1 = -15 và E1 = +12

M2 = +314 và E2 = -9

Có nghĩa là N1 = M1 x 10 E1 = -15x10E1 = -15 000 000 000 000

và N2 = M2 x 10 E2 = 314 x 10-9 = 0.000 000 314

Rõ ràng rằng, việc lưu trữ phần đinh trị và phần số mũ sẽ dễ dàng và đơn giản nhiều so với việc lưu trữ giá trị đúng của nó.

Khi thực hiện phép toán với số dấu chấm động sẽ được tiến hành trên cơ sở các giá trị của phần định trị và phần mũ. Giả sử có 2 số dấu phẩy động sau:

N1 = M1 x RE1 và N2 = M2 x RE2

khi đó, việc thực hiện các phép toán số học sẽ được tiến hành:

N1 ± N2 = (M1 x RE1-E2 ± M2) x RE2, giả thiết E2 ≥ E1

N1 x N2 = (M1x M2) x RE1+E2

N1 /N2 = (M1 / M2) / RE1-E2

Chú ý: Với số thực biểu diễn theo dấu phẩy động trên :

    • 32 bit: dải giá trị từ 10-38 đến 10+38.
    • 64 bit: dải giá trị từ 10-308 đến 10+308.
    • 80 bit: dải giá trị từ 10-4932 đến 10+4932.

Từ công thức trên, ta nhận thấy rằng cách biểu diễn này không bao giờ cho giá trị bằng không, vì thế, có một số trường hợp phải qui ước:

    • Nếu tất cả các bit của E và M đều bằng không, thì N = ± 0
    • Nếu tất cả các bit của E = 1 và M = 0, thì N = ± ∞
    • Nếu tất cả các bit của E = 1 và có ít nhất 1 bit của M =10, thì N không phải là số.

b. Chuẩn IEEE754/85

Việc biểu diễn trong dấu phảy động theo chuẩn IEEE được hình dung như sau:

Sign (1 bit)

Exponent

(8 bits)

d

Mantissa

(23 bits)

e

phần dấu chấm thập phân

    • Bit dấu là 0 có nghĩa đó là số dương, ngược lại đó là số âm (Matissa sign).
    • Phần mũ biểu diễn trong cơ số 2 và giá trị là giá trị gốc cộng thêm127. Tuy nhiên, nếu giá trị sau khi cộng là 255 thì đó không phải là biểu diễn số.
    • Phần định trị biểu diễn dạng số lẻ nhị phân nhỏ hơn 1.

Chú ý: có sự khác nhau giữa biểu diễn dấu phảy động trên main frame :

    • Phần mũ là 8 bít và giá trị kết quả được cộng thêm 127 vào phần gốc. Phần thêm này gọi là bias.
    • Phần định trị có 23 bít và phần lẻ nhị phân tương đương với phần định trị trừ đi 1 sẽ được lưu. Nói một cách khác, số 1 không biểu diễn (bỏ)
    • Cơ số phần mũ được hiểu là cơ số 2.

Thí dụ: số thực +5 sẽ được biểu diễn như sau:

510 = 1012 = 1012 x 20 = (1.01)2 x 22 và phần mũ sẽ là 1.012 -12 = 0.012.

Nếu 1012 trượt phải 2 bít sẽ trở thành 1.012, 2-2 lần từ giá trị ban đầu. Với mục đích chuẩn hóa, 2 được cộng thêm vào phần mũ 0 và phần mũ có giá trị là 2. Do vậy, khi mà phần mũ là 2 cộng thêm phần bias 127 sẽ là 129 và mũ biểu diễn là 100000012.

I.1.2.5. Biểu diễn ký tự

a. Nguyên tắc chung

Trong máy tính, các ký tự cũng cần được chuyển đổi thành chuỗi bit nhị phân gọi là mã của các ký tự đó. Số bit dùng cho mỗi ký tự theo các mã khác nhau là khác nhau. Bộ mã ASCII (Amercan Standard Codes for Information Interchangeable) dùng 8 bit cho 1 ký tự, bộ mã Unicode dùng 16 bit. Đây là 2 bộ mã thông dụng. Thí dụ, với bộ mã ASCII, chữ A có mã là 65 = 01000001.

Ngoài hai bộ mã trên, còn có các bộ mã khác:

    • Hệ thập phân mã nhị phân BCD (Binary Coded Decima) dùng 6 bit.
    • Hệ thập phân mã nhị phân mở rộng EBCDIC (Extended Binary Coded Decimal Interchange Code) dùng 8 bit tương đương 1 byte để biễu diễn 1 ký tự.

b. Bộ mã ASCII

ASCII là bộ mã được dùng để trao đổi thông tin chuẩn của Mỹ. Lúc đầu chỉ dùng 7 bit (128 ký tự) sau đó mở rộng cho 8 bit và có thể biểu diễn 256 ký tự khác nhau trong máy tính.

Trong bộ mã hoá 8 bit, các mã từ 32 đến 126 biểu diễn cho các ký tự hiển thị được gồm 52 ký tự la tinh: 26 thường và 26 hoa.. Tiếp theo là 10 mã cho 10 chữ số (mã 30 đến mã 39). Còn lại cho các ký tự phân cách, dấu phép toán.

Chú ý là 32 mã đầu tiên và (00 đến 1F0 và mã cuối cùng 127 (trong bộ mã chuẩn 128 mã) biểu diễn cho các thông tin điều khiển. Các mã mở rộng từ 128 đến 255 là tập các ký tự có thể thay đổi được bởi các nhà chế tạo máy tính hoặc các nhà phát triển phần mềm. Bộ mã ASCII đuợc minh hoạ qua bảng dưới đây:

BẢNG MÃ ASCII với 128 ký tự đầu tiên

Hex

0

1

2

3

4

5

6

7

0

NUL

0

DLE

16

SP

32

0

48

@

64

P

80

`

96

p

112

1

SOH

1

DC1

17

!

33

1

49

A

65

Q

81

a

97

q

113

2

STX

2

DC2

18

34

2

50

B

66

R

82

b

98

r

114

3

3

DC3

19

#

35

3

51

C

67

S

83

c

99

s

115

4

4

DC4

20

$

36

4

52

D

68

T

84

d

100

t

116

5

5

NAK

21

%

37

5

53

E

69

U

85

e

101

u

117

6

6

+

SYN

22

&

38

6

54

F

70

V

86

f

102

v

118

7

BEL

7

ETB

23

39

7

55

G

71

W

87

g

103

w

119

8

BS

8

CAN

24

(

40

8

56

H

72

X

88

h

104

x

120

9

HT

9

EM

25

)

41

9

57

I

73

Y

89

I

105

y

121

A

LF

10

SUB

26

*

42

:

58

J

74

Z

90

j

106

z

122

B

VT

11

ESC

27

+

43

;

59

K

75

[

91

k

107

{

123

C

FF

12

FS

28

,

44

<

60

L

76

\

92

l

108

|

124

D

CR

13

GS

29

-

45

=

61

M

77

]

93

m

109

}

125

E

SO

14

RS

30

.

46

>

62

N

78

^

94

n

110

~

126

F

SI

15

US

31

/

47

?

63

O

79

_

95

o

111

DEL

127

BẢNG MÃ ASCII với 128 ký tự kế tiếp

Hex

8

9

A

B

C

D

E

F

0

Ç

128

É

144

á

160

176

192

208

α

224

240

1

ü

129

æ

145

í

161

177

193

209

ß

225

±

241

2

é

130

Æ

146

ó

162

178

194

210

Γ

226

242

3

â

131

ô

147

ú

163

179

195

211

π

227

243

4

ä

132

ö

148

ñ

164

180

196

212

Σ

228

244

5

à

133

ò

149

Ñ

165

181

197

213

σ

229

245

6

å

134

û

150

ª

166

182

198

214

µ

230

÷

246

7

ç

135

ù

151

º

167

183

199

215

τ

231

247

8

ê

136

ÿ

152

¿

168

184

200

216

Φ

232

°

248

9

ë

137

Ö

153

169

185

201

217

Θ

233

·

249

A

è

138

Ü

154

¬

170

186

202

218

234

·

250

B

ï

139

¢

155

½

171

187

203

219

δ

235

251

C

î

140

£

156

¼

172

188

204

220

236

252

D

ì

141

¥

157

¡

173

189

205

221

φ

237

²

253

E

Ä

142

158

«

174

190

206

222

ε

238

254

F

Å

143

ƒ

159

»

175

191

207

223

239

255

c. Bộ mã Unicode

Ngày nay, máy tính đã toàn cầu hoá, việc trao đổi thông tin ngày càng mở rộng. Để đáp ứng nhu cầu toàn cầu hoá này, vào những năm 90 của thế kỷ trước, các hãng hàng đầu về máy tính đưa ra bộ mã 16 bít mang tên Unicode. Vậy số ký tự có thể biểu diễn (mã hoá) là 216-1.

Từ khóa » Bộ Mã Thông Tin Trong Máy Tính