Chương 2: Nhập Dữ Liệu | Blog Của Chiến
Có thể bạn quan tâm
Trở về Mục lục cuốn sách
Giới thiệu
Như đã đề cập đến ở Chương 1, GIS phải có khả năng cho nhập số liệu; với những tính năng cơ bản nhất để chỉnh sửa, lưu trữ, và định dạng lại dữ liệu; các phép tính để thao tác số liệu về dạng thông tin dùng được, và tính năng trình bày kết quả đầu ra. Trong chương này, ta tập trung vào quá trình nhập số liệu.
Có ba giai đoạn riêng biệt trong quá trình nhập số liệu (Hình 2.1): Ở giai đoạn thứ nhất, bạn cần nhận diện và mã hóa về mặt khái niệm tất cả những địa vật và thuộc tính cần quan tâm trong dự án. Tiếp theo là giai đoạn thu thập dữ liệu, trong đó có việc tìm và thu nhận dữ liệu cần thiết từ những cơ quan, tổ chức, kho dữ liệu, và đưa dữ liệu này về một định dạng mà chương trình GIS hiện có đọc được. Sau cùng, trong giai đoạn nắm bắt dữ liệu, bạn cần số hóa các bản đồ giấy và dữ liệu trực tiếp vào hệ thống GIS của mình rồi chuyển đổi số liệu điện tử sẵn có về dạng mà hệ GIS đọc được.

Hình 2.1: Quá trình nhập số liệu gồm 3 giai đoạn: Thiết kế cơ sở dữ liệu GIS, thu thập dữ liệu, và nắm bắt dữ liệu
Giai đoạn 1: Thiết kế cơ sở dữ liệu GIS
Mục tiêu hoặc câu hỏi nghiên cứu bạn đặt ra là gì? Cách thức tiến hành như thế nào? Bạn cần phải xác định mục tiêu ngay từ đầu. Việc có được một mục tiêu, một câu hỏi nghiên cứu rõ ràng, hoặc thậm chí cả nhiều mục tiêu chính là chìa khóa mở ra sự thành công của dự án GIS vì nó dẫn đường cho các giai đoạn đầu vào, phân tích, và đầu ra của dự án. Hãy dành thời gian và suy nghĩ vào việc thiết kế GIS hiện tại vì việc hoạch định tốt sẽ dẫn đến dự án thành công.
Hãy bắt đầu bằng việc nghĩ về dân cư, đất đai, và các vấn đề nảy sinh trong dự án nghiên cứu. Điều này ảnh hưởng trực tiếp đến việc cần có tập dữ liệu (địa vật và thuộc tính) nào. Tiếp theo, hãy nghĩ cách phân tích số liệu ra sao. Điều này có thể ảnh hưởng đến việc bạn chọn phần mềm GIS và mô hình dữ liệu (raster hay vector). Thậm chí, cần hình dung cả cách bạn muốn thể hiện kết quả. Nói cách khác, hãy nghĩ xuyên suốt toàn dự án. Nếu bạn cộng tác cùng đồng nghiệp, hãy cùng xét đến mục đích của sếp các bạn và hiểu rõ cách hoạt động của công ty, cơ quan, hoặc tổ chức của bạn.
Ngày nay, dường như ai cũng muốn dùng GIS trong dự án của họ. Nó rất hợp thời và là công cụ mạnh, nhưng bạn cần tự hỏi xem liệu GIS có phải là công cụ phù hợp không. Có thể nó lại không phải. Để xem liệu GIS có giúp bạn đạt được mục tiêu hay không, hãy nghĩ lại về những đặc điểm liên quan (con người, đất đai, vấn đề) trong nghiên cứu của bạn và xem liệu những điều đó có thể được biểu diễn về mặt địa lý hay không. Hầu như tất cả những địa vật đều có vị trí địa lý, nhưng bạn phải đi tiếp một bước để xác định xem liệu cái yếu tố “địa lý” có quan trọng hay không. Ta có thể quan tâm đến dân số cũng như các chỉ số kinh tế khác như thu nhập, mật độ dân cư, độ tuổi, và thành phần dân tộc, nhưng bạn có quan tâm đến việc những biến số này có khác biệt giữa những vùng lân cận, giữa các thành thị, hay theo không gian nói chung? Nếu vị trí không có vai trò trong nghiên cứu được thực hiện, thì dữ liệu có tính “phi địa đới” và bạn chẳng cần đọc tiếp cuốn sách này nữa.
Nếu bạn có thể hình thành khái niệm từ những biến số, với vai trò các địa vật trên bản đồ hoặc phác họa trong khuôn khổ địa lý như các tuyến điều tra dân cư, các mã ZIP, hoặc cánh đồng nông nghiệp, thì GIS có thể giúp ích cho dự án của bạn. Là một nhân viên hoặc một nhà nghiên cứu, bạn có thể đã có mục tiêu riêng của mình, hoặc chủ đề nghiên cứu được sếp lựa chọn. Mục tiêu hoặc câu hỏi nghiên cứu của bạn có thể sẽ kiểu như sau “Tôi muốn biết nơi tốt nhất để trồng lúa miến trên đất Mauritania khi con đập mới được xây dựng.” Mặt khác, nếu bạn ở trong một ban lập kế hoạch lớn, và có thể có nhiều mục tiêu; khi đó bạn phải cố gắng đáp ứng được tất cả những yêu cầu, trong đó có thể bao gồm cập nhật và vẽ nên những bản đồ chất lượng cao, lập danh sách những người dân cần kí kết hợp đồng khi điều chỉnh phân vùng hoặc yêu cầu cấp phép bán rượu; hay quyết định xem những đoạn đường nào cần trải nhựa lại. Tất cả đều bắt đầu từ mục tiêu bạn đặt ra. Nếu mục tiêu này bạn vẫn còn hình dung lờ mờ, thì hãy dừng lại và làm nó rõ ràng hơn. Không có gì trong khâu thiết kế quan trọng hơn điều này.
Mặc dù tất cả các thành phần trong một dự án GIS đều cần được hoạch định, gồm cả việc dự định sẽ dùng phần mềm và phần cứng gì cùng những thủ tục gì và những người nào sẽ đảm nhiệm công việc; tuy nhiên trong chương này ta chỉ tập trung bàn về dữ liệu.
Trong khâu thứ nhất này của quá trình nhập liệu, bạn cần xác định xem những địa vật và thuộc tính nào là cần thiết, và chúng cần được mã hóa như thế nào. Điều này bắt đầu bằng việc nhận diện từng loại địa vật và những thuộc tính liên quan, song nó còn vượt ra ngoài phạm vi nhận diện và còn bao gồm một số quyết định quan trọng về lập kế hoạch. Hình 2.2 cho thấy một danh sách các nhiệm vụ hoạch định. Sau đây ta sẽ thảo luận từng thành phần một.

Hình 2.2: Những câu hỏi then chốt cần được bạn tự hỏi và trả lời khi hoạch định cơ sở dữ liệu GIS.1) Những địa vật chính là gì?2) Phạm vi không gian, tỉ lệ, giới hạn thời gian của dự án là gì?3) Với từng kiểu địa vật (lớp bản đồ), bạn cần thu thập những thuộc tính gì?4) Mỗi kiểu địa vật cần được mã hóa thế nào (điểm, đường, hay đa giác)? Thuộc tính của chúng được mã hóa thế nào?5) Những địa vật cơ bản nào sẽ được chọn để giúp tham chiếu?6) Bạn sẽ dùng phép chiếu, hệ tọa độ, mực chuẩn nào?Hãy đưa dữ liệu không gian và thuộc tính vào GIS. Ở đây bạn thu thập và tiền xử lý dữ liệu từ nhiều nguồn.
1. Xác định các địa vật
Những địa vật nào là cần thiết? Hãy nghĩ lại về những mục tiêu của dự án. Nếu bạn muốn phân tích sự phân bố của một loài cây cụ thể, thì có lẽ cần phải có một địa vật dành riêng cho loài cây này. Tuy nhiên, những địa vật khác cũng không kém phần quan trọng—các loài cây gần đó, loại đất, điều kiện khí hậu, thói quen canh tác đất, và các trạng thái địa mạo như độ dốc và phương vị (hướng). Những đặc điểm này, cùng với rất nhiều đặc điểm khác, cũng đóng vai trò ảnh hưởng đến phân bố cây trồng được quan tâm. Nếu bạn phải xây dựng một cơ sở dữ liệu GIS cho phòng quy hoạch của thành phố, thì bạn sẽ cần đến những lớp bản đồ của nhiều yếu tố khác như đường phố, lô đất, công viên, mặt nước, đường cống, đường điện và tòa nhà. Trong trường hợp này, những địa vật như vậy hiển nhiên là cần thiết.
Tuy vậy, dù có vẻ đơn giản nhưng câu hỏi đặt ra là cần những địa vật nào, lại thường xuyên trở nên phức tạp. Lấy ví dụ, bạn có thể muốn phỏng vấn hàng trăm người ở Modesto, California về thu nhập của họ và chất lượng cuộc sống. Liệu sẽ phù hợp nếu ta lập nên một lớp bản đồ với vị trí các điểm đánh dấu cho nhà người được phỏng vấn, hay tốt hơn là gộp những ý kiến thu thập theo từng cụm, hay theo vùng khảo sát? Ở trường hợp thứ nhất, lớp địa vật của bạn có thể đặt tên là “respondents” (người được khảo sát), và mỗi điểm địa vật sẽ được đặt tại nhà của từng người khảo sát. Các thuộc tính sẽ được lưu trữ bên trong từng địa vật. Trong trường hợp thứ hai, bạn sẽ có một địa vật tên là “census tracts” (vùng khảo sát) và những dữ liệu được điều tra từ nhiều cá nhân sẽ được gộp lại vòa trong bảng số liệu của vùng khảo sát tương ứng. Nói cách khác, ở trường hợp thứ hai bạn sẽ không có lớp biểu diễn cho người khảo sát; mà có lớp biểu diễn vùng khảo sát với những số liệu gộp từ nhiều người khảo sát. Dù câu hỏi về mức độ phù hợp chỉ là giả định, song bạn đã thấy ngay ý nghĩa về mặt đạo đức. Có thể bạn không muốn lập nên bản đồ cho người khác thấy chính xác vị trí của những người được phỏng vấn nếu như thông tin phỏng vấn có tính nhạy cảm hoặc gắn với cá nhân.
Tuy vậy, nguyên tắc chung là nên nhập số liệu dưới hình thức chính xác và chi tiết nhất. Lấy ví dụ về một dự án điều tra thu nhập và chất lượng cuộc sống, bạn có thể lập nên lớp bản đồ biểu diễn chính xác từng ý kiến phỏng vấn sau đó sẽ gộp lại (xem thêm Chương 5) những ý kiến riêng lẻ này thành vùng khảo sát để phục vụ việc xuất thông tin. Công chúng sẽ không thấy được dữ liệu chi tiết. Những lợi ích của việc có được số liệu chính xác sẽ phát huy tác dụng khi cần thẩm định lại kết quả theo vùng khảo sát, và trong việc thay đổi độ phân giải của nghiên cứu. Chẳng hạn, sẽ ra sao nếu như sau này, trong quá trình phân tích của dự án, bạn phát hiện thấy các đường biên vùng khảo sát là quá thô. Khi đó thật khó, và có lẽ không thể, thay đổi hoặc phân tách dữ liệu đã tổng hợp thành những đường biên mịn hơn, chi tiết hơn. Tuy nhiên, nếu có trong tay lớp bản đồ điểm riêng lẻ, thì có thể nhanh chóng thực hiện lại việc gộp theo những địa vật khác nhỏ hơn như khối nhà hoặc tổ dân phố.
2. Xác định phạm vi không gian, tỉ lệ biểu diễn, phạm vi thời gian của dự án
Bạn phải xác định địa bàn và khoảng thời gian mà dự án tập trung vào. Đôi khi điều này dễ thấy. Nếu bạn làm việc trong một đơn vị quy hoạch của tỉnh, thì đôi khi giới hạn đại bàn là ranh giới tỉnh. Tuy nhiên, với những thành phố thì cần phải nghiên cứu rộng hơn vì vùng ảnh hưởng của thành phố còn lan vượt ra khỏi địa giới thành phố; vì những vùng này có ảnh hưởng trực tiếp đến thành phố và, một ngày nào đó trong tương lai, có thể thuộc về thành phố. Những biên giới khác, đặc biệt là trong những dự án nghiên cứu thì khó thiết lập hơn.
Ngoài phạm vi không gian của dự án, bạn cũng cần phải nghĩ về một tỉ lệ bản đồ hợp lý. Có một mối liên hệ giữa tỉ lệ và chi tiết (xem Hình 2.3). Những bản đồ tỉ lệ nhỏ thì vẽ những miền lãnh thổ lớn, nhưng chúng thường kém chính xác hơn và có thể yêu cầu lược bớt những lớp tham chiếu nhất định. Những bản đồ tỉ lệ lớn thì cho thấy các vùng nhỏ hơn nhưng kèm theo tương đối nhiều chi tiết. Dù GIS cho ta phóng to với tỉ lệ lớn dần, nhưng dữ liệu ban đầu được thu giữ ở “tỉ lệ nhỏ” sẽ trở nên thiếu chính xác khi được phóng to. Một tỉ lệ được mong muốn sẽ ảnh hưởng cả lượng lẫn độ chuẩn xác của thông tin thu thập và tỉ lệ tại đó mà đối tượng địa lý có thể được biểu thị trên bản đồ. Trong phần sau của chương có đề cập thêm về vấn đề này (xem Các sai số về độ chính xác).
Hình 2.3: Tỉ lệ bản đồ. Bản đồ tỉ lệ nhỏ phác họa được vùng lãnh thổ lớn hơn, nhưng bản đồ tỉ lệ lớn lại biểu diễn chi tiết hơn.
Tương tự, có thể bạn muốn định nghĩa một phạm vi thời gian. Liệu thời gian có phải là một biến số quan trọng trong nghiên cứu của bạn không? Hầu hết các dự án GIS đều tập trung vào hoàn cảnh hiện thời mà bỏ qua quá khứ. Với những cơ sở dữ liệu hiện đại, có thể coi như cơ sở dữ liệu GIS luôn được cập nhật. Đây có thể là giả sử lớn nhất; bởi có thể các lớp bản đồ đã lỗi thời. Tuy nhiên, nếu bạn muốn xác định xem một vùng đã thay đổi bao nhiêu, thì bạn cần phải ấn định một khoảng thời gian cho dự án hiện có. Liệu dự án có tập trung vào thay đổi ở vùng lân cận, hay sự thu nhỏ của biển Aral vùng Trung Á hay không? Khi đó, bạn phải lập nên phạm vi thời gian. Việc xác định khoảng thời gian giúp bạn xác định những thuộc tính cần đến trong dự án. Nó cũng giúp bạn nhận thấy được rằng có thể bạn phải tìm những địa vật không còn tồn tại trong cảnh quan nữa.
3. Xác định thuộc tính cho mỗi kiểu địa vật
Như đã đề cập trong Chương 1, các thuộc tính là đặc điểm của địa vật. Bạn phải xác định những thuộc tính cần thiết cho từng kiểu địa vật. Càng làm kĩ điều này trước khi thu thập số liệu bao nhiêu, thì bạn sẽ càng ít gặp nguy cơ sau này phải dò tìm lại rồi thu thập thêm thuộc tính bấy nhiêu. Một lần nữa, hãy nhìn vào mục tiêu của dự án để tìm manh mối của những thuộc tính ta cần. Đồng thời, hãy tính xem bạn sẽ phân tích các địa vật như thế nào. Bạn không thể dùng phương pháp giải tích (như kiểm định thống kê) nếu như các giá trị thuộc tính thu thập được có dạng không hợp với giải tích (hãy xem những cấp độ đo đạc ở phần sau đây).
Đến đây có một điều nữa cần xét đến là một số thuộc tính (như diện tích đa giác, chiều dài đoạn thẳng, và thậm chí là số địa vật điểm rơi vào trong địa vật đa giác) có thể được phần mềm tự thống kê ra. Những thuộc tính phụ thêm có thể được tạo thành bằng cách nhân, chia, cộng, trừ, làm tròn số, xâu chuỗi các thuộc tính với nhau, hoặc thuộc tính với con số, với kí tự.
4. Xác định cách mã hóa các địa vật cùng thuộc tính của chúng
Một khi bạn đã quyết định chọn các địa vật và thuộc tính của chúng, thì hãy quyết định luôn cách mã hóa chúng trong cơ sở dữ liệu GIS. Hãy nhớ rằng từ Chương 1, cách mã hóa địa vật không phải là duy nhất. Dù rằng đường sá thường được mã hóa như những đoạn thẳng, song không nhất thiết phải như vậy.
Xác định xem liệu ta nên mã hõa từng kiểu địa vật dưới dạng điểm, đoạn thẳng, hay đa giác. Sau đó ấn định dạng mẫu và dung lượng lưu trữ cần cho từng thuộc tính của địa vật. Chẳng hạn, thuộc tính này sẽ có kiểu chuỗi kí tự hay con số? Nếu là số thì thuộc kiểu số tự nhiên (integer/byte) hay số thực? Bạn sẽ phải thiết lập những tham số như vậy cho cơ sở dữ liệu trước khi nhập số liệu vào trong GIS. Hãy xem ví dụ dưới đây (Hình 2.4). Ở đó có liệt kê một vài thuộc tính (theo tên trường, Field Name) liên quan đến địa vật kiểu “đường phố”. Lưu ý ràng độ dài (“LENGTH”) của con đường thì có một kiểu dữ liệu được gọi là double (một kiểu số thực), và trong trường hợp này, cơ sở dữ liệu sẽ lưu đến 18 chữ số bao gồm 5 vị trí trong phần thập phân cho giá trị độ dài từng đoạn phố.
Hình 2.4: Thuộc tính của mỗi địa vật cần được mã hóa.* Khi định ra các thuộc tính cho một địa vật, hãy tìm một cái tên gợi tả, nhưng viết gọn thôi.Ví dụ này cho thấy các trường của lớp địa vật “Streets” (đường phố). Lưu ý đến thuộc tính có tên “Length” (chiều dài).* Tiếp theo, hãy quyết định cách mã hóa từng trường thuộc tính.Ở ví dụ này, Chiều dài được mã hóa là dạng “Double”, một dạng số có phần thập phân.* Bước cuối cùng là định nghĩa các thuộc tính cơ sở dữ liệu của từng trường. “Double” đã định nghĩa kiểu dữ liệu được lưu trữ,nhưng nó chưa cung cấp đủ thông tin chi tiết. Ở ví dụ này, mỗi đường phố trong lớp bản đồ mới có thể dùng đến 18 chữ sốđể xác định độ dài của nó, trong đó có 5 chữ số thuộc phần thập phân.
Bạn nhất thiết phải nghĩ về giá trị của những thuộc tính trước khi mã hóa chúng. Dĩ nhiên, nếu một đoạn phố cần đến 9 chữ số để đo độ dài của nó, thì 8 chữ số sẽ là không đủ và ta không thể nhập vào giá trị đúng nếu không chỉnh độ dài của trường.
Ngoài ra, khi nghĩ về các giá trị thuộc tính đang có, hãy xem nó thược về “cấp đo đạc” nào ứng với bốn giá trị số liệu: định danh, thứ tự, khoảng, và tỉ số. Stanley S. Stevens, một nhà tâm lý học Hoa Kì, đã xây dựng các mục phân loại này từ năm 1946. Mặc dù cách phân loại của Steven được dùng rộng rãi, nhưng nó vẫn chưa được chấp nhận thống nhất. Có những nhà khoa học gặp phải vấn đề với cách phân loại này, và người khác thì là vấn đề mà cách phân loại ảnh hưởng đến nghiên cứu của họ. Trong khuôn khổ sách này, đó là cách hữu ích để hình thành khái niệm xem các giá trị số liệu khác nhau thế nào, và quan trọng là nó nhắc nhở ta rằng có những biến số chỉ dùng được cho những phép toán và phép thống kê nhất định, bao gồm nhiều hàm tính toán trong GIS. Các “cấp” khác nhau được chỉ ra trên Hình 2.5 và minh họa bởi một ví dụ về cuộc đua ma-ra-tông:
Hình 2.5: Các cấp đo đạc.
- Số liệu định danh có dùng những kí tự và chữ số để xác định trong dãy số liệu. Trong cuộc đua ma-ra-tông, các con số gắn trên áo có tính định danh (cột đầu tiên ở hình vẽ trên). Con số dùng để xác định người chạy, nhưng không chỉ định bất kì thứ tự, hay dự đoán gì kết quả chạy đua. Ngoài ví dụ về cuộc thi, một ví dụ khác là số điện thoại. Nó dùng để xác định cho điện thoại duy nhất. Con số 961-8224 không có nghĩa là lớn hơn 961-8049. Các địa danh (và tên người) cũng có tính định danh. Bạn có thể thích tên gọi này hơn, nhưng rút cuộc tên cũng chỉ để phân biệt các thứ khác nhau. Các con số và kí tự định danh không có hàm ý gì về thứ hạng hoặc giá trị so sánh; chúng chỉ để nhận diện và phân loại. Dữ liệu định danh thường được mã hóa dưới dạng chuỗi kí tự trong một cơ sở dữ liệu GIS.
- Dữ liệu thứ tự lập nên thứ hạng. Trong cuộc đua, thứ tự cán đích (nhất, nhì, ba) được đo theo thang thứ tự (cột thứ hai trên Hình 2.5). Và mặc dù thứ tự đã biết, nhưng người chạy này nhanh hơn người kia bao nhiêu, ta lại không biết. Các hạng ‘cao’, ‘trung bình’, và ‘thấp’ cũng có tính thứ tự. Vì vậy dù ta đã biết thứ hạng, nhưng lại không biết khoảng cách giữa chúng. Thông thường cả dữ liệu thứ tự dạng số và dạng chữ đều được mã hóa bằng kí tự vì chúng không thể được cộng, trừ, nhân, hoặc chia theo đúng nghĩa. Tuy vậy, giá trị “trung vị”, trong một dãy các giá trị có thứ tự, lại là giá trị thay thế tốt cho trị trung bình.
- Thang đo khoảng cách, cũng như thang tỉ lệ mà ta sẽ thảo luận sau đây, chỉ có ở dữ liệu dạng số; không liên quan gì đến số liệu kí tự. Với dữ liệu khoảng, thì hiệu số—tức là “khoảng”, hay khoảng cách—giữa các con số là có ý nghĩa. Tuy vậy dữ liệu khoảng, không như dữ liệu tỉ lệ, lại không có một điểm gốc hay một giá trị 0. Vì vậy, trong khi số liệu khoảng có thể cộng và trừ được, thì phép nhân và chia không có ý nghĩa toán học gì. Trong cuộc thi ma-ra-tông, thời điểm trong ngay mà mỗi vận động viên đến đich được đo theo thang khoảng cách. Nếu ba người chạy đến đích lúc 10 giờ 10 phút sang, 10 giờ 20 phút, và 10 giờ 25 phút, thì người thứ nhất sẽ đến đích sớm 10 phút so với người thứ hai và chênh lệch thời gian giữa hai người này thì gấp hai lần chênh chệch giữa người thứ hai và thứ ba. (Xem cột thứ 3 trên Hình 2.5.) Tuy vậy người đến đích lúc 10g10, lại không phải chạy nhanh gấp đôi so với người đến đích lúc 20g20 (tức là 8g20 tối). Một ví dụ thích hợp khác không liên quan gì đến cuộc đua, đó là nhiệt độ. Ta có thể nói 20° C thì ấm hơn 10° so với 10° C. Thang độ bách phân (độ C, Celsius), cũng như thang Fahrenheit, được đo theo số liệu khoảng, nhưng 20° C không phải là ấm hơn hai lần so với 10° C, bởi lẽ 0° C không có nghĩa là mất nhiệt hoàn toàn; đó chỉ là một điểm bất kì ứng với trạng thái nước đóng băng. Quay trở về ví dụ số điện thoại, chẳng có lý gì để nói số 968-0244 là hơn 62195 so với số 961-8049, vậy chúng không phải là các giá trị khoảng.
- Tỉ lệ gần giống như kiểu khoảng. Sự khác biệt là ở chỗ các giá trị tỉ lệ có một mức 0 tuyệt đối. Trong cuộc đua, người đạt giải nhất về đích sau 2 giờ 30 phút, người về nhì chạy mất 2 giờ 40 phút, và người về đích thứ 450 đã tốn mất 5 giờ (cột thứ tư trên Hình 2.5). Người về đích thứ 450 mất thời gian gấp 5 lần so với người về nhất (12,667 giờ / 2,5 giờ = 5,0668). Với số liệu tỉ lệ, hoàn toàn có nghĩa khi nói rằng một người phụ nữ 45 kg thì nặng bằng một nửa so với người đàn ông 90 kg; như vậy trọng lượng tính theo kg là số tỉ lệ. Giá trị 0 của trọng lượng có ý nghĩa tuyệt đối. Các phép cộng, trừ, nhân, chia những giá trị tỉ lệ đều có nghĩa về toán học.
5. Xác định các địa vật tham khảo trên bản đồ cơ sở
Những địa vật nào cần được tính đến? Hãy thêm các địa vật tham khảo để giúp người xem bản đồ tự định hướng trong khu vực nghiên cứu ngay cả khi bạn không có ý định phân tích những địa vật đó. Những con đường lớn, dòng sông, và tòa nhà quan trọng là những ví dụ điển hỉnh của địa vật giúp định hướng người xem. Các địa vật thứ cấp này thường là những địa vật dễ tìm nhất trên Internet, và đôi khi chúng được kèm luôn trong phần mềm GIS. Nói tóm lại, có những địa vật như vậy ở bản đồ cơ sở có thể không quan trọng cho việc phân tích, nhưng lại quan trọng góp phần vào trình bày rõ ràng.
6. Xác định phép chiếu, hệ tọa độ, và mực chuẩn cho dự án
Trước khi thu thập hoặc tìm kiếm dữ liệu, bạn cần quyết định dùng phép chiếu, hệ tọa độ, và mực chuẩn nào. Ba thành phần này, gọi chung là những “tham số phép chiếu”, sẽ được thảo luận đến trong Chương 3, nhưng điều quan trọng là những tham số đó phải thống nhất cho tất cả các lớp bản đồ đang dùng. Tính thống nhất cho phép bạn xếp chồng lên nhau các lớp địa vật để tạo thành bản đồ rồi phân tích mối quan hệ giữa những địa vật. Hình 2.6 cho thấy ví dụ trong đó lớp bản đồ lô đất không được xếp vừa lên các lớp trục đường và nhà cửa; điều này là do sự chênh lệch nhỏ giữa các tham số phép chiếu của lớp lô đất.
Hình 2.6: Do sự khác biệt về tham số phép chiếu của lớp lô đất, lớp này không xếp vừa với các lớp trục đường và khối nhà.
Việc thẳng thừng quyết định các tham số phép chiếu giúp bạn chọn trong số những file dữ liệu gần như giống nhau trên Internet, nếu chúng có ở đó, vì một file có thể đã ở phép chiếu, hệ tọa độ, và mực chuẩn thích hợp. Tuy vậy, thật hiếm tìm thấy mọi thứ bạn cần đến. Thường thì bạn cần phải chuyển đổi các lớp, và chương trình GIS có tích hợp những thuật toán để chuyển đổi qua lại giữa các phép chiếu, hệ tọa độ, và mực chuẩn. Điều này sẽ được đề cập đến trong Chương 3.
Trước khi chọn các tham số phép chiếu, hãy thực hiện tìm hiểu. Nếu bạn đang dùng chủ yếu là cơ sở dữ liệu GIS của Hoa Kì, thì hoàn toàn hợp lý khi dùng các tham số sẵn có nếu chúng đáp ứng yêu cầu của bạn. Chẳng hạn, California lập riêng phép chiếu Albers của họ, và đại đa số những lớp GIS của họ đều theo phép chiếu này. Còn những cơ quan địa phương lại có thể dùng State Plane Coordinates hoặc Universal Transverse Mercator. Nếu một phần lớn số liệu được chia sẻ với cơ quan chức năng địa phương, thì bạn có thể chọn dùng hệ tọa độ mà họ quy định. Bạn có thể thay đổi các tham số phép chiếu bất kì lúc nào trong quá trình làm dự án, nhưng việc này tốn thời gian và phải tổ chức lại.
Việc quyết định dùng tham số phép chiếu nào cũng có thể dựa trên nhiều cân nhắc khác. Quy mô của dự án, những thuộc tính mong muốn của hpesp chiếu (chẳng hạn như bảo toàn diện tích, xem Chương 3), yêu cầu về độ chính xác vị trí, các thuộc tính cần được suy diễn, và vị trí dự án là những kiểu những câu hỏi cần được trả lời trước khi chọn một phép chiếu. Hãy biết ít nhiều về các tham số phép chiếu trước khi chọn dùng chúng cho dự án. Chẳng hạn, nếu bạn muốn tính diện tích từ các hình đa giác, thì cần dùng một phép chiếu bảo toàn diện tích. Nếu bạn không dùng phép chiếu như vậy, thì các số đo diện tích sẽ sai đi.
Trước khi bắt đầu thu thập và nhập liệu, hãy xét đến 6 mục được liệt kê nói trên. Tiếp theo, hãy tìm hiểu xem những tập dữ liệu GIS nào đã tồn tại, và—với những tập dữ liệu chưa sẵn có—thì là những cách khác nhau để tạo nên số liệu cần thiết. Hai mục tiếp theo trong chương đề cập đến những chủ đề này.
Lời khuyên cuối cùng, là khi dự định thực hiện dự án GIS, hãy nói chuyện với những kĩ thuật viên và chuyên gia phân tích GIS làm việc ở cơ quan nhà nước, hoặc những nhà nghiên cứu đã kết hợp được vài dự án GIS tương tự. Những lời khuyên của họ sẽ giúp bạn tiết kiệm thời gian, và có thể nhờ liên hệ với họ mà bạn giải quyết được nhiều vấn đề và xin được tập dữ liệu cần thiết.
Giai đoạn 2: Thu thập dữ liệu
Trong giai đoạn thu thập dữ liệu, bạn nhận được dữ liệu cho hệ GIS của bạn. Việc lấy được tất cả dữ liệu cùng lúc (và dưới dạng thức phù hợp) chính là nhiệm vụ tốn kém và lâu nhất trong mọi dự án GIS. Nhiều ước tính đã chỉ ra rằng từ 75 đến 80 phần trăm thời gian bạn dành cho việc thu thập, nhập liệu, làm sạch, và chuyển đổi dữ liệu (các giai đoạn 2 và 3 trong chương này). Trước khi đọc tiếp về Nguồn dữ liệu, ta hãy định nghĩa thuật ngữ “dữ liệu” và nhìn vào nhiều vấn đề liên quan đến dữ liệu bao gồm độ chính xạ, độ chuẩn xác, và siêu dữ liệu (siêu dữ liệu). Hình 2.7 cho thấy một danh sách các nhiệm vụ gắn với thu thập dữ liệu.
Hình 2.7: Những nhiệm vụ cơ bản trong khâu thu thập dữ liệu.1) Lấy dữ liệu GIS từ nhiều cơ quan, kho dữ liệu, và tổ chức, nếu có.2) Đánh giá tập dữ liệu. Đảm bảo chắc rằng chúng đủ độ chính xác và chuẩn xác để phục vụ dự án.3) Lấy siêu dữ liệu của lớp bản đồ; nó sẽ giúp bạn trong quá trình đánh giá.4) Chuyển đổi hoặc định dạng lại dữ liệu GIS đã có để đáp ứng yêu cầu dự án GIS (vốn đã vạch ra ở giai đoạn 1).
Dữ liệu
Dữ liệu thường được gọi là thực . Định nghĩa này cho thấy rằng chúng thuần khiết, nhưng tất cả dữ liệu đều được lựa chọn cho một mục đích cụ thể và chúng được định hình bởi mục đích đó. Thuật ngữ “dữ liệu gốc” ngụ ý mức độ thuần khiết còn cao hơn—một sự thật khách quan—nhưng ngay cả những nhà khoa học khách quan nhất cũng mang niềm tin và kiến thức khi thực hiện thu thập dữ liệu. Dữ liệu nhận được trong bất kì dự án nào đều đã có định kiến.
Bạn có thể phân loại dữ liệu thành sơ cấp hoặc thứ cấp, và quan sát được hoặc không thể quan sát. Nhà địa lý học Frank Aldrich đã lập nên mô hình dữ liệu đơn giản này (Hình 2.8) để minh họa những thể loại dữ liệu khác nhau. Dữ liệu sơ cấp (vòng tròn nhạt màu bên trong) là những số đo đạc mà bạn hoặc nhóm nghiên cứu của bạn thu thập được. Chúng thường được hình thành từ thí nghiệm hoặc đo đạc hiện trường. Dữ liệu thứ cấp (hình vành khăn sẫm màu hơn) là những tập dữ liệu mà người khác đã thu thập. Những tập dữ liệu này, thu nhận được từ thí nghiệm hoặc hiện trường, được thu thập nhằm mục đích ngoài mục đích riêng của bạn. Đa số các nhà nghiên cứu đều ưa dùng dữ liệu sơ cấp vì chúng không bị định kiến và định hình từ trước. Dù vậy, các tập dữ liệu thứ cấp vẫn rất quý nếu bạn xác định được cách thức và lý do mà chúng được thu thập và nếu dự án hiện thời có thể chấp nhận những định kiến đó.
Hình 2.8: Mô hình dữ liệu của Aldrich. (Quan sát được, không quan sát được, sơ cấp, thứ cấp.)
Bạn cũng có thể phân loại dữ liệu thành quan sát hay không quan sát được. Hãy chú ý rằng trong hình vẽ có một đường thẳng dọc phân đôi các đường tròn số liệu sơ cấp và thứ cấp. Dữ liệu quan sát được (bên trái đường dọc) là khi ai đó hoặc thiết bị nào đó quan sát được đặc tính hoặc động thái của đối tượng. Dữ liệu không quan sát được (bên phải đường dọc) là khi những người tham gia điều tra được hỏi bởi người phỏng vấn hoặc điền vào phiếu câu hỏi, nhưng người thu thập dữ liệu lại không trực tiếp quan sát đặc tính hoặc động thái.
Các kiểu kết hợp hai cách phân loại này được thực hiện. Dữ liệu sơ cấp quan sát được là những tập dữ liệu bạn thu thập và quan sát. Dữ liệu thứ cấp quan sát được là những tập dữ liệu người khác thu thập và quan sát. Một ví dụ là ảnh vệ tinh. Dữ liệu sơ cấp không quan sát được là những tập dữ liệu do bạn thu thập, nhưng đặc tính hoặc động thái của chúng lại không được quan sát. Kết quả điều tra và phỏng vấn do bạn tiến hành là những ví dụ cho kiểu này. Còn dữ liệu thứ cấp không quan sát được là những tập dữ liệu do người khác thu thập mà cũng không quan sát. Dữ liệu điều tra dân cư rơi vào dạng này.
Định giá dữ liệu
Chất lượng của dữ liệu bạn đang có như thế nào? tập dữ liệu tốt phải vừa chính xác, vừa chuẩn xác. Các sai số có thể nảy sinh ở cả vị trí lẫn thuộc tính. Điều rất quan trọng là bạn phải đánh giá dữ liệu có trong tay, đặc biệt là những tập dữ liệu thức cấp, bởi vì các sai số (nếu không được chỉnh sửa) sẽ có thể làm cho kết quả của dự án trở nên vô giá trị. Đừng bị ru ngủ vào cảm giác an toàn giả tạo khi bạn nhận được hoặc lập nên một tập dữ liệu. Thay vì vậy, hãy định giá dữ liệu. Để hiểu rõ hơn về những kiểu sai số có thể xảy ra trong tập dữ liệu GIS, ta hãy nói về thuật ngữ “sai số” và hai phần trong định nghĩa của nó.
Sai số là những lỗi hiển nhiên, và trong ngữ cảnh sai số cơ sở dữ liệu, nó là kết quả của hai điều: những sự thiếu chính xác và độ thiếu chuẩn xác của dữ liệu. Chính xác là chất lượng mà dữ liệu khớp với những giá trị đúng, giá trị được chấp nhận. Trong một lớp bản đồ, có thể có sự thiếu chính xác ở vị trí địa vật (cùng với thuộc tính của chúng). Chẳng hạn, địa vật có thể định vị ở chỗ sai, hoặc không xuất hiện trong khi lẽ ra là có, hoặc một địa vật nào đó được nhập vào mà thực tế thì nó không tồn tại.
Chuẩn xác là sự đúng đắn của số đo hoặc giá trị, và nó được dùng để chỉ mức độ mà giá trị có thể tái tạo được bằng những kĩ thuật thu thập dữ liệu tương tự. Nói cách khác, chuẩn xác là độ đo đúng đắn và khả năng lặp lại. Độ chuẩn xác của vị trí một địa vật có thể chính xác tới vài inch hoặc có lẽ nó có độ chuẩn xác chấp nhận được cỡ 10 mét. Mười mét có vẻ nhưng không chuẩn xác lắm, nhưng thường là nó cũng đủ cho nhiều dự án.
Có nhiều kiểu sai số ảnh hưởng đến chất lượng các tập dữ liệu GIS. Có sai số là hiển nhiên, nhưng cũng có sai số khó phát hiện ra. Hãy học cách nhận ra sai số và quyết định chọn một mức độ chuẩn xác chấp nhận được cho dự án đang thực hiện. Sau đây ta sẽ thảo luận về những kiểu sai số có thể phát hiện được Các Chương 3 và 4 đề cập về cách nhận diện và sửa những sai số này.
Sai số về độ chính xác:
- Tập dữ liệu đang xét đã có từ thời nào? Đây là một trong những câu hỏi quan trọng nhất cần được trả lời, vì có tập dữ liệu có thể quá cũ để dùng được. Nếu có sẵn một file siêu dữ liệu (siêu dữ liệu), file để mô tả lớp địa vật, thì đây sẽ là căn cứ để tìm hiểu. Các file siêu dữ liệu sẽ được thảo luận trong phần sau của chương này.
- Tập dữ liệu có thể chứa những sự thiếu chính xác về vị trí. Như đã nói đến ở trên, địa vật có thể bị định vị bừa bãi, bị bỏ qua, hoặc đặt ở nơi thực tế không có. Đây thường là kết quả của việc quan sát và điều tra thực địa có sai sốt, do nhập liệu, hoặc những trục trặc trong quá trình chuyển đổi số liệu. Riêng với lý do thứ ba này, việc chuyển đổi chính xác từ bản đồ giấy sang dạng số là một thử thách lớn vì những sai số xủ lý xuất hiện trong quá trình số hóa và quét (scan) (sau này sẽ được định nghĩa).
- Các thuộc tính có thể bị lỗi do gõ phím nhầm, các kĩ thuật quan trắc bị hỏng, các thiết bị hỏng hoặc chưa được kiểm định, hoặc người nghiên cứu thiên vị.
- Nếu bạn dùng dữ liệu thứ cấp, hãy tìm hiểu xem cách thức tạo lập dữ liệu số như thế nào, và liệu nó có trải qua chuyển đổi dạng số không. Các trục trặc về chuyển đổi xảy ra khi ta xử lý số liệu dưới nhiều định dạng khác nhau, nhiều phép chiếu, nhiều mô hình, và nhiều độ phân giải khác nhau. Có thể có những sự không thống nhất (ngay cả dù nhỏ nhất) trong quá trình chuyển đổi vốn làm thay đổi vị trí địa lý và (trong trường hợp lấy mẫu lại raster) thay đổi giá trị của ô.
Sai số về độ chuẩn xác:
- tập dữ liệu có thể chứa sự thiếu chuẩn xác về vị trí, do tỉ lệ của bản đồ gốc. Một tấm bản đồ tỉ lệ 1:24.000 trình bày được những chi tiết rõ hơn một bản đồ tỉ lệ nhỏ hơn, 1:500.000. Với GIS dựa trên cơ sở véc-tơ, khi bạn phóng to vào bản đồ, các vị trí địa vật trông có vẻ chuẩn xác hơn, nhưng độ chuẩn xác của nó lại dựa theo tỉ lệ của bản đồ gốc. Có thể nó sẽ không chuẩn xác như những gì bạn trông thấy. Khi dùng GIS dạng raster, bạn có thể gây ra sự thiếu chuẩn xác qua việc ban đầu từ một lớp bản đồ có độ phân giải thấp (điểm ảnh thô) rồi nâng cao độ phân giải của nó. Các điểm ảnh có thể giữ độ phân giải cao hơn cho dữ liệu, nhưng không theer nâng cao độ chuẩn xác.
- Độ phân giải của điểm ảnh cũng có thể góp phần gây ra sự thiếu chính xác về vị trí. Như đã thảo luận ở Chương 1, nếu một lớp bản đồ có kích thước điểm ảnh lớn, nó có thể biểu diễn rất kém độ chuẩn xác vị trí của những địa vật. Các địa vật nhỏ và hẹp sẽ lọt giữa những điểm ảnh thô. Vị trí chuẩn xác của chúng là không thể biết được.
- Sự thiếu chuẩn xác về vị trí cũng có thể xảy ra khi vị trí địa vật khó được xác định. Một số địa vật như đường phố và lô đất đều khá dễ định vị, nhưng cũng có các địa vật như loại đất, thực vật, và chế độ khí hậu có ranh giời không rõ rệt. Một số đường chạy trên bản đồ là chuẩn giá trị. Ở đó số liệu có thể đã chính xác, so có điều là không chuẩn xác.
Siêu dữ liệu
Với những sai số tiềm năng như vậy, bạn có thể hiểu được mối nguy hiểm và độ bất định khi dùng dữ liệu không có tài liệu đi kèm. Siêu dữ liệu (siêu dữ liệu) là tài liệu về chất lượng dữ liệu, và nó thường được định nghĩa lặp lại là “dữ liệu về dữ liệu” (dù rằng có lẽ chính xác hơn là định nghĩa nó như “thông tin về dữ liệu”). Nó miêu tả các thuộc tính và vị trí các địa vật trên lớp bản đồ. Nó cho bạn một ấn tượng về độ chính xác và chuẩn xác của tập dữ liệu. Siêu dữ liệu bao gồm thông tin cơ bản về tập dữ liệu, gồm một lời mô tả và cho biết liệu có những quy định sử dụng hay không. Những file siêu dữ liệu tốt cần cho được lời giải đáp những câu hỏi sau:
- Tuổi của tập dữ liệu là bao nhiêu?
- Khu vực nào được tập dữ liệu cung cấp thông tin?
- Ai tạo ra tập dữ liệu?
- Cách lập nên tập dữ liệu thế nào (số hóa, quét, chồng xếp, v.v.)?
- Phép chiếu, hệ tọa độ, mực chuẩn nào đã được sử dụng?
- Tỉ lệ của bản đồ gốc bằng bao nhiêu (nếu có)?
- Các vị trí và thuộc tính đạt độ chính xác và chuẩn xác bao nhiêu?
- Lớp bản đồ dùng mô hình dữ liệu nào (vector hay raster)?
- Dữ liệu được kiểm tra thế nào (cả về vị trí lẫn thuộc tính)?
- Tại sao dữ liệu được biên tập lại? Nhu cầu hoặc động lực của việc làm này là gì?
Sau khi nhìn vào file siêu dữ liệu, bạn cần phải tự hỏi mình và hỏi các đồng nghiệp thêm một câu nữa: liệu nhà cung cấp số liệu có đáng tin cậy không? Sự có mặt và tình trạng của siêu dữ liệu có thể giúp ta trả lời câu hỏi này.
Ngoài ra, cũng trong siêu dữ liệu là các từ điển dữ liệu để mô tả toàn bộ những thuộc tính của địa vật. Như bạn có thể thấy trên Hình 2.4, các thuộc tính thường có tên trường ngắn, nghe lạ tai, như Zblack_00, thì khó cắt nghĩa. Siêu dữ liệu có nhiệm vụ miêu tả đầy đủ hơn về các thuộc tính như vậy. Ngoài ra, các giá trị được nhập vào những trường thuộc tính thường được mã hóa bằng những giá trị ngắn gọn (hoặc chữ viết tắt) thay vì cả từ dài; như vậy thì dễ mắc phải lỗi đánh máy. Các từ điển dữ liệu có nhiệm vụ giải mã các kí hiệu và chữ viết tắt đó. File siêu dữ liệu trên Hình 2.9 là một ví dụ. Nó giải thích cho lớp GIS trạm đo thời tiết đặt tại California, dữ liệu trong California Spatial Information Library (CaSIL). Nội dung của siêu dữ liệu đã được rút ngắn lại.
Siêu dữ liệu rất quan trọng. Nhiều năm trước, khi GIS còn sơ khai, không hề có tiêu chuẩn nào liên quan đến việc lập tài liệu cho dữ liệu và hồi đó tồn tại rất ít siêu dữ liệu. Các lớp GIS được tạo nên chỉ với ý định dành riêng để đáp ứng yêu cầu của một dự án, và nhiều chi tiết đã bị mất đi khi người phụ trách việc tạo số liệu chuyển sang dự án khác. Khi các tập dữ liệu GIS ngày càng có nhiều, và các cơ quan bắt đầu chia sẻ số liệu, thì đã nảy sinh một tập hợp chung các đặc điểm kĩ thuật để mô tả lớp GIS. Một file siêu dữ liệu thường được gắn kèm hoặc liên hệ chặt chẽ với từng lớp GIS.
Hình 2.9: Một file siêu dữ liệu điển hình nhằm cung cấp thông tin về cả dữ liệu không gian lẫn thuộc tính.
Dù quan trọng như vậy song siêu dữ liệu vẫn bị coi nhẹ. Lập siêu dữ liệu thì mất thời gian, nhưng thiết yếu trong trường hợp các tập dữ liệu đều được chia sẻ và nền tảng của dữ liệu phải được biết rõ.
Dữ liệu GIS trực tuyến
Internet là nơi tuyệt vời để ta bắt đầu tìm kiếm dữ liệu. Nếu tìm được các tập dữ liệu đã có sẵn phục vụ được mục đích đồng thời đạt yêu cầu đề ra, thì bạn sẽ tiết kiệm được thời gian và tiền bạc. Việc tìm kiếm có thể dẫn đến nhiều bản sao của dường như là cùng một dữ liệu, nhưng hãy xét đến chi tiết—kiểm tra siêu dữ liệu—vì những khác biệt nhỏ có thể khiến cho một tập dữ liệu tốt hơn tập kia. Nhiều dữ liệu bản đồ cơ sở (quốc gia, bang, địa hạt, đường lớn, sông suối, thành thị) đã có trên Internet.
Sẽ tiện lợi nếu bạn lấy tất cả các tập dữ liệu GIS cần thiết từ Internet, và mặc dù ngày càng có sẵn nhiều dữ liệu hơn, Internet sẽ không thể cung cấp tất cả những gì bạn muốn. Khi tìm kiếm trên Internet, đừng chỉ tìm những file GIS. Hãy tìm cả những dữ liệu mà có thể tương thích với GIS. Đôi khi một bảng tính có thể được chỉnh sửa và kết nối với một lớp bản đồ địa lý sẵn có. Các file CAD, ảnh hàng không, và ảnh vệ tinh có thể cũng cần thiết. Việc tìm thấy các tập dữ liệu dạng số thích hợp sẽ giúp bạn khỏi phải tự thu thập và nhập số liệu thủ công.
Các nguồn dữ liệu GIS khác
Nhiều khả năng là bạn sẽ liên hệ với nhân viên GIS trong các cơ quan nhà nước, các nguồn dữ liệu thương mại, và các tổ chức khác nhau để tìm kiếm nguồn dữ liệu. Hãy hỏi về độ chính xác và đầy đủ của các tập dữ liệu. Nếu bạn nghĩ ràng các tập dữ liệu của họ có thể giúp ích cho bạn, thì hãy xin họ dữ liệu, đồng thời xin phép sử dụng. Thường thì một thỏa thuận ngắn gọn sẽ được viết ra giấy và kí tên, để họ cho phép người khác dùng số liệu của mình theo những điều khoản nhất định.
Nhiều công ti dữ liệu thực hiện sửa đổi dữ liệu “công cộng” để tạo ra một sản phẩm có “giá trị phụ thêm” mà bạn có thể mua về và trực tiếp nạp vào hệ thống GIS. Các tập dữ liệu với “giá trị phụ thêm” thường bắt nguồn từ một cơ quan nhà nước hoặc tổ chức đã tạo ra tập dữ liệu GIS cơ sở, nhưng công ti kinh doanh đã thu nhận dữ liệu và “cải thiện” nó bằng cách thêm vào những thuộc tính hoặc nâng cao độ chuẩn xác không gian. Sau đó công ti đem bán phần “giá trị phụ thêm” của dữ liệu. Nhiều tập dữ liệu kiểu này cũng có thể lấy được từ Internet.
Chuyển đổi giữa các định dạng GIS
Khi nhận được dữ liệu GIS từ Internet hoặc từ nguồn khác, dữ liệu này cần được tiền xử lý nhiều để có thể hoạt động được với các tập dữ liệu GIS khác. Ban đầu, tập dữ liệu mới nhận được có thể phải được “giải nén”. Chúng thường được nén lại để giảm dung lượng lưu trữ trên đĩa CD hoặc để tải từ mạng về nhanh hơn. Nếu kiểu file thu được là ZIP, TAR hoặc GZ, nó cần được giải nén; việc này có thể thực hiện được với phần mềm miễn phí hoặc giá rẻ (như WinZip). Đôi khi, việc giải nén file có thể phức tạp hơn nhiều nếu file nén lại lồng ghép trong một file nén khác. Điều này yêu cầu giải nén file bao ngoài trước rồi mới giải nén file lồng ghép bên trong.
Các tập dữ liệu GIS thường được lưu theo một trong số các định dạng phần mềm GIS phổ biến hàng đầu (thường là shapefile) hoặc theo một định dạng được chính phủ Hoa Kỳ chỉ định. Thật may là, phần lớn các gói phần mềm GIS đọc hoặc chuyển đổi được nhiều định dạng GIS thông dụng nhất. Tuy vậy, đôi khi bạn cần phải truy cập đến phần mềm “bên thứ ba” để đọc dữ liệu rồi xuất nó dưới dạng mà chương trình GIS của bạn đọc được.
Ngay cả sau khi đã giải nén các tập dữ liệu rồi chuyển đổi chúng về dạng GIS bạn đang làm việc, thì dữ liệu này vẫn cần xử lý thêm. Nhiều hình thức tiền xử lý, thao tác, chuyển đổi dữ liệu sẽ được thảo luận ở các Chương 3 và 4.
Giai đoạn 3: Bắt dữ liệu
Giới thiệu
Khi bạn đã khai thác triệt để những mối quan hệ và Internet, thì đã đến lúc phải tự tay bắt dữ liệu. Ở giai đoạn này, bạn tạo mới các các tập dữ liệu GIS từ cả dữ liệu số mà hiện không theo định dạng GIS lẫn các nguồn dữ liệu giấy trắng mực đen. Ví dụ các nguồn dữ liệu số và không số bao gồm bản đồ (giấy và điện tử), ảnh hàng không (giấy và điện tử), các phiếu câu hỏi, kết quả quan sát thực địa, ảnh vệ tính, số liệu khảo sát, và các tọa độ thu bằng hệ thống định vị toàn cầu (Global Positioning System, GPS).
Giai đoạn bắt dữ liệu thường tẻ nhạt, tốn công, và dễ gây bực minh, nhưng lại cần thiết. Hình 2.10 chia giai đoạn này thành ba bước, và sẽ được mô tả thêm sau đây:
Hình 2.10: Các bước chính trong giai đoạn nắm bắt dữ liệu. Ở đây bạn trực tiếp số hóa các bản đồ và dữ liệu trên giấy vào hệ thống GIShoặc chuyển đổi dữ liệu số sẵn có sang định dạng mà hệ thống GIS đang dùng đọc được.1) Chuyển đổi dữ liệu dạng số2) Chuyển đổi dữ liệu không phải dạng số3) Dự án thí điểm
Chuyển đổi dữ liệu số
Trong mục này, ta xem xét các tập dữ liệu dạng số hiện không theo định dạng GIS, nhưng thường được thao tác để tạo nên các lớp GIS. Những nguồn dữ liệu này bao gồm khảo sát tự động, ảnh số, GPS, vệ tinh LIDAR (Light Detection and Ranging), các chương trình lập bản đồ không gắn với GIS, như CAD (Computer Aided Design), và ảnh viễn thám. Chương này nhấn mạnh việc chuyển đổi các dữ liệu GPS và ảnh viễn thám. Việc nhập liệu bảng tính, một cách thông thường để nhập dữ liệu thuộc tính, vào hệ thống GIS sẽ được đề cập đến ở Chương 4.
Khảo sát tự động là dùng các thiết bị bắt dữ liệu dạng số, như máy kinh vĩ, hệ thống điện tử để đo khoảng cách (electronic distance measurement, EDM), và trạm tổng hợp (total station) để bắt những dữ liệu không gian và thuộc tính. Thiết bị tinh vi nhất trong số này là trạm tổng hợp, trong đó có kết hợp tính năng đo góc của máy kinh vĩ’ với khả năng tính khoảng cách của EDM’. Người khảo sát tải về những dữ liệu khoảng cách và hướng từ những thiết bị đo và trực tiếp đưa vào nhiều chương trình GIS dựa theo vector. Tuy nhiên, dữ liệu này thường cần phải tiền xử lý trước khi sử dụng được để lập bản đồ.
Hình 2.11: Trạm tổng hợp, một thiết bị khảo sát, đo khoảng cách, hưởng, và vị trí. Ảnh lấy từ Khoa địa lý, trường Illinois State University.
Kĩ thuật ảnh cho phép ta đo đạc chính xác từ những tấm ảnh hàng không. Các kĩ thuật ảnh xác định khoảng cách trên mặt đất cùng hướng, chiều cao của địa vật, và độ cao địa hình. Kĩ thuật ảnh tạo ra dữ liệu GIS qua việc số hóa ảnh lập thể (3 chiều) và bằng cách tạo ra các ảnh hàng không được căn chỉnh không gian để nhập vào GIS dưới dạng lớp bản đồ.
GPS (Global Positioning System, Hệ thống định vị toàn cầu) là một hệ thống định vị dựa trên sóng ra-đi-ô, theo đó các máy nhận tín hiệu GPS được dùng để tính chính xác vị trí trên mặt đất từ một loạt các vệ tinh. Với một máy thu tín hiệu GPS cầm tay nhỏ gọn, không đắt (Hình 2.12), bạn có thể xác định vị trí với độ chính xác thường là trong khoảng 3 mét. Khi dùng đồng thời hai máy nhận tín hiệu GPS (mà ta gọi là Differential GPS hay DGPS) hoặc máy nhận tín hiệu GPS có chức năng Wide Area Augmentation System (WAAS, hệ thống tăng cường diện rộng), trong đó có dùng vệ tinh và trạm mặt đất để điều chỉnh tín hiệu GPS, thì bạn có thể đạt độ chính xác trong khoảng dưới 1 mét.
Hình 2.12: Thiết bị GPS cơ bản điển hình.
Mạng lưới GPS của Hoa Kỳ, có tên NAVSTAR (Navigation with Satellite Timing and Ranging), có ít nhất 24 vệ tinh quay trong 6 mặt phẳng quanh trái đất (xem Hình 2.13). Cấu hình của mạng lưới này luôn đảm bảo có ít nhất 4 vệ tinh—số vệ tinh tối thiểu cần để bắt thông tin vị trí—xuất hiện trên đường chân trời, đối với mọi điểm trên mặt đất.
Hình 2.13: Chùm vệ tinh GPS của NAVSTAR.
Bộ Quốc phòng Hoa Kỳ (Department of Defense, DoD) đã phát triển và đang điều hành NAVSTAR; DoD có thể tắt toàn bộ hệ thống này, như đã từng làm một thời gian ngay sau cuộc tấn công khủng bố 11/9/2001. DoD theokiểm soát và theo dõi các vệ tinh (vốn được trang bị bộ phận truyền/nhận sóng ra-đi-ô và một bộ đồng hồ nguyên tử) từ 5 trạm trên địa cầu, nơi đó thực hiện tính toán chính xác những số điều chỉnh quỹ đạo vệ tinh và thời gian đo trên đồng hồ. Những số điều chỉnh này được truyền từ trạm điều khiển chính tại Căn cứ Không quân Schriever thuộc bang Colorado đến các vệ tinh, và chúng thực hiện việc điều chỉnh. Tất cả vị trí vệ tinh đều được biết chính xác, và bằng việc biết chính xác vị trí của chúng, ta có thể xác định vị trí của mọi điểm trên Trái đất với một máy nhận tín hiệu GPS.
Điều này là có thể thực hiện được vì mỗi vệ tinh truyền đi một tín hiệu ra-đi-ô riêng biệt; tín hiệu này sẽ được thiết bị thu tín hiệu GPS tiếp nhận. Với tín hiệu này, thiết bị GPS mà bạn đang cầm sẽ tính khoảng cách đến từng vệ tinh trong số 4 vệ tinh đang theo dõi thông qua khoảng thời gian cần thiết để tín hiệu đi từ vệ tinh đến máy GPS của bạn. Đây là một dạng công nghệ cao của kĩ thuật khép góc tam giác (xem Hình 2.14), được gọi là “trilateration”. Vệ tinh thứ nhất định vị bạn đâu đó trên một mặt cầu (góc bên trái phía trên của Hình 2.14). Vệ tinh thứ hai thu hẹp khoảng vị trí này thành một vòng tròn giao tuyến của hai mặt cầu ứng với hai vệ tinh (góc phải trên). Vệ tinh thứ ba giảm lựa chọn xuống còn hai điểm (góc trái dưới). Cuối cùng, vệ tinh thứ tư giúp ta tính hiệu chỉnh vị trí và thời gian đồng thời chọn ra một trong số hai điểm làm vị trí mà bạn đang đứng (góc phải dưới).
Hình 2.14: Trilateration của vệ tinh GPS.
Khi biết rằng các vệ tinh cách xa mặt đất hàng nghìn dặm, ta mới thấy độ chính xác của GPS thật đáng ngạc nhiên. Song kĩ thuật này cũng không tránh khỏi sai số. Những sai số nhỏ trong đồng hồ của thiết bị nhận, các thay đổi của quỹ đạo vệ tinh, điều kiện của khí quyển làm chậm sóng ra-đi-ô, và hiện tượng nảy bật (gọi là nhiều đường truyền, “multipath”, hoặc ảo “ghosting”) khỏi các tòa nhà và vách đứng là một số khả năng gây nhiễu. Ngoài ra, GPS còn gặp khó khăn khi phải xuyên qua những cánh rừng rậm và khoảng trống giữa những tòa nhà cao tầng trong đô thị.
Một nguồn khác gây nên sai số là sự hòa loãng độ chuẩn xác về hình học (Geometric Dilution of Precision, GDOP). Đây là mối quan hệ không gian giữa thiết bị nhận GPS và mỗi vệ tinh tham gia. Nói chung, có càng ít vệ tinh lấy được tín hiệu, và chúng càng cụm lại với nhau, thì số đọc vị trí mà bạn nhận được càng thiếu chính xác. Thiết bị nhận GPS cố gắng tránh GDOP bằng cách chọn nhóm các vệ tinh ít gây sai số nhất. Nó chọn những vệ tinh cao hơn hẳn so với chân trời, bằng cách này tối thiểu hóa ảnh hưởng của bề dày khí quyển và nhiễu do nhà cửa, nhưng không quá cao để các vệ tinh khỏi cụm vào nhau.
GPS là một công cụ nhập liệu chính cho GIS. Đa số các thiết bị thu nhận, kể cả những cái không đắt tiền, đều bao gồm một ổ cứng để ghi chép lại những vị trí mà bạn đã đến. Từng vị trí được ghi lại được gọi là một điểm trên lộ trình, và gộp lại, những điểm này sẽ vạch nên vị trí và kích thước các địa vật mà bạn ghi lại ở hiện trường. Dữ liệu này có thể được tải về từ thiết bị nhận GPS (đôi khi cần cả sự trợ giúp của một chương trình riêng) và nhập vào nhiều chương trình GIS.
Một số trong các thiết bị GPS đắt tiền hơn có thêm một “danh sách địa vật” giúp cho quá trình nhập liệu được suôn sẻ. Danh sách địa vật này là những cơ sở dữ liệu mà bạn thiết lập để chứa một tập hợp các địa vật mà bạn sẽ định vị. Các danh sách này có thuộc tính gắn kèm với từng kiểu địa vật, và một nhóm các giá trị định trước cho từng thuộc tính để tiết kiệm thời gian khi công tác ở hiện trường. Cả vị trí địa vật lẫn thuộc tính đi kèm đều có thể tải vào trong hệ GIS bạn đang dùng.
LIDAR (Light Detection and Ranging) là một công nghệ viễn thám dùng xung laser để đo khoảng cách tới một bề mặt. Nó cũng tương tự như các loại ra-đa khác, song dùng ánh sáng thay vì sóng ra-đi-ô. Các hệ thống LIDAR hàng không đã tạo ra những lớp bản đồ địa hình thể hiện các điểm đỉnh của những địa vật trên mặt đất tốt hơn so với các phương pháp viễn thám và ra-đa truyền thống, và điều này tạo nên các lớp địa hình phản ánh chính xác hơn hình dạng của thành phố (bao gồm cả bề rộng và chiều cao của những tòa nhà) cùng với những cánh rừng. Hình 2.15 là một ví dụ về ảnh LIDAR trong một khu thành thị.
(Chưa có hình nào được cấp Giấy phép Tự do. Bạn hãy dùng Google để tự tìm hình LiDAR)Hình 2.15: Ảnh LIDAR thể hiện chiều cao của các địa vật.
Cả hai mô hình dữ liệu vector và raster đều dùng dữ liệu LIDAR. Nhiều chương trình GIS có những đoạn chương trình tự động hóa việc chuyển tọa độ x, y, và z (cao độ) thành các file điểm dạng véc-tơ, từ đó lại có thể chuyển thành những lớp raster (việc raster hóa được mô tả ở Chương 3) trong đó có thể phân tích và xử lý thêm. Trong hệ thống véc-tơ, các điểm đo bằng LIDAR thường phát sinh ra các lớp địa hình lưới tam giác (Triangular Irregular Networks, TIN), vốn có thể được dùng để biểu diễn địa hình trong các hệ thống dựa trên cơ sở véc-tơ.
Chuyển đổi dữ liệu không gian từ các phần mềm không phải GIS là một cách thường làm để thu được dữ liệu. Ngoài GIS ra, còn có những chương trình máy tính khác để hiển thị, tạo dự, và sửa đổi dữ liệu không gian véc-tơ. Một danh sách vắn tắt bao gồm các hệ thống CAD (Computer Aided Design) (như AutoCAD, MicroStation, và ArchiCAD) và các chương trình đồ họa véc-tơ (như Adobe Illustrator, Corel Draw, và OpenOfficeDraw). Việc chuyển đổi sẽ khác nhau tùy theo định dạng của bộ dữ liệu và những tính năng nhập/xuất của cả phầm mềm chủ và chương trình GIS. Việc thu giữ và nhập dữ liệu CAD và bản vẽ vào hệ thống GIS véc-tơ thường bao gồm việc chuyển dữ liệu số từ định dạng chủ sang định dạng GIS hoặc sang một định dạng và chương trình GIS bạn dùng dễ dàng đọc được. Đôi khi việc chuyển đổi được thực hiện dễ dàng. Đôi khi không; dữ liệu cần phải được nhập vào theo một định dạng “trung gian” mà cả hai chương trình đọc được, hoặc xuất được. Các file của AutoCAD là một ví dụ. Chúng thường được lưu theo dạng DXF ngay trong phần mềm CAD trước khi nhiều phần mềm GIS có thể đọc được dữ liệu này.
Ảnh viễn thám là một nguồn dữ liệu raster quan trọng. Mục này mô tả vắn tắt công nghệ viễn thám vệ tinh, xử lý ảnh số, và việc chyển đổi ảnh số từ viễn thám vào trong GIS.
Từ “viễn” có nghĩa là “từ một khoảng cách.” (xa). Còn “thám” trong trường hợp này dùng để chỉ việc “quan trắc, đo đạc.” Như vậy một định nghĩa cơ bản của là việc đo đạc tiến hành từ một khoảng cách.
Để hiểu được viễn thám, ta cần phải hiểu được một số khái niệm gốc quan trọng. Trước hết, tất cả các địa vật trên mặt đất đều phản xạ và hấp thụ năng lược bức xạ Mặt trời. Chúng cũng phát xạ và phản xạ một phần năng lượng đó. Lượng và kiểu của bức xạ được phát ra và phản xạ từ các địa vật trên bề mặt đất lại phụ thuộc vào thuộc tính của bản thân các địa vật đó. (xem Hình 2.16).
Hình 2.16: Các dải ánh sáng bao gồm hồng ngoại, đỏ, lục, lam, được phát ra từ Mặt trời. Lá xanh hấp thụ các dải màu đỏ và lam, nhưng phản xạ nhiều các dải hồng ngoại, và màu lục, vì vậy ta mới nhìn thấy màu xanh lục này.
Những gì mà mắt chúng ta nhìn thấy chính là bức xạ được phản xạ trong một phần nhỏ của phổ sóng điện từ (xem Hình 2.17). Ta nhìn thấy các dải ánh sáng màu lam, lục, và đỏ, với tên gọi là phổ nhìn thấy; nhưng còn các bước sóng khác vẫn tồn tại ở đó mà ta không thấy được. Tuy nhiên, các vệ tinh lại có những đầu đo không chỉ ghi lại được phổ nhìn thấy, mà còn cả phổ hồng ngoại, cận hồng ngoại, và hồng ngoại nhiệt. Song đầu đo này lại khác nhau tùy theo hãng chế tạo, vì vậy chúng đo được những bước sóng khác nhau. Những dải (và bước sóng) chính xác mà vệ tinh ghi lại được gọi là độ phân giải phổ.
Hình 2.17: Phổ điện từ với các sóng nhìn thấy được chỉ rõ. Hình ảnh gốc được cung cấp bởi Louis Keiner, Coastal Carolina University. Giấy phép: http://commons.wikimedia.org/wiki/File:Electromagnetic-Spectrum.png.
Các vệ tinh truyền dữ liệu từng bước sóng này vào các file dữ liệu đo được, gọi là ảnh viễn thám, vốn ghi lại năng lượng điện từ phản xạ và phát từ các địa vật trên mặt đất. Các ảnh này là “gốc”, theo nghĩa chúng chưa qua xử lý, và cần được tăng cường số hóa và kết hợp để làm nổi bật những địa vật cụ thể (đất nông nghiệp, thay đổi về khí hậu, sản lượng nông nghiệp, và các thuộc tính môi trường).
Cũng như ảnh raster, ảnh viễn thám bao gồm các điểm ảnh. Từng điểm ảnh trong file dữ liệu ghi lại một bước sóng (dải ánh sáng) cụ thể của phổ điện từ của một chỗ cụ thể trên bề mặt đất. Kích thước của điểm ảnh là độ phân giải không gian của ảnh, và nó khác với độ phân giải phổ ở chỗ nó liên quan đến kích thước điểm ảnh chứ không phải một bước sóng cụ thể, hoặc dải sóng ghi lại từ vệ tinh. Cũng giống như với độ phân giải phổ, các vệ tinh khác nhau thu thập số liệu theo những độ phân giải khác nhau.
Các kiểu địa vật khác nhau thì có các cường độ phát xạ và phản xạ khác nhau, đối với từng bước sóng, do đó các ảnh viễn thám được két hợp lại và xử lý để làm nổi bật lên những địa vật cụ thể. Quá trình này, trong đó ta kết hợp các ảnh để phân biệt các địa vật, được gọi là xử lý ảnh số. Việc lựa chọn ảnh phù hợp thì tùy vào kiến thức và kinh nghiệm, như thường được dựa trên dạng phổ của địa vật; cụ thể là tỉ lệ phần trăm của từng dải ánh sáng được phát xạ và phản xạ khỏi địa vật. Mỗi dạng phổ là đặc trưng cho từng địa vật.
Xử lý ảnh số được thực hiện với một trong số những gói phần mềm viễn thám chuyên dụng, như Erdas Imagine hoặc ER Mapper (song một số chương trình GIS dựa trên raster, như Idrisi, cũng có nhiều tính năng xử lý ảnh). Một khi đã được xử lý xong, các tấm ảnh có thể được nhập vào hệ GIS của bạn. Có những chương trình GIS đọc một số định dạng viễn thám chính, nhưng bạn có thể cần phải xuất ảnh ra dưới dạng chương trình GIS hiện dùng đọc được. Các ảnh sau khi xử lý thường được dùng trong hệ GIS dựa theo raster, với vai trò của một mặt dữ liệu liên tục, như dữ liệu khí hậu. Các ảnh này có thể được dùng trong hệ véc-tơ với vai trò đơn giản như một ảnh nền để tham chiếu, hoặc để “can ke” các địa vật dạng véc-tơ (một công đoạn được gọi là số hóa đường nét, như ở mục sau).
Chuyển đổi từ dữ liệu không phải dạng số
Các bản đồ giấy và ảnh giấy sẵn có là nguồn quan trọng của dữ liệu không gian phục vụ GIS. Các quá trình khác nhau, bao gồm số hóa, quét chụp tài liệu, và số hóa đường nét (“heads up” digitizing) đều giúp cho việc nhập những nguồn dữ liệu giấy nói trên vào GIS. Với đa số các dự án, bạn sẽ cần phải thu giữ cả vị trí không gian của địa vật cùng với một số thuộc tính của chúng.
Việc nhập dữ liệu thường là nút thắt chủ yếu trong quá trình phát triển một cơ sở dữ liệu GIS, và việc chuyển đổi thông tin từ bản đồ giấy, ảnh giấy, sổ ghi chép hiện trường, thường là chọn lựa ít được mong muốn nhất vì rất tẻ nhạt và tốn thời gian. Tuy vậy, đó lại là một cách đảm bảo chắc chắn rằng bạn nhận được một mức độ chính xác và chuẩn xác nhất định cho dự án đang thực hiện.
Quét chụp là cách thông dụng để chuyển đổi từ bản đồ giấy và ảnh giấy thành các ảnh số. Tấm ảnh sau khi quét là một file dạng raster, được sắp xếp dưới dạng một mảng các điểm ảnh theo cột và hàng. Các máy quét thu giữ tất cả những gì có trên tài liệu gốc bằng cách ấn định một màu hoặc một độ xám cho mỗi điểm ảnh trong mảng này. Giá trị của điểm ảnh được dựa theo độ đậm của màu hoặc độ sáng trên ảnh gốc.
Máy quét có nhiều kiểu, kích thước, và mức độ tinh vi khác nhau. Các kiểu máy quét gồm có nền phẳng (flat bed), đẩy giấy (sheet fed), dạng trống (drum), và video. Máy quét nền phẳng (hay desktop) là thông dụng nhất; nó gồm có một tấm thủy tinh mà bạn sẽ đặt tờ tài liệu cần quét lên đó. Nó hoạt động tựa như một máy phô-tô-cóp-pi, nhưng kết quả được lưu ra một hình ảnh. Thường thì các máy loại này có thể quét một diện tích không quá giấy A4 thông thường, nhưng một số hiệu máy có thể chế tạo những máy nền phẳng lớn cỡ 24” x 36″ (khoảng 61 cm x 91 cm).
Với những tài liệu cỡ lớn hơn 24” x 36”, bạn có thể chọn dùng một máy đẩy giấy (xem Hình 2.18), máy kiểu trống quay, hoặc video. Máy đẩy giấy hoạt động giống như một máy fax. Tờ tài liệu di chuyển qua một đầu quét, và hình ảnh được chụp lại. Nó chỉ quét từng tờ rời và đôi khi hình ảnh bị biến dạng bởi giấy bị đẩy lệch hoặc nhàu. Một số kiểu máy còn cho phép quét được bản đồ trên bề mặt cứng. Máy quét kiểu trống quay là một lựa chọn khác, nhưng chúng rất đắt, và điều này thường khiến cho chúng chỉ được sử dụng hạn chế ở các công ti lớn hoặc cơ quan nhà nước. Bạn đẩy bản đồ vào và cái trống quay trong đó sẽ quét dữ liệu một cách có hệ thống. Các máy quét video dùng một máy ảnh phân giải cao để quét—một cách lần lượt—từng phần của bản đồ. Loại máy này trở thành một phương án thay thế cho máy quét trống quay vì chúng rẻ hơn và độ chính xác ngày càng được cải thiện (tuy vẫn còn những biến dạng hình học và độ sáng không đều trên ảnh quét ra). Tuy vậy, chúng lại chạy rất nhanh; mỗi lần quét thường chỉ mất 1 giây.
Hình 2.18: Máy quét đẩy giấy khổ rộng.
Với nhiều dự án GIS, có thể bạn cần phải xét đến độ phân giải và độ sâu bit của nó. Độ phân giải là chi tiết mà máy quét đọc được. Các máy quét hỗ trợ độ phân giải từ 72 đến 1200 dpi (điểm mỗi inch), nhưng phần lớn các ảnh quét phục vụ cho dự án GIS được thực hiện với độ phân giải từ 200 đến 600 dpi. Các độ phân giải cao sẽ tạo ra ảnh chất lượng cao hơn, nhưng cũng tạo ra file lớn hơn nhiều. Đồng thời, cũng phải xét đến là ở cùng độ phân giải, ảnh màu thì lớn hơn ảnh xám, và ảnh xám lớn hơn ảnh đen-trắng.
Độ sâu bit là số bit được dùng để biểu diễn cho từng điểm ảnh. Độ sâu bit của máy quét càng lớn, thì ảnh số của bạn càng được biểu diễn bởi nhiều màu hoặc nhiều cấp độ xám. Chẳng hạn, một máy quét màu 24-bit có thể biểu diễn đến 2 lũy thừa 24 màu, hay 16,7 triệu màu. Tuy vậy, độ sâu bit màu lớn sẽ tạo ra file kích thước lớn hơn.
Trước khi quét bất cứ tờ tài liệu nào, hãy nhớ phủi sạch nó—vuốt phẳng các nếp gấp và dán băng dính vào những chỗ rách. Điều này làm giảm thiểu sai số không gian. Ngoài ra, hãy tẩy đi bất kì vết mực nào mà bạn không muốn xuất hiện trên ảnh thu được. Tương tự, bạn hãy đánh dấu những chỗ cần thiết và tô đậm các địa vật trên bản đồ giấy, nếu muốn thấy chúng xuất hiện trên ảnh sau khi quét.
Khi quét xong, hãy nhớ rằng bạn có một tấm ảnh “không biết nói”; các điểm ảnh trên đó không có ý nghĩa gì về trị số (chỉ là một độ xám hoặc giá trị màu lấy từ tờ tài liệu được quét). Điều này hạn chế công dụng của nó vì lúc này nó chỉ là một bức tranh thôi. Mặc dù những công nghệ quét tương lai sẽ tập trung vào tính năng vẽ những véc-tơ trực tiếp tự ảnh quét (gọi là tự véc-tơ hóa), song những công nghệ này vẫn chưa có sẵn. Còn việc quét ảnh vẫn có lợi nhờ một công đoạn nhập liệu thứ hai gọi là số hóa đường nét.
Số hóa ngẩng đầu – Sau khi tạo ra ảnh quét, bạn thực hiện tham chiếu địa lý cho nó (xem Chương 3) và dùng nó làm ảnh nền riêng cho hệ thống véc-tơ của bạn. Tiếp theo, với tấm ảnh đã đặt đúng vị trí địa lý, bạn lần theo đường nét các địa vật xuất hiện trên ảnh quét. Quá trình này, có tên gọi “số hoá ngẩng đầu” (heads up digitizing), hay số hóa trên màn hình (on-screen digitizing), cũng giống như số hóa thủ công (sẽ miêu tả sau đây), nhưng không có một bàn số hóa. Thay vào đó, bạn nhìn ảnh quét xuất hiện trên màn hình với đúng vị trí địa lý, và dùng chuột vạch theo các nét vẽ địa vật để tạo thành lớp điểm, đường hoặc đa giác mới, hoặc bổ sung vào những lớp sẵn có. Ở ví dụ dưới đây, các đa giác biểu diễn mặt bằng của các tòa nhà được vạch theo trên một tấm ảnh nhằm tạo ra một lớp vector đa giác của các tòa nhà.
Hình 2.19: Số hóa ngẩng đầu. Bằng mắt thường, vạch theo nét vẽ các địa vật có trên ảnh đã tham chiếu địa lý.[Trước hết, thực hiện tham chiếu địa lý một ảnh chụp (như ảnh hàng không trên đây)tới vị trí địa lý đúng của nó. Tiếp theo, tạo ra một lớp địa vật mới hoặc chỉnh sửa mộtlớp sẵn có. Trong trường hợp này, một lớp “nhà” được tạo ra. Di chuột theo đường biênđịa vật như trên hình ảnh được scan. Sau đó lưu lại lớp địa vật này.]
Sau khi vạch theo nét của từng địa vật, hãy nhập vào khóa nhận diện (kiểu như số thứ tự) của địa vật vào trong bảng thuộc tính (xem Hình 2.20). Cách nhập khóa nhận diện còn tùy thuộc vào lớp địa vật này là mới tạo hoặc đang được cập nhật từ lớp có sẵn. Nếu bạn đang cập nhật lớp có sẵn, trường dữ liệu này đã tồn tại rồi, và bạn chỉ cần điền giá trị của địa vật vào trường tương ứng. Nếu bạn đang tạo một lớp mới, thì cần phải định nghĩa ít nhất là trường thuộc tính chứa khóa nhận diện trước khi tiến hành số hóa. Điều này quan trọng vì mỗi địa vật cần được nhận diện duy nhất. Các thuộc tính còn lại thường được tạo thành một file riêng (có lẽ bằng Access haowjc Excel) và “nối” với bảng thuộc tính tối thiểu của địa vật sau khi hoàn thành việc số hóa. Quá trình nối sẽ được trình bày ở nửa sau của Chương 4.
Hình 2.20: Nhập khóa nhận diện (duy nhất) vào trong bảng thuộc tính của lớp mới.
Thủ tục số hóa các địa vật như vậy cũng tương tự như cách số hóa “thủ công” (xem dưới đây). Do sự phổ biến gia tăng của cách số hóa ngẩng đầu, nên số hóa thủ công ít được dùng hơn, nhưng với những trường hợp nhất định thì đó vẫn là một cách quan trọng để nhập dữ liệu bản đồ.
Số hóa bao gồm việc dùng tay lần theo chu vi của các địa vật một cách trực tiếp từ bản đồ giấy hoặc aarnh giấy được đặt trên bàn số hóa (xem Hình 2.21), một tấm bảng lớn trên đó kẻ lưới điện tử có cảm ứng vị trí của một con trỏ được gọi là “puck” (thiết bị tựa như chuột).
Hình 2.21: Số hóa bằng puck.
Tất cả gói phần mềm GIS đều có một thủ tục riêng phục vụ cho số hóa thủ công. Nói chung, nó gồm có ba bước: gắn bản đồ lên bàn số hóa, thiết lập các điểm kiểm soát, và bổ sung các địa vật trên bản đồ.
Ở bước thứ nhất, bạn gắn tấm bản đồ vào giữa mặt bàn số hóa, lấy băng dính cố định bốn góc bản đồ lại. Vuốt phẳng các nếp gấp, song tốt nhất là lấy những tờ bản đồ với tình trạng tốt, nếu không có thể phạm sai số không gian. Nếu bạn làm việc cùng với một bản đồ trong nhiều ngày, thì phải thường xuyên gắn lại nó vì hơi ẩm trong không khí có thể làm chùng tờ bản đồ.
Bước thứ hai là thiết lập những điểm kiểm soát trên bản đồ của bạn. Mặc dù các gói phần mềm khác nhau, song việc thiết lập những điểm kiểm soát đều có một thủ tục tạo đó bạn xác định ít nhất là bốn điểm chung giữa bản đồ được gắn trên bàn số hóa và bản đồ trên màn hình. Để giảm thiểu sai số, ta cần chọn điểm kiểm soát bao quanh—và một điểm nằm trong—vùng cần được số hóa. Sau đó hãy dùng puck để chỉ đến bốn điểm kiểm soát trên bản đồ số hóa, và cùng lúc, hãy xác định bốn vị trí trên màn hình với con chuột. Điều này dẫn đến mối tương quan không gian giữa bản đồ trên bàn số hóa và bản đồ hiện ra trên màn hình.
Một khi mối tương quan này đã được thiết lập, bạn có thể dò theo các địa vật thuộc bản đồ trên bàn số hóa (Bước 3). Cầm lấy puck và trỏ nó trực tiếp vào một trong số các đỉnh (điểm góc) của địa vật. Các nút trên puck cho phép bạn tạo nên đỉnh, xóa đỉnh, và khép kín đa giác. Cũng như số hóa “ngẩng đầu”, bạn sẽ muốn nhập vào ít nhất là khóa nhận diện của địa vật trong quá trình số hóa.
Số hóa GPS là việc dùng một thiết bị thu GPS để ghi lại dữ liệu về địa vật tại hiện trường. Bằng cách dùng GPS với những vị trí điểm (waypoints) như đã mô tả ở trên, nhưng các thiết bị GPS loại lập bản đồ (mapping-grade), như GeoXT của hãng Trimble, bạn có thể ghi lại các đỉnh và vị trí của điểm, đoạn thẳng, đa giác bằng cách đi dọc theo chu vi của địa vật và ghi lại một loạt các điểm nối từng đỉnh của nó.
Dự án thí điểm
Dự án thí điểm là công việc tập dượt. Ở đây, bạn thu thập một tập hợp nhỏ của lượng dữ liệu GIS cần cho dự án lớn. Sau đó bạn nhập dữ liệu vào hệ thống GIS, tiền xử lý các tập dữ liệu, phân tích chúng, rồi tạo ra kết quả đầu ra nào đó. Khi có trục trặc xảy ra, bạn chỉnh các dự án đã dùng trong dự án cho đến khi mọi thứ vận hành trơn tru.
Các dự án thí điểm cho bạn cơ hội “kiểm định mặt đất” (ground truth) với dữ liệu thứ cấp mà bạn có. Hãy nhớ rằng, thật ngốc nghếch nếu tin rằng những tập dữ liệu này không có lỗi sai gì. Bạn cần phải kiểm định mặt đất đối với dữ liệu GIS trong tay để đảm bảo chắc rằng các tập dữ liệu này là đại diện cho những gì có trên mặt đất. Việc kiểm định được thực hiện bằng cách đi tới khu vực nghiên cứu và quan sát để xác nhận rằng các các tập dữ liệu bạn có là đúng. Thường thì bạn không cần phải thống kê hoặc kiểm tra từng địa vật một. Chỉ cần kiểm tra một mẫu tự chọn là đủ. Tương tự, nếu bất kì tập dữ liệu nào hiện có đã cũ hoặc một số địa vật có hình thù kì lạ, thì đây cũng là lúc kiểm tra những điều này. Nếu việc kiểm tra thực địa là khó khăn do đường đi đến, hoặc do thuộc tính có sự tổng hợp (như số liệu điều tra), thì hãy kiểm định chéo dữ liệu GIS hiện có với các nguồn khác như ảnh hàng không, ảnh viễn thám, dữ liệu thanh tra, hoặc số liệu dân cư.
Đánh giá:
Chia sẻ:
- X
- PrintFriendly
- RSS Feed
Có liên quan
Từ khóa » Cách Nén Dữ Liệu Raster
-
Phương Pháp Nén Dữ Liệu Raster - 123doc
-
Dữ Liệu Vecter Và Raster Phân Tích Và So Sánh Có Gì Khác Nhau
-
CẤU TRÚC DỮ LIỆU RASTER VÀ VECTOR - TaiLieu.VN
-
Cấu Trúc Dữ Liệu Raster Và Cấu Trúc Dữ Liệu Vector - TaiLieu.VN
-
Cắt Dữ Liệu Raster Trong ArcMap - CLIMATE GIS
-
Phân Biệt Hình Ảnh Raster Là Gì Và Khi Nào Nên Sử Dụng? Nghĩa ...
-
[PDF] Chương 3: Cấu Trúc Dưliệu Của GIS Nô Dung
-
Cấu Trúc Cơ Sở Dữ Liệu Trong GIS - Hệ Thống Thông Tin địa Lý
-
đề Cương Gis | Xemtailieu
-
[PDF] HỌC PHẦN
-
Đồ Họa Raster – Wikipedia Tiếng Việt
-
[PDF] Gis đại Cƣơng
-
RASTER FILES Tiếng Việt Là Gì - Trong Tiếng Việt Dịch - Tr-ex
-
[PDF] TÀI LIỆU HƯỚNG DẪN THỰC HÀNH - ResearchGate