Bộ Dữ Liệu MNIST - Tìm Hiểu Và Nâng Cao Hiệu Quả Nhận Dạng Chữ ...

Bộ dữ liệu MNIST là bộ dữ liệu được thu thập từ các chữ số viết tay (gồm các chữ số 0, 1, 2, 3, 4, 5, 6, 7, 8, 9) của người dùng thực tế (xấp xỉ khoảng 250 người), do hai nhà nghiên cứu Cortes C. (thuộc phòng thí nghiệm Google Labs, New York) và Burges C.J.C. (thuộc trung tâm nghiên cứu Microsoft Research, Redmond) phát triển. Sau đó, LeCun Y. thuộc Viện nghiên cứu Courant (Đại học New York) đã hoàn thiện bộ dữ liệu này. Bộ dữ liệu MNIST cùng với các hướng dẫn về cách sử dụng cũng như thông tin được công bố quốc tế trên trang web [9]:

http://yann.lecun.com/exdb/mnist/

Cũng giống như nhiều tập dữ liệu Open test khác, nội dung bộ dữ liệu MNIST cũng bao gồm hai phần (những người có chữ viết trong tập dữ liệu huấn luyện và trong tập dữ liệu kiểm tra, theo các tác giả, là phân biệt với nhau):

 Tập dữ liệu huấn luyện (Train set): gồm có 60000 mẫu.

Cụ thể hơn, hai tập tin sau đây chứa dữ liệu để huấn luyện, gồm các ảnh và nhãn lớp gán sẵn cho chúng:

 train-images-idx3-ubyte.gz: chứa dữ liệu ảnh của 60000 mẫu huấn luyện.

 train-labels-idx1-ubyte.gz: chứa nhãn lớp của 60000 mẫu huấn luyện. Kèm theo đó là hai tập tin sau đây chứa dữ liệu để kiểm tra, cũng gồm ảnh và nhãn lớp thật để phục vụ cho đánh giá độ chính xác khi nhận dạng:

 t10k-images-idx3-ubyte.gz: chứa dữ liệu ảnh của 10000 mẫu kiểm tra.

 t10k-labels-idx1-ubyte.gz: chứa nhãn lớp của 10000 mẫu kiểm tra. Hình 4.1 minh họa một vài mẫu ký tự trích trong bộ dữ liệu MNIST:

Hình 4.1. Một số mẫu trích từ bộ dữ liệu MNIST [3]

Từ khóa » Bộ Dữ Liệu Mnist