V. Tìm Hiểu Opensource Vntokenizer để Tách Từ Trong Văn Bản Tiếng ...

  1. Trang chủ >
  2. Công nghệ thông tin >
  3. Lập trình >
V. Tìm hiểu opensource Vntokenizer để tách từ trong văn bản tiếng việt.

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (640.23 KB, 26 trang )

XỬ LÝ NGÔN NGỮ TỰ NHIÊN2.1. Dữ liệuTrong một lần chạy vnTokenizer có thể tách từ một tệp hoặc đồng thời nhiều tệp nằm trongcùng một thư mục.1) Tách từ một tệp:+) Dữ liệu cần cung cấp cho chương trình gồm 1 tệp văn bản tiếng Việt, dạng thô (vídụ như tệp README.txt này).+) Kết quả: Một tệp văn bản kết quả tách từ được ghi dưới định dạng đơn giản hoặcđịnh dạng XML, tùy theo lựa chọn của người sử dụng .2) Tách từ nhiều tệp nằm trong một thư mục:+) Dữ liệu cần cung cấp gồm một thư mục chứa các tệp văn bản thô cần tách từ (thưmục input) và một thư mục trống (thư mục output) để chứa kết quả tách từ.+) Mặc định, chương trình sẽ tự động quét toàn bộ thư mục input và lọc ra tất cả cáctệp có đuôi là ".txt". Người sử dụng có thể thay đổi đuôi mặc định này thành đuôi bất kì, ví dụ".seg" bằng tùy chọn -e của dòng lệnh+) Kết quả: Tập các tệp kết quả tách từ trong thư mục output, các tệp này có cùng tênvới tệp input tương ứng, tức là tệp input/abc.txt sẽ có kết quả là tệp output/abc.txt.2.2. Chạy chương trìnhTách từ một tệp:vnTokenizer.sh -i -o []Hai tùy chọn -i và -o là bắt buộc. Ngoài ra, người dùng có thể cung cấp cáctùy chọn không bắt buộc sau đây:+) -xo : dùng định dạng XML để biểu diễn kết quả thay vì định dạng mặc định là vănbản thô.+) -nu : không sử dụng dấu gạch dưới (no underscore) khi ghi kết quả. Nếu tùy chọnnày được sử dụng thì trong kết quả, các âm tiết không được nối với nhau bằng ký tựgạch dưới, mà bằng ký tự trắng.+) -sd : sử dụng mô-đun tách câu trước khi thực hiện tách từ. Nếu tùy chọn này được sửdụng thì trước tiên vnTokenizer thực hiện tách văn bản input thành một tập các câu, sauđó thực hiện tách từ từng câu một.Mặc định thì mô-đun tách câu không được sử dụng,vnTokenizer thực hiện tách từ trên toàn bộ văn bản.Các tùy chọn này có thể được phối hợp đồng thời với nhau để cho ra kết quả mongmuốn.Ví dụ:a) vnTokenizer.sh -i samples/test0.txt -o samples/test0.tok.txtTách từ tệp samples/test0.txt và ghi kết quả vào tệp samples/test0.tok.txtb) vnTokenizer.sh -i samples/test0.txt -o samples/test0.tok.xml -xoTương tự như a), tuy nhiên tệp kết quả samples/test0.tok.xml sẽ có định dạng XMLc) vnTokenizer.sh -i samples/test0.txt -o samples/test0.tok.txt -sdTương tự như a) và sử dụng mô-đun tách câu trước khi tách từ.Tách từ một thư mục:Ngoài các tùy chọn như ở trên, khi tách từ thư mục, chương trình cung cấp thêm tùychọn không bắt buộc+) -e : chỉ định phần mở rộng của các tệp cần tách.23 XỬ LÝ NGÔN NGỮ TỰ NHIÊNVí dụ:a) vnTokenizer.sh -i samples/input -o samples/outputThực hiện tách từ tất cả các tệp samples/input/*.txt, ghi kết quả ra thư mụcsamples/output.b) vnTokenizer.sh -i samples/input -o samples/output -e .xyzThực hiện tách từ tất cả các tệp samples/input/*.xyz, ghi kết quả ra thư mụcsamples/output.Giao diện dòng lệnhKết quảFile input : 0.txtFile output output0.txt24 XỬ LÝ NGÔN NGỮ TỰ NHIÊNVI- Tài liệu tham khảo1- Bài giảng xử lý ngôn ngữ tự nhiên- Lê Thanh Hương2- IGATEC-H.Nguyen 20053- http://www.loria.fr/~lehong/tools/vnTokenizer.php4- A Novel Approach in Word Segmentation to Classify Vietnamese DocumentsUsing GA and Internet-Based Statistics- Nguyễn Thanh Hùng.25

Xem Thêm

Tài liệu liên quan

  • Bài tập lớn xử lý ngôn ngữ tự nhiên đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyềnBài tập lớn xử lý ngôn ngữ tự nhiên đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyền
    • 26
    • 3,030
    • 24
  • luan_van_tot_nghiep luan_van_tot_nghiep
    • 87
    • 0
    • 0
  • Quản lý hệ thống bán hàng Quản lý hệ thống bán hàng
    • 15
    • 1
    • 23
Tải bản đầy đủ (.doc) (26 trang)

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

(993 KB) - Bài tập lớn xử lý ngôn ngữ tự nhiên đề tài tìm hiểu phương pháp tách từ trong văn bản tiếng việt theo hướng tiếp cận của giải thuật di truyền-26 (trang) Tải bản đầy đủ ngay ×

Từ khóa » Tách Từ Tiếng Việt Vntokenizer