Undertheseanlp/word_tokenize: Vietnamese Word Tokenize - GitHub
Có thể bạn quan tâm
Dự án nghiên cứu về bài toán tách từ tiếng Việt, được phát triển bởi nhóm nghiên cứu xử lý ngôn ngữ tự nhiên tiếng Việt - underthesea. Chứa mã nguồn các thử nghiệm cho việc xử lý dữ liệu, huấn luyện và đánh giá mô hình, cũng như cho phép dễ dàng tùy chỉnh mô hình đối với những tập dữ liệu mới.
Nhóm tác giả
- Vũ Anh (anhv.ict91@gmail.com)
- Bùi Nhật Anh (buinhatanh1208@gmail.com)
- Đoàn Việt Dũng (doanvietdung273@gmail.com)
Tham gia đóng góp
Mọi ý kiến đóng góp hoặc yêu cầu trợ giúp xin gửi vào mục Issues của dự án. Các thảo luận được khuyến khích sử dụng tiếng Việt để dễ dàng trong quá trình trao đổi.
Nếu bạn có kinh nghiệm trong bài toán này, muốn tham gia vào nhóm phát triển với vai trò là Developer, xin hãy đọc kỹ Hướng dẫn tham gia đóng góp.
Mục lục
- Yêu cầu hệ thống
- Thiết lập môi trường
- Hướng dẫn sử dụng
- Sử dụng mô hình đã huấn luyện
- Huấn luyện mô hình
- Kết quả thử nghiệm
- Trích dẫn
- Bản quyền
Yêu cầu hệ thống
- Hệ điều hành: Linux (Ubuntu, CentOS), Mac
- Python 3.6
- Anaconda
- languageflow==1.1.7
Thiết lập môi trường
Tải project bằng cách sử dụng lệnh git clone
$ https://github.com/undertheseanlp/word_tokenizeTạo môi trường mới và cài đặt các gói liên quan
$ cd word_tokenize $ conda create -n word_tokenize python=3.6 $ pip install -r requirements.txtHướng dẫn sử dụng
Trước khi chạy các thử nghiệm, hãy chắc chắn bạn đã activate môi trường word_tokenize, mọi câu lệnh đều được chạy trong thư mục gốc của dự án.
$ cd word_tokenize $ source activate word_tokenizeSử dụng mô hình đã huấn luyện sẵn
$ python word_tokenize.py --text "Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò" $ python word_tokenize.py --fin tmp/input.txt --fout tmp/output.txtHuấn luyện mô hình
Huấn luyện mô hình mới
$ python util/preprocess_vlsp2013.py $ python train.py \ --train tmp/vlsp2013/train.txt \ --model tmp/model.binKiểm tra mô hình vừa huấn luyện
$ python word_tokenize.py \ --fin tmp/input.txt --fout tmp/output.txt \ --model tmp/model.binKết quả thử nghiệm
Mô hình | F1 (%) | Thời gian train |
---|---|---|
CRF + full features | 97.65 |
Trích dẫn
Vui lòng trích dẫn thông tin về dự án nếu bạn sử dụng mã nguồn này
@online{undertheseanlp/word_tokenize, author ={Vu Anh, Bui Nhat Anh, Doan Viet Dung}, year = {2018}, title ={Xây dựng hệ thống tách từ tiếng Việt}, url ={https://github.com/undertheseanlp/word_tokenize} }Bản quyền
Mã nguồn của dự án được phân phối theo giấy phép GPL-3.0.
Từ khóa » Tách Từ Tiếng Việt
-
Cách Tách Từ Cho Tiếng Việt
-
Tách Từ | Xử Lý Tiếng Việt Wiki
-
Thuật Toán Tách Từ
-
Tìm Hiểu Một Vài Phương Pháp Tách Từ Trong Văn Bản Tiếng Việt
-
[PDF] Tách Từ Tiếng Việt - Soict - HUST
-
Tìm Hiểu Một Vài Phương Pháp Tách Từ Trong Văn Bản Tiếng Việt
-
Ứng Dụng Phương Pháp Pointwise Vào Bài Toán Tách Từ Cho Tiếng Việt
-
[PDF] Sự ảnh Hưởng Của Phương Pháp Tách Từ Trong Bài Toán
-
Tìm Hiểu Về Tách Từ Trong Tiếng Việt - Speaker Deck
-
Hiện Tượng Tách Từ Trong Tiếng Việt (Ví Dụ: Đi đâu Mà Vội Mà Vàng ...
-
Nghiên Cứu Phát Triển Một Số Kỹ Thuật Tách Từ Tiếng Việt | Xemtailieu
-
Mô Hình Tách Từ, Gán Nhãn Từ Loại Và Hướng Tiếp Cận Tích Hợp Cho ...
-
Nghiên Cứu Một Số Kỹ Thuật Tách Từ Trong Xử Lý Ngôn Ngữ... - ĐHKG
-
[PDF] Giải Pháp Tách Từ Sử Dụng Mạng Nơ Ron Nhằm Nâng Cao Chất Lượng ...
-
Phát Triển Công Cụ Tách Từ Và Giải Nghĩa Từ Hán - Việt Trong Văn Bản
-
VinBigdata - CÁC KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ ...
-
Tách Tử Tiếng Việt.pdf (.docx) | Tải Miễn Phí
-
Tokenization Là Gì? Các Kỹ Thuật Tách Từ Trong Xử Lý Ngôn Ngữ Tự Nhiên
-
[PDF] HƯỚNG DẪN TÁCH CÂU TIẾNG VIỆT *****