N-gram – Wikipedia Tiếng Việt
Có thể bạn quan tâm
Nội dung
chuyển sang thanh bên ẩn- Đầu
- Bài viết
- Thảo luận
- Đọc
- Sửa đổi
- Sửa mã nguồn
- Xem lịch sử
- Đọc
- Sửa đổi
- Sửa mã nguồn
- Xem lịch sử
- Các liên kết đến đây
- Thay đổi liên quan
- Trang đặc biệt
- Liên kết thường trực
- Thông tin trang
- Trích dẫn trang này
- Lấy URL ngắn gọn
- Tải mã QR
- Tạo một quyển sách
- Tải dưới dạng PDF
- Bản để in ra
- Khoản mục Wikidata
Trong lĩnh vực ngôn ngữ học tính toán và xác suất, n-gram là một chuỗi tiếp giáp của n phần tử từ một mẫu văn bản hay lời nói cho trước. Các phần tử có thể là âm vị, âm tiết, chữ cái, từ hoặc các cặp cơ sở (base pairs) tùy theo ứng dụng. Các n-gram được thu thập điển hình từ một tập dữ liệu văn bản hoặc tập dữ liệu lời nói. Khi các phần tử là các từ, n-grams có thể được gọi là các shingle[cần giải thích].[1]
Sử dụng tiền tố số học, một n-gram có kích thước n là 1 được gọi là "unigram"; kích thước n = 2 gọi là "Bigram" (hoặc, ít phổ biến là "digram"); kích thước n = 3 là "Trigram". Trong sinh học tính toán, một polyme hoặc oligomer với kích thước cho trước gọi là k-mer thay vì dùng n-gram, với các tên đặc biệt dùng tiền tố số học như "monomer", "dimer", "trimer", "tetramer", "pentamer",...
Xem thêm
[sửa | sửa mã nguồn]- Mô hình Markov ẩn
- Tuple
- Bài toán xâu con chung dài nhất
Tham khảo
[sửa | sửa mã nguồn]- ^ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). “Syntactic clustering of the web”. Computer Networks and ISDN Systems. 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7.
- Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press: 1999. ISBN 0-262-13360-1.
- White, Owen; Dunning, Ted; Sutton, Granger; Adams, Mark; Venter, J.Craig; Fields, Chris (1993). “A quality control algorithm for dna sequencing projects”. Nucleic Acids Research. 21 (16): 3829–3838. doi:10.1093/nar/21.16.3829. PMC 309901. PMID 8367301.
- Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.
- Figueroa, Alejandro; Atkinson, John (2012). “Contextual Language Models For Ranking Answers To Natural Language Definition Questions”. Computational Intelligence. 28 (4): 528–548. doi:10.1111/j.1467-8640.2012.00426.x.
- Brocardo, Marcelo Luiz; Issa Traore; Sherif Saad; Isaac Woungang (2013). Authorship Verification for Short Messages Using Stylometry (PDF). IEEE Intl. Conference on Computer, Information and Telecommunication Systems (CITS).
Liên kết ngoài
[sửa | sửa mã nguồn]- Google's Google Book n-gram viewer and Web n-grams database (September 2006)
- Microsoft's web n-grams service
- STATOPERATOR N-grams Project Weighted n-gram viewer for every domain in Alexa Top 1M
- 1,000,000 most frequent 2,3,4,5-grams from the 425 million word Corpus of Contemporary American English
- Peachnote's music ngram viewer
- Stochastic Language Models (n-Gram) Specification (W3C)
- Michael Collin's notes on n-Gram Language Models Lưu trữ 2019-10-24 tại Wayback Machine
- OpenRefine: Clustering In Depth
| |
---|---|
Thuật ngữ chung |
|
Khai thác văn bản |
|
Tóm tắt tự động |
|
Dịch tự động |
|
Nhận dạng tự độngvà thu thập dữ liệu |
|
Mô hình ngữ nghĩa phân phối |
|
Mô hình chủ đề |
|
Xem xét vớisự trợ giúp máy tính |
|
Giao diện người dùngngôn ngữ tự nhiên |
|
Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.
|
- Xử lý ngôn ngữ tự nhiên
- Ngôn ngữ học tính toán
- Mô hình hóa ngôn ngữ
- Nhận dạng tiếng nói
- Bài viết cần giải thích
- Bản mẫu webarchive dùng liên kết wayback
- Tất cả bài viết sơ khai
- Sơ khai
Từ khóa » Tách Từ N-gram
-
Cho Mình Hỏi Về N-gram Và Tách Từ Trong Văn Bản Tiếng Việt
-
N-gram | Xử Lý Tiếng Việt Wiki
-
Mô Hình Tách Từ, Gán Nhãn Từ Loại Và Hướng Tiếp Cận Tích Hợp Cho ...
-
[PDF] Xử Lí Bài Toán Thêm Dấu Cho Tiếng Việt Không Dấu Dựa
-
Mô Hình Ngôn Ngữ Và Bài Toán Thêm Dấu Câu Trong Tiếng Việt - Viblo
-
8.3. Mô Hình Ngôn Ngữ Và Tập Dữ Liệu - Đắm Mình Vào Học Sâu
-
Full Text Search, Từ Khái Niệm đến Thực Tiễn (Phần 2)
-
Nghiên Cứu Mô Hình Ngôn Ngữ N-gram Và ứng Dụng Trong Bài Toán ...
-
[PDF] Sự ảnh Hưởng Của Phương Pháp Tách Từ Trong Bài Toán
-
Đề Tài Nghiên Cứu Mô Hình Ngôn Ngữ N-Gram Và ứng Dụng Trong Bài ...
-
Mô Hình Ngôn Ngữ
-
Ứng Dụng Phương Pháp Pointwise Vào Bài Toán Tách Từ Cho Tiếng Việt
-
Language Models N-gram - SlideShare
-
[PDF] Nghiên Cứu Phương Pháp So Sánh độ Tương đồng Văn Bản Bằng độ ...
-
[PDF] Giải Pháp Tách Từ Sử Dụng Mạng Nơ Ron Nhằm Nâng Cao Chất Lượng ...
-
Khóa Luận Kiểm Lỗi Chính Tả Tiếng Việt - Thư Viện Tài Liệu
-
[DOC] Nghiên Cứu Một Số Kỹ Thuật Tách Từ Trong Xử Lý Ngôn Ngữ Tự Nhiên
-
[PDF] Nghiên Cứu Mô Hình Ngôn Ngữ N-gram Và ứng Dụng Trong - TaiLieu.VN
-
TIN TỨC VÀ SỰ KIỆN - ĐẠI HỌC QUỐC GIA HÀ NỘI