N-gram – Wikipedia Tiếng Việt

Có thể bạn quan tâm

Bước tới nội dung

Nội dung

chuyển sang thanh bên ẩn

Đầu
1 Xem thêm
2 Tham khảo
3 Liên kết ngoài

Bài viết
Thảo luận

Tiếng Việt

Đọc
Sửa đổi
Sửa mã nguồn
Xem lịch sử

Công cụ Công cụ chuyển sang thanh bên ẩn Tác vụ

Đọc
Sửa đổi
Sửa mã nguồn
Xem lịch sử

Chung

Các liên kết đến đây
Thay đổi liên quan
Liên kết thường trực
Thông tin trang
Trích dẫn trang này
Tạo URL rút gọn
Tải mã QR

In và xuất

Tạo một quyển sách
Tải dưới dạng PDF
Bản để in ra

Tại dự án khác

Khoản mục Wikidata

Giao diện chuyển sang thanh bên ẩn Bách khoa toàn thư mở Wikipedia

Trong lĩnh vực ngôn ngữ học tính toán và xác suất, n-gram là một chuỗi tiếp giáp của n phần tử từ một mẫu văn bản hay lời nói cho trước. Các phần tử có thể là âm vị, âm tiết, chữ cái, từ hoặc các cặp cơ sở (base pairs) tùy theo ứng dụng. Các n-gram được thu thập điển hình từ một tập dữ liệu văn bản hoặc tập dữ liệu lời nói. Khi các phần tử là các từ, n-grams có thể được gọi là các shingle[cần giải thích].[1]

Sử dụng tiền tố số học, một n-gram có kích thước n là 1 được gọi là "unigram"; kích thước n = 2 gọi là "Bigram" (hoặc, ít phổ biến là "digram"); kích thước n = 3 là "Trigram". Trong sinh học tính toán, một polyme hoặc oligomer với kích thước cho trước gọi là k-mer thay vì dùng n-gram, với các tên đặc biệt dùng tiền tố số học như "monomer", "dimer", "trimer", "tetramer", "pentamer",...

Xem thêm

[sửa | sửa mã nguồn]

Mô hình Markov ẩn
Tuple
Bài toán xâu con chung dài nhất

Tham khảo

[sửa | sửa mã nguồn]

^ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). "Syntactic clustering of the web". Computer Networks and ISDN Systems. Quyển 29 số 8. tr. 1157–1166. doi:10.1016/s0169-7552(97)00031-7.

Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press: 1999. ISBN 0-262-13360-1.
White, Owen; Dunning, Ted; Sutton, Granger; Adams, Mark; Venter, J.Craig; Fields, Chris (1993). "A quality control algorithm for dna sequencing projects". Nucleic Acids Research. Quyển 21 số 16. tr. 3829–3838. doi:10.1093/nar/21.16.3829. PMC 309901. PMID 8367301.
Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.
Figueroa, Alejandro; Atkinson, John (2012). "Contextual Language Models For Ranking Answers To Natural Language Definition Questions". Computational Intelligence. Quyển 28 số 4. tr. 528–548. doi:10.1111/j.1467-8640.2012.00426.x.
Brocardo, Marcelo Luiz; Issa Traore; Sherif Saad; Isaac Woungang (2013). Authorship Verification for Short Messages Using Stylometry (PDF). IEEE Intl. Conference on Computer, Information and Telecommunication Systems (CITS).

Liên kết ngoài

[sửa | sửa mã nguồn]

Google's Google Book n-gram viewer and Web n-grams database (September 2006)
Microsoft's web n-grams service
STATOPERATOR N-grams Project Weighted n-gram viewer for every domain in Alexa Top 1M
1,000,000 most frequent 2,3,4,5-grams from the 425 million word Corpus of Contemporary American English
Peachnote's music ngram viewer
Stochastic Language Models (n-Gram) Specification (W3C)
Michael Collin's notes on n-Gram Language Models Lưu trữ ngày 24 tháng 10 năm 2019 tại Wayback Machine
OpenRefine: Clustering In Depth

x t s Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung	Hiểu ngôn ngữ tự nhiên Ngữ liệu văn bản Ngữ liệu tiếng nói Từ dừng Mô hình túi từ AI-đầy đủ N-gram (Bigram, Trigram)
Khai thác văn bản	Phân đoạn văn bản Gán nhãn từ loại Phân tích cú pháp sơ bộ Compound-term processing Collocation extraction Stemming Lemmatisation Nhận dạng thực thể có tên Coreference Phân tích tình cảm Khai phá khái niệm Phân tích cú pháp Nhập nhằng Ontology learning Trích xuất thuật ngữ Textual entailment Truecasing
Tóm tắt tự động	Tóm tắt đa văn bản Trích xuất câu Đơn giản hóa văn bản
Dịch tự động	Computer-assisted translation Example-based machine translation Rule-based machine translation Dịch máy bằng nơ-ron
Nhận dạng tự độngvà thu thập dữ liệu	Nhận dạng tiếng nói Tổng hợp giọng nói Nhận dạng ký tự quang học Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối	BERT Document-term matrix Explicit semantic analysis fastText GloVe Mô hình ngôn ngữ (lớn) Phân tích ngữ nghĩa tiềm ẩn Seq2seq Vectơ từ Word2vec
Mô hình chủ đề	Phân bổ Pachinko Phân bổ Dirichlet tiềm ẩn Phân tích ngữ nghĩa tiềm ẩn
Xem xét vớisự trợ giúp máy tính	Automated essay scoring Concordancer Sửa lỗi chính tả Predictive text Spell checker Syntax guessing
Giao diện người dùngngôn ngữ tự nhiên	Trợ lý ảo Chatbot Interactive fiction Question answering Giao diện giọng nói người dùng

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

Lấy từ “https://vi.wikipedia.org/w/index.php?title=N-gram&oldid=67247682” Thể loại:

Xử lý ngôn ngữ tự nhiên
Ngôn ngữ học tính toán
Mô hình hóa ngôn ngữ
Nhận dạng tiếng nói

Thể loại ẩn:

Bài viết cần giải thích
Bản mẫu webarchive dùng liên kết wayback
Tất cả bài viết sơ khai
Sơ khai

Tìm kiếm Tìm kiếm Đóng mở mục lục N-gram 24 ngôn ngữ Thêm đề tài

Từ khóa » Tách Từ N-gram

N-gram – Wikipedia Tiếng Việt

Nội dung

Xem thêm

Tham khảo

Liên kết ngoài

Cho Mình Hỏi Về N-gram Và Tách Từ Trong Văn Bản Tiếng Việt

N-gram | Xử Lý Tiếng Việt Wiki

Mô Hình Tách Từ, Gán Nhãn Từ Loại Và Hướng Tiếp Cận Tích Hợp Cho ...

[PDF] Xử Lí Bài Toán Thêm Dấu Cho Tiếng Việt Không Dấu Dựa

Mô Hình Ngôn Ngữ Và Bài Toán Thêm Dấu Câu Trong Tiếng Việt - Viblo

8.3. Mô Hình Ngôn Ngữ Và Tập Dữ Liệu - Đắm Mình Vào Học Sâu

Full Text Search, Từ Khái Niệm đến Thực Tiễn (Phần 2)

Nghiên Cứu Mô Hình Ngôn Ngữ N-gram Và ứng Dụng Trong Bài Toán ...

[PDF] Sự ảnh Hưởng Của Phương Pháp Tách Từ Trong Bài Toán

Đề Tài Nghiên Cứu Mô Hình Ngôn Ngữ N-Gram Và ứng Dụng Trong Bài ...

Mô Hình Ngôn Ngữ

Ứng Dụng Phương Pháp Pointwise Vào Bài Toán Tách Từ Cho Tiếng Việt

Language Models N-gram - SlideShare

[PDF] Nghiên Cứu Phương Pháp So Sánh độ Tương đồng Văn Bản Bằng độ ...

[PDF] Giải Pháp Tách Từ Sử Dụng Mạng Nơ Ron Nhằm Nâng Cao Chất Lượng ...

Khóa Luận Kiểm Lỗi Chính Tả Tiếng Việt - Thư Viện Tài Liệu

[DOC] Nghiên Cứu Một Số Kỹ Thuật Tách Từ Trong Xử Lý Ngôn Ngữ Tự Nhiên

[PDF] Nghiên Cứu Mô Hình Ngôn Ngữ N-gram Và ứng Dụng Trong - TaiLieu.VN

TIN TỨC VÀ SỰ KIỆN - ĐẠI HỌC QUỐC GIA HÀ NỘI

Liên Hệ