N-gram – Wikipedia Tiếng Việt

Bước tới nội dung

Nội dung

chuyển sang thanh bên ẩn
  • Đầu
  • 1 Xem thêm
  • 2 Tham khảo
  • 3 Liên kết ngoài
  • Bài viết
  • Thảo luận
Tiếng Việt
  • Đọc
  • Sửa đổi
  • Sửa mã nguồn
  • Xem lịch sử
Công cụ Công cụ chuyển sang thanh bên ẩn Tác vụ
  • Đọc
  • Sửa đổi
  • Sửa mã nguồn
  • Xem lịch sử
Chung
  • Các liên kết đến đây
  • Thay đổi liên quan
  • Trang đặc biệt
  • Thông tin trang
  • Trích dẫn trang này
  • Lấy URL ngắn gọn
  • Tải mã QR
In và xuất
  • Tạo một quyển sách
  • Tải dưới dạng PDF
  • Bản để in ra
Tại dự án khác
  • Khoản mục Wikidata
Giao diện chuyển sang thanh bên ẩn Bách khoa toàn thư mở Wikipedia
Một vài n-gram thường tìm thấy trong các tiêu đề ấn bản về bệnh virus corona 2019.

Trong lĩnh vực ngôn ngữ học tính toán và xác suất, n-gram là một chuỗi tiếp giáp của n phần tử từ một mẫu văn bản hay lời nói cho trước. Các phần tử có thể là âm vị, âm tiết, chữ cái, từ hoặc các cặp cơ sở (base pairs) tùy theo ứng dụng. Các n-gram được thu thập điển hình từ một tập dữ liệu văn bản hoặc tập dữ liệu lời nói. Khi các phần tử là các từ, n-grams có thể được gọi là các shingle[cần giải thích].[1]

Sử dụng tiền tố số học, một n-gram có kích thước n là 1 được gọi là "unigram"; kích thước n = 2 gọi là "Bigram" (hoặc, ít phổ biến là "digram"); kích thước n = 3 là "Trigram". Trong sinh học tính toán, một polyme hoặc oligomer với kích thước cho trước gọi là k-mer thay vì dùng n-gram, với các tên đặc biệt dùng tiền tố số học như "monomer", "dimer", "trimer", "tetramer", "pentamer",...

Xem thêm

[sửa | sửa mã nguồn]
  • Mô hình Markov ẩn
  • Tuple
  • Bài toán xâu con chung dài nhất

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Broder, Andrei Z.; Glassman, Steven C.; Manasse, Mark S.; Zweig, Geoffrey (1997). “Syntactic clustering of the web”. Computer Networks and ISDN Systems. 29 (8): 1157–1166. doi:10.1016/s0169-7552(97)00031-7.
  • Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press: 1999. ISBN 0-262-13360-1.
  • White, Owen; Dunning, Ted; Sutton, Granger; Adams, Mark; Venter, J.Craig; Fields, Chris (1993). “A quality control algorithm for dna sequencing projects”. Nucleic Acids Research. 21 (16): 3829–3838. doi:10.1093/nar/21.16.3829. PMC 309901. PMID 8367301.
  • Frederick J. Damerau, Markov Models and Linguistic Theory. Mouton. The Hague, 1971.
  • Figueroa, Alejandro; Atkinson, John (2012). “Contextual Language Models For Ranking Answers To Natural Language Definition Questions”. Computational Intelligence. 28 (4): 528–548. doi:10.1111/j.1467-8640.2012.00426.x.
  • Brocardo, Marcelo Luiz; Issa Traore; Sherif Saad; Isaac Woungang (2013). Authorship Verification for Short Messages Using Stylometry (PDF). IEEE Intl. Conference on Computer, Information and Telecommunication Systems (CITS).

Liên kết ngoài

[sửa | sửa mã nguồn]
  • Google's Google Book n-gram viewer and Web n-grams database (September 2006)
  • Microsoft's web n-grams service
  • STATOPERATOR N-grams Project Weighted n-gram viewer for every domain in Alexa Top 1M
  • 1,000,000 most frequent 2,3,4,5-grams from the 425 million word Corpus of Contemporary American English
  • Peachnote's music ngram viewer
  • Stochastic Language Models (n-Gram) Specification (W3C)
  • Michael Collin's notes on n-Gram Language Models Lưu trữ 2019-10-24 tại Wayback Machine
  • OpenRefine: Clustering In Depth
  • x
  • t
  • s
Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung
  • Hiểu ngôn ngữ tự nhiên
  • Ngữ liệu văn bản
  • Ngữ liệu tiếng nói
  • Từ dừng
  • Mô hình túi từ
  • AI-đầy đủ
  • N-gram (Bigram, Trigram)
Khai thác văn bản
  • Phân đoạn văn bản
  • Gán nhãn từ loại
  • Phân tích cú pháp sơ bộ
  • Compound-term processing
  • Collocation extraction
  • Stemming
  • Lemmatisation
  • Nhận dạng thực thể có tên
  • Coreference
  • Phân tích tình cảm
  • Khai phá khái niệm
  • Phân tích cú pháp
  • Nhập nhằng
  • Ontology learning
  • Trích xuất thuật ngữ
  • Textual entailment
  • Truecasing
Tóm tắt tự động
  • Tóm tắt đa văn bản
  • Trích xuất câu
  • Đơn giản hóa văn bản
Dịch tự động
  • Computer-assisted translation
  • Example-based machine translation
  • Rule-based machine translation
  • Dịch máy bằng nơ-ron
Nhận dạng tự độngvà thu thập dữ liệu
  • Nhận dạng tiếng nói
  • Tổng hợp giọng nói
  • Nhận dạng ký tự quang học
  • Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối
  • BERT
  • Document-term matrix
  • Explicit semantic analysis
  • fastText
  • GloVe
  • Mô hình ngôn ngữ (lớn)
  • Phân tích ngữ nghĩa tiềm ẩn
  • Seq2seq
  • Vectơ từ
  • Word2vec
Mô hình chủ đề
  • Phân bổ Pachinko
  • Phân bổ Dirichlet tiềm ẩn
  • Phân tích ngữ nghĩa tiềm ẩn
Xem xét vớisự trợ giúp máy tính
  • Automated essay scoring
  • Concordancer
  • Sửa lỗi chính tả
  • Predictive text
  • Spell checker
  • Syntax guessing
Giao diện người dùngngôn ngữ tự nhiên
  • Trợ lý ảo
  • Chatbot
  • Interactive fiction
  • Question answering
  • Giao diện giọng nói người dùng
Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.
  • x
  • t
  • s
Lấy từ “https://vi.wikipedia.org/w/index.php?title=N-gram&oldid=67247682” Thể loại:
  • Xử lý ngôn ngữ tự nhiên
  • Ngôn ngữ học tính toán
  • Mô hình hóa ngôn ngữ
  • Nhận dạng tiếng nói
Thể loại ẩn:
  • Bài viết cần giải thích
  • Bản mẫu webarchive dùng liên kết wayback
  • Tất cả bài viết sơ khai
  • Sơ khai

Từ khóa » Tách Từ N-gram