Từ Dừng – Wikipedia Tiếng Việt

Bước tới nội dung

Nội dung

chuyển sang thanh bên ẩn
  • Đầu
  • 1 Xem thêm
  • 2 Tham khảo
  • 3 Liên kết ngoài
  • Bài viết
  • Thảo luận
Tiếng Việt
  • Đọc
  • Sửa đổi
  • Sửa mã nguồn
  • Xem lịch sử
Công cụ Công cụ chuyển sang thanh bên ẩn Tác vụ
  • Đọc
  • Sửa đổi
  • Sửa mã nguồn
  • Xem lịch sử
Chung
  • Các liên kết đến đây
  • Thay đổi liên quan
  • Trang đặc biệt
  • Thông tin trang
  • Trích dẫn trang này
  • Lấy URL ngắn gọn
  • Tải mã QR
In và xuất
  • Tạo một quyển sách
  • Tải dưới dạng PDF
  • Bản để in ra
Tại dự án khác
  • Khoản mục Wikidata
Giao diện chuyển sang thanh bên ẩn Bách khoa toàn thư mở Wikipedia
mot so tu dung

Trong điện toán và xử lý ngôn ngữ tự nhiên, từ dừng (tiếng Anh: stopword) là các từ được lọc ra trước hoặc sau quá trình xử lý dữ liệu văn bản.[1] Mặc dù từ dừng thường coi là các từ phổ biến trong một ngôn ngữ, tuy nhiên vẫn chưa các một danh sách chung (toàn cục) các từ dừng được dùng trong tất cả công cụ xử lý ngôn ngữ tự nhiên, và thực vậy không phải tất cả công cụ đều có danh sách này. Một số công cụ tránh xóa từ dùng để hỗ trợ việc tìm kiếm cụm từ.

Bất cứ nhóm từ nào cũng có thể được chọn làm các từ dừng với mục đích cho trước. Đối với một số máy truy tìm dữ liệu, những từ này là những từ phổ biến nhất, chẳng hạn như trong tiếng Anh là the, is, at, which, và on. Một số từ dừng trong tiếng Việt là "bị', "bởi", "cả", "các", và "cái".[2]

Xem thêm

[sửa | sửa mã nguồn]
  • Khai thác văn bản
  • Khái thác khái niệm
  • Xử lý ngôn ngữ tự nhiên
  • Mở rộng truy vấn
  • Stemming
  • Lập chỉ mục công cụ tìm kiếm

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Rajaraman, A.; Ullman, J. D. (2011). “Data Mining” (PDF). Mining of Massive Datasets. tr. 1–17. doi:10.1017/CBO9781139058452.002. ISBN 9781139058452.
  2. ^ “Vietnamese stopwords”. npm. Truy cập 19 tháng 5 năm 2020.

Liên kết ngoài

[sửa | sửa mã nguồn]
  • List of English Stop Words (PHP array, CSV) Lưu trữ 2016-01-03 tại Wayback Machine
  • Full-Text Stopwords in MySQL
  • English Stop Words (CSV)
  • Stop Words Indonesia Query PHP Array
  • German Stop Words,[https://archive.today/20130210071035/http://aniol-consulting.de/uebersicht
  • x
  • t
  • s
Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung
  • Hiểu ngôn ngữ tự nhiên
  • Ngữ liệu văn bản
  • Ngữ liệu tiếng nói
  • Từ dừng
  • Mô hình túi từ
  • AI-đầy đủ
  • N-gram (Bigram, Trigram)
Khai thác văn bản
  • Phân đoạn văn bản
  • Gán nhãn từ loại
  • Phân tích cú pháp sơ bộ
  • Compound-term processing
  • Collocation extraction
  • Stemming
  • Lemmatisation
  • Nhận dạng thực thể có tên
  • Coreference
  • Phân tích tình cảm
  • Khai phá khái niệm
  • Phân tích cú pháp
  • Nhập nhằng
  • Ontology learning
  • Trích xuất thuật ngữ
  • Textual entailment
  • Truecasing
Tóm tắt tự động
  • Tóm tắt đa văn bản
  • Trích xuất câu
  • Đơn giản hóa văn bản
Dịch tự động
  • Computer-assisted translation
  • Example-based machine translation
  • Rule-based machine translation
  • Dịch máy bằng nơ-ron
Nhận dạng tự độngvà thu thập dữ liệu
  • Nhận dạng tiếng nói
  • Tổng hợp giọng nói
  • Nhận dạng ký tự quang học
  • Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối
  • BERT
  • Document-term matrix
  • Explicit semantic analysis
  • fastText
  • GloVe
  • Mô hình ngôn ngữ (lớn)
  • Phân tích ngữ nghĩa tiềm ẩn
  • Seq2seq
  • Vectơ từ
  • Word2vec
Mô hình chủ đề
  • Phân bổ Pachinko
  • Phân bổ Dirichlet tiềm ẩn
  • Phân tích ngữ nghĩa tiềm ẩn
Xem xét vớisự trợ giúp máy tính
  • Automated essay scoring
  • Concordancer
  • Sửa lỗi chính tả
  • Predictive text
  • Spell checker
  • Syntax guessing
Giao diện người dùngngôn ngữ tự nhiên
  • Trợ lý ảo
  • Chatbot
  • Interactive fiction
  • Question answering
  • Giao diện giọng nói người dùng
  • x
  • t
  • s
Tối ưu hóa công cụ tìm kiếm
Tiêu chuẩn loại trừ
  • Robots exclusion standard
  • Meta element
  • Nofollow
Chủ đề tiếp thị
  • Quảng cáo trực tuyến
  • Email marketing
  • Quảng cáo hiển thị
  • Web analytics
Tiếp thị tìm kiếm
  • Search engine marketing
  • Social media optimization
  • Online identity management
  • Paid inclusion
  • Cost per click
  • Google bombing
Spam công cụ tìm kiếm
  • Spamdexing
  • Web scraping
  • Scraper site
  • Link farm
  • Link baiting
Liên kết
  • Backlink
  • Link baiting
  • Link exchange
  • Organic linking
Nhân vật
  • Danny_Sullivan (technologist)
  • Matt Cutts
  • Vanessa Fox
  • Barry Schwartz (technologist)
Khác
  • Geotargeting
  • Human search engine
  • Từ dừng
  • Trại nội dung
Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.
  • x
  • t
  • s
Lấy từ “https://vi.wikipedia.org/w/index.php?title=Từ_dừng&oldid=70880809” Thể loại:
  • Kỹ thuật truy hồi thông tin
Thể loại ẩn:
  • Bản mẫu webarchive dùng liên kết wayback
  • Tất cả bài viết sơ khai
  • Sơ khai

Từ khóa » Tư Dung Nghĩa Là Gì