Ngữ Liệu Văn Bản – Wikipedia Tiếng Việt

Bước tới nội dung

Nội dung

chuyển sang thanh bên ẩn
  • Đầu
  • 1 Tham khảo
  • 2 Xem thêm
  • 3 Liên kết ngoài
  • Bài viết
  • Thảo luận
Tiếng Việt
  • Đọc
  • Sửa đổi
  • Sửa mã nguồn
  • Xem lịch sử
Công cụ Công cụ chuyển sang thanh bên ẩn Tác vụ
  • Đọc
  • Sửa đổi
  • Sửa mã nguồn
  • Xem lịch sử
Chung
  • Các liên kết đến đây
  • Thay đổi liên quan
  • Thông tin trang
  • Trích dẫn trang này
  • Tạo URL rút gọn
  • Tải mã QR
In và xuất
  • Tạo một quyển sách
  • Tải dưới dạng PDF
  • Bản để in ra
Tại dự án khác
  • Wikimedia Commons
  • Khoản mục Wikidata
Giao diện chuyển sang thanh bên ẩn Bách khoa toàn thư mở Wikipedia

Ngữ liệu văn bản (tiếng Anh: text corpus) là một tập hợp lớn các văn bản có cấu trúc (thông thường được lưu giữ dạng điện toán và đã xử lý).[1][2]

Một kho ngữ liệu có thể gồm những văn bản bằng một thứ tiếng (ngữ liệu đơn ngữ) hay nhiều thứ tiếng (ngữ liệu đa ngữ). Kho ngữ liệu đa ngữ có thể được sắp xếp theo dạng đối chiếu, gọi là kho ngữ liệu song song. Để có ích hơn cho việc nghiên cứu ngôn ngữ, các kho ngữ liệu thường được đánh dấu. Một ví dụ là việc gán nhãn từ loại (part-of-speech tagging hay là POS-tagging), trong đó các từ được gán nhãn danh từ, động từ, tính từ và nhiều loại từ khác.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ What is a corpus? What is corpus linguistics?[liên kết hỏng], Technische Universität Chemnitz.
  2. ^ Language Corpora, The University of Queensland.

Xem thêm

[sửa | sửa mã nguồn]
  • Concordance (publishing)
  • Corpus linguistics
  • Linguistic Data Consortium
  • Xử lý ngôn ngữ tự nhiên
  • Natural Language Toolkit
  • Parallel text
  • Máy truy tìm dữ liệu: có thể truy cập "ngữ liệu web".
  • Speech corpus
  • Translation memory
  • Treebank
  • Zipf's law

Liên kết ngoài

[sửa | sửa mã nguồn]
  • ACL SIGLEX Resource Links: Text Corpora Lưu trữ ngày 13 tháng 8 năm 2013 tại Wayback Machine
  • Developing Linguistic Corpora: a Guide to Good Practice
  • Free samples (not free), web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
  • Intercorp Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
  • Sketch Engine: Open corpora with free access
  • TS Corpus - A Turkish Corpus freely available for academic research.
  • Turkish National Corpus - A general-purpose corpus for contemporary Turkish Lưu trữ ngày 2 tháng 4 năm 2015 tại Wayback Machine
  • Corpus of Political Speeches, publicly accessible with speeches from United States, Hong Kong, Taiwan, and China, provided by Hong Kong Baptist University Library
  • Russian National Corpus Lưu trữ ngày 14 tháng 4 năm 2019 tại Wayback Machine
  • x
  • t
  • s
Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung
  • Hiểu ngôn ngữ tự nhiên
  • Ngữ liệu văn bản
  • Ngữ liệu tiếng nói
  • Từ dừng
  • Mô hình túi từ
  • AI-đầy đủ
  • N-gram (Bigram, Trigram)
Khai thác văn bản
  • Phân đoạn văn bản
  • Gán nhãn từ loại
  • Phân tích cú pháp sơ bộ
  • Compound-term processing
  • Collocation extraction
  • Stemming
  • Lemmatisation
  • Nhận dạng thực thể có tên
  • Coreference
  • Phân tích tình cảm
  • Khai phá khái niệm
  • Phân tích cú pháp
  • Nhập nhằng
  • Ontology learning
  • Trích xuất thuật ngữ
  • Textual entailment
  • Truecasing
Tóm tắt tự động
  • Tóm tắt đa văn bản
  • Trích xuất câu
  • Đơn giản hóa văn bản
Dịch tự động
  • Computer-assisted translation
  • Example-based machine translation
  • Rule-based machine translation
  • Dịch máy bằng nơ-ron
Nhận dạng tự độngvà thu thập dữ liệu
  • Nhận dạng tiếng nói
  • Tổng hợp giọng nói
  • Nhận dạng ký tự quang học
  • Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối
  • BERT
  • Document-term matrix
  • Explicit semantic analysis
  • fastText
  • GloVe
  • Mô hình ngôn ngữ (lớn)
  • Phân tích ngữ nghĩa tiềm ẩn
  • Seq2seq
  • Vectơ từ
  • Word2vec
Mô hình chủ đề
  • Phân bổ Pachinko
  • Phân bổ Dirichlet tiềm ẩn
  • Phân tích ngữ nghĩa tiềm ẩn
Xem xét vớisự trợ giúp máy tính
  • Automated essay scoring
  • Concordancer
  • Sửa lỗi chính tả
  • Predictive text
  • Spell checker
  • Syntax guessing
Giao diện người dùngngôn ngữ tự nhiên
  • Trợ lý ảo
  • Chatbot
  • Interactive fiction
  • Question answering
  • Giao diện giọng nói người dùng

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

  • x
  • t
  • s
Lấy từ “https://vi.wikipedia.org/w/index.php?title=Ngữ_liệu_văn_bản&oldid=71966068” Thể loại:
  • Phân tích diễn ngôn
  • Ngôn ngữ học ngữ liệu
  • Ngôn ngữ học tính toán
  • Đối tượng kiểm tra
Thể loại ẩn:
  • Bài có liên kết hỏng
  • Bản mẫu webarchive dùng liên kết wayback
  • Tất cả bài viết sơ khai
  • Sơ khai
Tìm kiếm Tìm kiếm Đóng mở mục lục Ngữ liệu văn bản 50 ngôn ngữ Thêm đề tài

Từ khóa » Ngữ Liệu Mở Là Gì