Ngữ Liệu Văn Bản – Wikipedia Tiếng Việt

Có thể bạn quan tâm

Bước tới nội dung

Nội dung

chuyển sang thanh bên ẩn

Đầu
1 Tham khảo
2 Xem thêm
3 Liên kết ngoài

Bài viết
Thảo luận

Tiếng Việt

Đọc
Sửa đổi
Sửa mã nguồn
Xem lịch sử

Công cụ Công cụ chuyển sang thanh bên ẩn Tác vụ

Đọc
Sửa đổi
Sửa mã nguồn
Xem lịch sử

Chung

Các liên kết đến đây
Thay đổi liên quan
Liên kết thường trực
Thông tin trang
Trích dẫn trang này
Tạo URL rút gọn
Tải mã QR

In và xuất

Tạo một quyển sách
Tải dưới dạng PDF
Bản để in ra

Tại dự án khác

Wikimedia Commons
Khoản mục Wikidata

Giao diện chuyển sang thanh bên ẩn Bách khoa toàn thư mở Wikipedia

Ngữ liệu văn bản (tiếng Anh: text corpus) là một tập hợp lớn các văn bản có cấu trúc (thông thường được lưu giữ dạng điện toán và đã xử lý).[1][2]

Một kho ngữ liệu có thể gồm những văn bản bằng một thứ tiếng (ngữ liệu đơn ngữ) hay nhiều thứ tiếng (ngữ liệu đa ngữ). Kho ngữ liệu đa ngữ có thể được sắp xếp theo dạng đối chiếu, gọi là kho ngữ liệu song song. Để có ích hơn cho việc nghiên cứu ngôn ngữ, các kho ngữ liệu thường được đánh dấu. Một ví dụ là việc gán nhãn từ loại (part-of-speech tagging hay là POS-tagging), trong đó các từ được gán nhãn danh từ, động từ, tính từ và nhiều loại từ khác.

Tham khảo

[sửa | sửa mã nguồn]

^ What is a corpus? What is corpus linguistics?[liên kết hỏng], Technische Universität Chemnitz.
^ Language Corpora, The University of Queensland.

Xem thêm

[sửa | sửa mã nguồn]

Concordance (publishing)
Corpus linguistics
Linguistic Data Consortium
Xử lý ngôn ngữ tự nhiên
Natural Language Toolkit
Parallel text
Máy truy tìm dữ liệu: có thể truy cập "ngữ liệu web".
Speech corpus
Translation memory
Treebank
Zipf's law

Liên kết ngoài

[sửa | sửa mã nguồn]

ACL SIGLEX Resource Links: Text Corpora Lưu trữ ngày 13 tháng 8 năm 2013 tại Wayback Machine
Developing Linguistic Corpora: a Guide to Good Practice
Free samples (not free), web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
Intercorp Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
Sketch Engine: Open corpora with free access
TS Corpus - A Turkish Corpus freely available for academic research.
Turkish National Corpus - A general-purpose corpus for contemporary Turkish Lưu trữ ngày 2 tháng 4 năm 2015 tại Wayback Machine
Corpus of Political Speeches, publicly accessible with speeches from United States, Hong Kong, Taiwan, and China, provided by Hong Kong Baptist University Library
Russian National Corpus Lưu trữ ngày 14 tháng 4 năm 2019 tại Wayback Machine

x t s Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung	Hiểu ngôn ngữ tự nhiên Ngữ liệu văn bản Ngữ liệu tiếng nói Từ dừng Mô hình túi từ AI-đầy đủ N-gram (Bigram, Trigram)
Khai thác văn bản	Phân đoạn văn bản Gán nhãn từ loại Phân tích cú pháp sơ bộ Compound-term processing Collocation extraction Stemming Lemmatisation Nhận dạng thực thể có tên Coreference Phân tích tình cảm Khai phá khái niệm Phân tích cú pháp Nhập nhằng Ontology learning Trích xuất thuật ngữ Textual entailment Truecasing
Tóm tắt tự động	Tóm tắt đa văn bản Trích xuất câu Đơn giản hóa văn bản
Dịch tự động	Computer-assisted translation Example-based machine translation Rule-based machine translation Dịch máy bằng nơ-ron
Nhận dạng tự độngvà thu thập dữ liệu	Nhận dạng tiếng nói Tổng hợp giọng nói Nhận dạng ký tự quang học Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối	BERT Document-term matrix Explicit semantic analysis fastText GloVe Mô hình ngôn ngữ (lớn) Phân tích ngữ nghĩa tiềm ẩn Seq2seq Vectơ từ Word2vec
Mô hình chủ đề	Phân bổ Pachinko Phân bổ Dirichlet tiềm ẩn Phân tích ngữ nghĩa tiềm ẩn
Xem xét vớisự trợ giúp máy tính	Automated essay scoring Concordancer Sửa lỗi chính tả Predictive text Spell checker Syntax guessing
Giao diện người dùngngôn ngữ tự nhiên	Trợ lý ảo Chatbot Interactive fiction Question answering Giao diện giọng nói người dùng

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

Lấy từ “https://vi.wikipedia.org/w/index.php?title=Ngữ_liệu_văn_bản&oldid=71966068” Thể loại:

Phân tích diễn ngôn
Ngôn ngữ học ngữ liệu
Ngôn ngữ học tính toán
Đối tượng kiểm tra

Thể loại ẩn:

Bài có liên kết hỏng
Bản mẫu webarchive dùng liên kết wayback
Tất cả bài viết sơ khai
Sơ khai

Tìm kiếm Tìm kiếm Đóng mở mục lục Ngữ liệu văn bản 50 ngôn ngữ Thêm đề tài

Từ khóa » Ngữ Liệu Mở Là Gì

Ngữ Liệu Văn Bản – Wikipedia Tiếng Việt

Nội dung

Tham khảo

Xem thêm

Liên kết ngoài

Bài 1 - Dữ Liệu Mở Là Gì?

Hệ Thống Ngữ Liệu “mở” Trong Dạy Học Ngữ Văn - Báo Giáo Dục Thời đại

Sách Giáo Khoa Cần Một Ngữ Liệu Mở - Báo Thanh Niên

Ngữ Liệu Sách Giáo Khoa... Cần Lựa Chọn Phù Hợp

Đề Mở Trong Môn Ngữ Văn

Ngữ Liệu Là Gì

Chương Trình Ngữ Văn Mới: Mở Rộng Phạm Vi Ngữ Liệu Như Thế Nào?

Chọn Các đáp án đúng Căn Cứ để Lựa Chọn Ngữ Liệu Đọc Mở Rộng ...

[PDF] Tìm Hiểu Chương Trình Môn Ngữ Văn

Tiêu Chí Chọn Tác Phẩm Trong Chương Trình Mới | .vn

11. Ngữ Liệu Trong Dạy Học Các Học Phần Tiếng Việt Cho Sinh Viên ...

Công Văn 3175/BGDĐT-GDTrH 2022 đổi Mới Phương Pháp Dạy Và ...

Góp ý Về Việc Chọn Và Sử Dụng Ngữ Liệu Trong Sách Giáo Khoa

Liên Hệ