Ngữ Liệu Văn Bản – Wikipedia Tiếng Việt
Có thể bạn quan tâm
Nội dung
chuyển sang thanh bên ẩn- Đầu
- Bài viết
- Thảo luận
- Đọc
- Sửa đổi
- Sửa mã nguồn
- Xem lịch sử
- Đọc
- Sửa đổi
- Sửa mã nguồn
- Xem lịch sử
- Các liên kết đến đây
- Thay đổi liên quan
- Liên kết thường trực
- Thông tin trang
- Trích dẫn trang này
- Tạo URL rút gọn
- Tải mã QR
- Tạo một quyển sách
- Tải dưới dạng PDF
- Bản để in ra
- Wikimedia Commons
- Khoản mục Wikidata
Ngữ liệu văn bản (tiếng Anh: text corpus) là một tập hợp lớn các văn bản có cấu trúc (thông thường được lưu giữ dạng điện toán và đã xử lý).[1][2]
Một kho ngữ liệu có thể gồm những văn bản bằng một thứ tiếng (ngữ liệu đơn ngữ) hay nhiều thứ tiếng (ngữ liệu đa ngữ). Kho ngữ liệu đa ngữ có thể được sắp xếp theo dạng đối chiếu, gọi là kho ngữ liệu song song. Để có ích hơn cho việc nghiên cứu ngôn ngữ, các kho ngữ liệu thường được đánh dấu. Một ví dụ là việc gán nhãn từ loại (part-of-speech tagging hay là POS-tagging), trong đó các từ được gán nhãn danh từ, động từ, tính từ và nhiều loại từ khác.
Tham khảo
[sửa | sửa mã nguồn]- ^ What is a corpus? What is corpus linguistics?[liên kết hỏng], Technische Universität Chemnitz.
- ^ Language Corpora, The University of Queensland.
Xem thêm
[sửa | sửa mã nguồn]- Concordance (publishing)
- Corpus linguistics
- Linguistic Data Consortium
- Xử lý ngôn ngữ tự nhiên
- Natural Language Toolkit
- Parallel text
- Máy truy tìm dữ liệu: có thể truy cập "ngữ liệu web".
- Speech corpus
- Translation memory
- Treebank
- Zipf's law
Liên kết ngoài
[sửa | sửa mã nguồn]- ACL SIGLEX Resource Links: Text Corpora Lưu trữ ngày 13 tháng 8 năm 2013 tại Wayback Machine
- Developing Linguistic Corpora: a Guide to Good Practice
- Free samples (not free), web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
- Intercorp Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
- Sketch Engine: Open corpora with free access
- TS Corpus - A Turkish Corpus freely available for academic research.
- Turkish National Corpus - A general-purpose corpus for contemporary Turkish Lưu trữ ngày 2 tháng 4 năm 2015 tại Wayback Machine
- Corpus of Political Speeches, publicly accessible with speeches from United States, Hong Kong, Taiwan, and China, provided by Hong Kong Baptist University Library
- Russian National Corpus Lưu trữ ngày 14 tháng 4 năm 2019 tại Wayback Machine
| |
|---|---|
| Thuật ngữ chung |
|
| Khai thác văn bản |
|
| Tóm tắt tự động |
|
| Dịch tự động |
|
| Nhận dạng tự độngvà thu thập dữ liệu |
|
| Mô hình ngữ nghĩa phân phối |
|
| Mô hình chủ đề |
|
| Xem xét vớisự trợ giúp máy tính |
|
| Giao diện người dùngngôn ngữ tự nhiên |
|
Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn. |
- x
- t
- s
- Phân tích diễn ngôn
- Ngôn ngữ học ngữ liệu
- Ngôn ngữ học tính toán
- Đối tượng kiểm tra
- Bài có liên kết hỏng
- Bản mẫu webarchive dùng liên kết wayback
- Tất cả bài viết sơ khai
- Sơ khai
Từ khóa » Ngữ Liệu Mở Là Gì
-
Bài 1 - Dữ Liệu Mở Là Gì?
-
Hệ Thống Ngữ Liệu “mở” Trong Dạy Học Ngữ Văn - Báo Giáo Dục Thời đại
-
Sách Giáo Khoa Cần Một Ngữ Liệu Mở - Báo Thanh Niên
-
Ngữ Liệu Sách Giáo Khoa... Cần Lựa Chọn Phù Hợp
-
Đề Mở Trong Môn Ngữ Văn
-
Ngữ Liệu Là Gì
-
Chương Trình Ngữ Văn Mới: Mở Rộng Phạm Vi Ngữ Liệu Như Thế Nào?
-
Chọn Các đáp án đúng Căn Cứ để Lựa Chọn Ngữ Liệu Đọc Mở Rộng ...
-
[PDF] Tìm Hiểu Chương Trình Môn Ngữ Văn
-
Tiêu Chí Chọn Tác Phẩm Trong Chương Trình Mới | .vn
-
11. Ngữ Liệu Trong Dạy Học Các Học Phần Tiếng Việt Cho Sinh Viên ...
-
Công Văn 3175/BGDĐT-GDTrH 2022 đổi Mới Phương Pháp Dạy Và ...
-
Góp ý Về Việc Chọn Và Sử Dụng Ngữ Liệu Trong Sách Giáo Khoa