Tìm Hiểu Về Tách Từ Trong Tiếng Việt - Speaker Deck
Có thể bạn quan tâm
Lock in $30 Savings on PRO—Offer Ends Soon! ⏳ Speaker Deck
- Features
- Speaker Deck PRO
- Sign in
- Sign up for free
- Search
- Search
Tìm hiểu về tách từ trong tiếng Việt
Search Van Hai January 20, 2015 0 1.4k Tìm hiểu về tách từ trong tiếng ViệtVan Hai
January 20, 2015 Tweet ShareMore Decks by Van Hai
See All by Van Hai 文献紹介:Recurrent Neural Network based Language Model nguyenvanhai 0 99 文献紹介:HMM Parameter Learning for Japanese Morphological Analyzer nguyenvanhai 0 110 文献紹介:An Effective Neural Network Model for Graph-based Dependency Parsing.pdf nguyenvanhai 0 160 文献紹介:Finding Synonyms Using Automatic Word Alignment and Measures of Distributional Similarity nguyenvanhai 0 84 文献紹介:A Supervised Learning Approach to Automatic Synonym Identification based on Distributional Features nguyenvanhai 0 160 文献紹介:Revisiting Word Embedding for Contrasting Meaning nguyenvanhai 0 280 文献紹介:ベトナム語ツリーバンク nguyenvanhai 0 320 文献紹介:ベトナム語の品詞付与 JVnTagger nguyenvanhai 0 370 文献紹介:Pointwise法を利用したベトナム語単語分割 nguyenvanhai 0 300Featured
See All Featured Building Better People: How to give real-time feedback that sticks. wjessup 364 19k Fight the Zombie Pattern Library - RWD Summit 2016 marcelosomers 232 17k Scaling GitHub holman 458 140k Rails Girls Zürich Keynote gr2m 94 13k Java REST API Framework Comparison - PWX 2021 mraible PRO 28 8.2k Into the Great Unknown - MozCon thekraken 33 1.5k Side Projects sachag 452 42k A designer walks into a library… pauljervisheath 204 24k YesSQL, Process and Tooling at Scale rocio 169 14k Stop Working from a Prison Cell hatefulcrawdad 267 20k Music & Morning Musume bryan 46 6.2k ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020 aki_iinuma 111 49kTranscript
-
Xử lý ngôn ngữ tự nhiên Nguyễn văn hải Pgs.
Yamamoto kazuhide Ptn. XỬ LÝ NGÔN NGỮ TỰ NHIÊN Trường đại học khoa học kỹ thuật Nagaoka -
Tại sao phải tách từ? Tiếng Việt được tạo từ
nhiều âm tiết, và dấu cách không có nghĩa là phân tách từ. Ví dụ: “đất” và “nước” là 2 âm ý nghĩa riêng khi đứng độc lập và mang 1 ý nghĩa khác khi ghép lại với nhau “đất nước”. Do vậy tách từ nhằm phân biệt các từ trong 1 câu để máy tính có thể hiểu được. -
Bài toán tách từ gồm có 3 phương pháp tiếp
cận Dựa vào từ điển cố định Dựa vào thống kê Dựa vào cả 2 phương pháp trên -
Phương pháp được sử dụng Phương pháp so sánh cực
đại (maximum matching) Phương pháp đồ thị hóa Mô hình Markov ẩn (hidden Markov model) Độ hỗn loạn cực đại (maximum entropy) Mô hình trường ngẫu nhiên có điều kiện (conditional random fields) …. -
Tìm hiểu và giới thiệu một vài phương pháp tách
từ trong tiếng Việt 1.Phương pháp so sánh cực đại 2.Phương pháp mô hình n-gram 3.Phương pháp mô hình Markov -
phương pháp so sánh cực đại (longest matching) Còn gọi
là LRMM-left right maximum matching phương pháp này duyệt 1 câu từ trái sang phải, chọn từ có nhiều âm nhất có trong từ điển và lặp đi lặp lại cho đến khi hết câu Dạng đơn giản cúa phương pháp này dùng để giải quyết nhập nhằng từ đơn trong. Giả sử chúng ta có 1 chuỗi kí tự C1, C2, C3, C4,…. Cn Đầu tiên kiểm tra xem C1 có phải từ hay không, sau đó kiểm tra C1C2 có phải từ hay không. Tiếp tục tìm cho đến khi tìm được từ dài nhất -
phương pháp so sánh cực đại (longest matching) Dạng phức
tạp của phương pháp này là phân đoạn từ Ví dụ chuỗi kí tự C1, C2, C3, C4,…. Cn Giả sử C1 là từ, C1C2 cũng là 1 từ. Khi đó ta kiểm tra các kí tự trong chuỗi C1, C2, C3, C4,…. Cn để tìm tất cả các đoạn 3 từ bắt đầu với C1 hoặc C1C2 Giả sử ta được: C1 C2 C3 C4 C1C2 C3C4 C5 C1C2C3C4 C5C6 Chuỗi dài nhất là chuỗi thứ 3 do đó từ đầu tiên (C1C2) sẽ được chọn -
phương pháp so sánh cực đại (longest matching) Phương pháp
này tách từ đơn giàn, nhanh, chỉ cần dựa vào từ điển thực hiện. Nhưng do phụ thuộc vào từ điển nên độ chính xác của phương pháp này phụ thuộc vào sự đầy đủ và chính xác của từ điển. -
Mô hình n-gram Trong mô hình n-gram, mỗi từ được
xem như phụ thuộc xác suất vào n-1 từ trước no. Xác suất của 1 từ dựa vào n từ trước đó được thống kê trên 1 corpus đủ lớn. -
Mô hình n-gram tùy vào giả thuyết phụ thuộc vào
các từ mà ta có mô hình 2-gram hay 3-gram tương ứng. Phương pháp này là phương pháp thống kê giải bài toán tách từ khi không có thông tin từ điển và dữ lieu gán nhãn. Mô hình phân đoạn từ được biểu hiện bởi mô hình dưới: -
phương pháp hidden Markov model Mô hình Markov ẩn là
mô hình thống kê. Mô hình hóa là 1 quá trình markov với các tham số không biết trước và nhiệm vụ là xác định được các tham số ẩn từ các tham số quan sát được. Các tham số của mô hình rút ra sử dụng cho các phân tích kế tiếp -
phương pháp hidden Markov model Trong 1 mô hình Markov
điển hình, trạng thái được quan sát trực tiếp bởi người quan sát, và vì vậy các các xác suất chuyển tiếp trạng thái là các tham số duy nhất. xi: các trạng thái trong mô hình aij: các xác suất chuyển tiếp bij: các xác suất đầu ra yi: các dữ liệu quan sát -
phương pháp hidden Markov model Mô hình Markov vô hướng
Thêm vào các đầu ra: mỗi trạng thái có xác suất phân bố trên các biểu hiện đầu ra. Vì thế ta có thể tìm ra chuỗi mô tả tốt nhất Cho chuỗi dữ liệu quan sát bằng cách tính: -
phương pháp hidden Markov model Hạn chế của mô hình
Markov: để tính được xác suất P(Y, X) phải liệt kê được hết các trường hợp của X, Y. Thực tế chuỗi Y là hữu hạn, có thể liệt kê được. Nhưng chuỗi X (dữ liệu quan sát) là rất phong phú -
Tham khảo Mô hình tách từ, gán nhãn từ loại
và hướng tiếp cận cho tiếng việt [2008]- Trần Thị Oanh Bài viết về thuật toán tách từ cùa Lưu Tuấn Anh: http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/thuat-toan- tach-tu-tokenizer/thuat-toan-tach-tu
Từ khóa » Tách Từ Trong Văn Bản Tiếng Việt
-
Cách Tách Từ Cho Tiếng Việt
-
Tìm Hiểu Một Vài Phương Pháp Tách Từ Trong Văn Bản Tiếng Việt
-
Tìm Hiểu Một Vài Phương Pháp Tách Từ Trong Văn Bản Tiếng Việt
-
Tách Từ | Xử Lý Tiếng Việt Wiki
-
Thuật Toán Tách Từ
-
[PDF] Tách Từ Tiếng Việt - Soict - HUST
-
Hiện Tượng Tách Từ Trong Tiếng Việt (Ví Dụ: Đi đâu Mà Vội Mà Vàng ...
-
[PDF] Sự ảnh Hưởng Của Phương Pháp Tách Từ Trong Bài Toán
-
Ứng Dụng Phương Pháp Pointwise Vào Bài Toán Tách Từ Cho Tiếng Việt
-
Cho Mình Hỏi Về N-gram Và Tách Từ Trong Văn Bản Tiếng Việt
-
[PDF] HƯỚNG DẪN TÁCH CÂU TIẾNG VIỆT *****
-
Phát Triển Công Cụ Tách Từ Và Giải Nghĩa Từ Hán - Việt Trong Văn Bản
-
[PDF] Giải Pháp Tách Từ Sử Dụng Mạng Nơ Ron Nhằm Nâng Cao Chất Lượng ...
-
VinBigdata - CÁC KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ ...
-
Mô Hình Tách Từ, Gán Nhãn Từ Loại Và Hướng Tiếp Cận Tích Hợp Cho ...
-
Chuyển đổi Văn Bản Thành Bảng Hoặc Bảng Thành Văn Bản
-
Tokenization Là Gì? Các Kỹ Thuật Tách Từ Trong Xử Lý Ngôn Ngữ Tự Nhiên
-
Sử Dụng Phương Pháp Tách Từ Xây Dựng Công Cụ Phân Tích Văn Bản ...
-
Mô Hình Phân Tách Từ Tính - Máy Nghiền Hàm Sắt Cầm Tay