Cho Mình Hỏi Về N-gram Và Tách Từ Trong Văn Bản Tiếng Việt
Có thể bạn quan tâm
Ghi nhớ?
- Tìm kiếm chi tiết
- Diễn đàn
- Lập trình
- Các vấn đề khác trong lập trình
- Data Structures + Algorithms
- cho mình hỏi về n-gram và tách từ trong văn bản tiếng việt
-
Hỗ trợ
- Phiên bản để in
- Giới thiệu cho bạn bè…
- Theo dõi chủ đề này…
-
Rate This Thread
- Current Rating
- Excellent
- Good
- Average
- Bad
- Terrible
- 18-07-2008 23:19 #1 minhducpqt
- View Profile
- View Forum Posts
- View Articles
cho mình hỏi về n-gram và tách từ trong văn bản tiếng việt
Mình xin được chỉ giáo về giải thuật N-Gram Moin người có kinh nghiệm trong vấn đề xử lý ngôn ngữ tự nhiên chỉ jùm một số kiến thức về tách từ trong tiếng việt
Quote -
Thành viên Like bài viết này:
troichet
- 05-08-2008 12:50 #2 verbway
- View Profile
- View Forum Posts
- View Articles
Không hiểu bạn cần gì ở N-gram? Đây không phải là giải thuật mà là một kiểu (mô hinh) dữ liệu đơn giản. Tạo ra N-gram thì hơi rắc rối một chút nhưng dùng N-gram như thế nào mới thực sự là đáng nói (khó). Về tách từ trong tiếng Việt: nếu bạn thật sự nghiêm túc và có nhiệt huyết thì mới nên làm. Đề tài này ngang tầm một nghiên cứu khoa học của sinh viên, thậm chí thêm chút mắm muối vào thì có thể bảo vệ tốt nghiệp được. Nếu chỉ làm chơi chơi hoặc bài tập lớn thì nên xin đề tài khác vì riêng cái công tạo hoặc xin dữ liệu test cũng đủ mệt rồi. Ai giao cho bạn đề tài này thì ít ra cũng nên cung cấp dữ liệu hoặc bài báo (vì đều là những thứ hơi khó kiếm). Tôi có xem một số công trình thì các phương pháp cơ bản là học máy (để tự tạo từ điển), từ điển (dùng từ điển Tiếng Việt), n-gram... và kết hợp một số lại với nhau. Kết quả (trên tập test) từ 70-95%.
Quote - 08-08-2008 08:50 #3 hieukieng
- View Profile
- View Forum Posts
- View Articles
Được gửi bởi minhducpqt Mình xin được chỉ giáo về giải thuật N-Gram Moin người có kinh nghiệm trong vấn đề xử lý ngôn ngữ tự nhiên chỉ jùm một số kiến thức về tách từ trong tiếng việt Bạn có thể tìm hiểu về việc tách từ trong văn bản tiếng Việt và cách tiếp cận dựa trên N-gram ở đây: (thứ tự từ dễ đến khó theo đánh giá của mình ) 1. Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử http://www-users.cs.umn.edu/~thnguye...gmentation.pdf 2. Word Segmentation for Vietnamese Text Categorization: An online corpus approach http://www-users.cs.umn.edu/~thnguye...s_approach.pdf 3. Vietnamese Text Retrieval: Test Collection and First Experimentations http://research.nii.ac.jp/ntcir/work...s6/EVIA/17.pdf 4. Vietnamese Word Segmentation with CRFs and SVMs: An Investigation http://jvnsegmenter.sourceforge.net/vwseg.pdf Enjoy!
Quote -
Thành viên Like bài viết này:
troichet
- Site Areas
- Cá nhân
- Tin nhắn
- Subscriptions
- Ai đang online ?
- Tìm kiếm trong chuyên mục
- Trang chủ
- Chuyên mục
- Hoạt động của DDTH
- Hoạt động Off-line
- Các cuộc thi dành cho DDTH.com
- Sinh nhật DDTH.com
- Hội Cầu Lông DDTH.com
- Công tác xã hội
- Tin Học Xanh
- Nhật ký THX
- Thông báo
- Thông báo cũ
- Góp ý, đề nghị
- Nhắc nhở - Vi phạm
- Ứng tuyển moderator
- Hoạt động Off-line
- Thảo luận chung
- CNTT Việt Nam và Quốc tế
- Các cuộc thi CNTT
- Tin tức CNTT
- Tin PR & Khuyến mãi
- ISP - ICP - OSP
- Viettel
- FPT
- VNPT
- CMC
- SPT
- Nghề nghiệp
- Tư vấn pháp luật
- Thương mại điện tử
- Advertisers & Publishers
- Search Engine Optimization/Marketing
- Review sản phẩm & công nghệ
- Startup-Khởi Nghiệp!
- CNTT Việt Nam và Quốc tế
- Tư vấn - Thị trường & Kiến thức cần biết
- Tin học căn bản
- Máy tính & Sức khỏe
- Hỗ trợ kỹ thuật
- Phần mềm
- Softwares Request
- Giới thiệu phần mềm
- Máy tính để bàn
- CPU & Mainboard & Memory
- VGA & PSU & Overclocking
- Phần cứng chung & Thiết bị ngoại vi
- Laptop
- Dell
- Tin học căn bản
- Mobile devices
- iPhone & iPad
- iOS Apps
- Android Smartphones
- Android Apps
- BlackBerry
- BlackBerry Apps
- Windows Phones
- Windows Phones Apps
- Wireless Technology
- Tablets
- Discussion
- iPhone & iPad
- Đào tạo
- Công nghệ giáo dục
- Học về CNTT
- Du học
- E-books
- Requests
- Chứng chỉ tin học quốc tế
- Microsoft
- Cisco
- Hand-on Lab
- Technology
- Những chứng chỉ khác
- GroupStudy
- English Room
- Lập trình
- Các ngôn ngữ lập trình
- .NET
- C/C++
- Visual Basic
- Pascal/Delphi/Kylix
- Java
- Các vấn đề khác trong lập trình
- Projects
- Data Structures + Algorithms
- GameDev Zone
- Các ngôn ngữ lập trình
- Hệ thống - Mạng
- Security Zone
- Anti-DDoS
- Windows
- Linux - Unix
- LAN - WAN
- Security Zone
- Internet & Web & Multimedia
- Lập trình web
- DDTH-CMS
- Thiết kế web
- Shockwave Flash
- Graphic Design
- HTML - CSS
- Design Resources
- CMS
- Yêu cầu thiết kế
- CLB Webmasters
- Hot Links !!!
- Scripts - Mods
- Showcase
- Xử lý phim / âm thanh
- Photoshop & Illustration
- 3D World
- Game
- Lập trình web
- Cơ sở dữ liệu
- MS SQL Server
- Oracle
- Hệ CSDL khác
- Domains/Hosting
- Web Hosting / Domain
- Cloud Computing
- Dedicated Hosting / VPS
- Technical & Security
- Advertising
- Hosting Support
- VinaCIS
- Web Hosting / Domain
- Giao lưu - Thư giãn
- Tự giới thiệu - Giao lưu
- Interview
- Miền Bắc
- Miền Trung
- Social Networks
- Góc thư giãn
- Văn tuyển Làng Mùi
- Truyện cười
- Chuyện thời sự
- Đố vui
- Music - Movie - Sport
- Nhiếp ảnh
- Albums
- Máy ảnh - Máy quay phim - Phụ kiện
- Bóng Đá
- Tự giới thiệu - Giao lưu
- Trung Tâm Giao Dịch
- Linh Kiện PC - Laptop
- Điện thoại, tablet và phụ kiện
- Server, domain, hosting
- Giáo dục, đào tạo về CNTT
- Việc làm CNTT
- Người tìm việc
Bookmarks
Bookmarks
- Digg
- del.icio.us
- StumbleUpon
Quy định
- Bạn không thể tạo chủ đề mới
- Bạn không thể trả lời bài viết
- Bạn không thể gửi file đính kèm
- Bạn không thể sửa bài viết của mình
- BB code is On
- Smilies are On
- [IMG] code is On
- [VIDEO] code is On
- HTML code is Off
Quy định DDTH.com
Theo giờ GMT +7 :: 18:01. Powered by: vBulletin version 4.2.0. Copyright ©2000 - 2024, Jelsoft Enterprises Ltd. Founded by vikhoa. Developed by DDTH Members. Hosted by ODS.vnTừ khóa » Tách Từ N-gram
-
N-gram | Xử Lý Tiếng Việt Wiki
-
Mô Hình Tách Từ, Gán Nhãn Từ Loại Và Hướng Tiếp Cận Tích Hợp Cho ...
-
[PDF] Xử Lí Bài Toán Thêm Dấu Cho Tiếng Việt Không Dấu Dựa
-
Mô Hình Ngôn Ngữ Và Bài Toán Thêm Dấu Câu Trong Tiếng Việt - Viblo
-
8.3. Mô Hình Ngôn Ngữ Và Tập Dữ Liệu - Đắm Mình Vào Học Sâu
-
Full Text Search, Từ Khái Niệm đến Thực Tiễn (Phần 2)
-
Nghiên Cứu Mô Hình Ngôn Ngữ N-gram Và ứng Dụng Trong Bài Toán ...
-
N-gram – Wikipedia Tiếng Việt
-
[PDF] Sự ảnh Hưởng Của Phương Pháp Tách Từ Trong Bài Toán
-
Đề Tài Nghiên Cứu Mô Hình Ngôn Ngữ N-Gram Và ứng Dụng Trong Bài ...
-
Mô Hình Ngôn Ngữ
-
Ứng Dụng Phương Pháp Pointwise Vào Bài Toán Tách Từ Cho Tiếng Việt
-
Language Models N-gram - SlideShare
-
[PDF] Nghiên Cứu Phương Pháp So Sánh độ Tương đồng Văn Bản Bằng độ ...
-
[PDF] Giải Pháp Tách Từ Sử Dụng Mạng Nơ Ron Nhằm Nâng Cao Chất Lượng ...
-
Khóa Luận Kiểm Lỗi Chính Tả Tiếng Việt - Thư Viện Tài Liệu
-
[DOC] Nghiên Cứu Một Số Kỹ Thuật Tách Từ Trong Xử Lý Ngôn Ngữ Tự Nhiên
-
[PDF] Nghiên Cứu Mô Hình Ngôn Ngữ N-gram Và ứng Dụng Trong - TaiLieu.VN
-
TIN TỨC VÀ SỰ KIỆN - ĐẠI HỌC QUỐC GIA HÀ NỘI