Công Cụ Tóm Tắt Văn Bản Tiếng Việt Bằng Python - Tài Liệu Text
Có thể bạn quan tâm
- Trang chủ >>
- Công nghệ thông tin >>
- Lập trình
Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.08 MB, 30 trang )
BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC CẦN THƠKHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNGBÁO CÁO THỰC TẬP THỰC TẾĐƠN VỊ THỰC TẬP:TRƯỜNG ĐẠI HỌC Y DƯỢC CẦN THƠĐỀ TÀI THỰC TẬP:THIẾT KẾ CÔNG CỤ TÓM TẮTÝ KIẾN PHẢN HỒI CỦA NGƯỜI HỌCSinh viên: Võ Thanh SangMã số: B1509947Khóa: K41Cần Thơ, 07/2019BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC CẦN THƠKHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNGBỘ MÔN KHOA HỌC MÁY TÍNHBÁO CÁO THỰC TẬP THỰC TẾĐƠN VỊ THỰC TẬP:TRƯỜNG ĐẠI HỌC Y DƯỢC CẦN THƠĐỀ TÀI THỰC TẬP:THIẾT KẾ CÔNG CỤ TÓM TẮTÝ KIẾN PHẢN HỒI CỦA NGƯỜI HỌCGiáo viên cố vấnThs. Nguyễn Hữu Vân LongCán bộ hướng dẫnTrần Việt XôSinh viên thực hiệnVõ Thanh SangMã số: B1509947Khóa: K41Cần Thơ, 07/2019LỜI CẢM ƠN@&?Xin chân thành cảm ơn Trường Đại học Y Dược Cần Thơ đã tạo đủ mọi điềukiện thuận lợi cho em thực hiện đề tài thực tập thực tế.Xin chân thành cảm ơn các anh, chị của phòng công nghệ thông tin TrườngĐại học Y Dược Cần Thơ, đặc biệt là anh Trần Việt Xô đã tận tình hướng dẫn, chỉbảo cùng những lời động viên khuyến khích và giúp đỡ, luôn tạo không khí thoảimái và môi trường làm việc thân thiện trong suốt quá trình thực tập. Giúp cho emnăng động, phát huy tối đa tư duy linh hoạt trong giải quyết vấn đề. Nâng cao khảnăng làm việc độc lập và đồng thời làm quen với môi trường làm việc thực tế. Nhờđó mà trong chuyến thực tập thực tế này em học hỏi được rất nhiều điều bổ ích trong kiến thức chuyên môn cũng như những kĩ năng mềm trong môi trường côngsở thật sự.Xin chân thành cảm ơn quý thầy cô Khoa Công Nghệ Thông Tin Trường Đạihọc Cần Thơ đã tận tình giảng dạy, trang bị những kiến thức quý báo trong nhữngnăm học vừa qua. Để em có đủ tự tin để bước vào môi trường làm việc hoàn toànmới mẽ.Mặc dù đã cố gắng hoàn thành tốt công việc được phân công trong phạm vivà khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót nhấtđịnh. Kính mong nhận được sự cảm thông và tận tình chỉ bảo của quý thầy cô vàquý cơ quan.Sau cùng, em xin kính chúc Thầy, Cô và các anh, chị ở Trường Đại học YDược Cần Thơ nhiều sức khỏe, luôn thành công trong công việc. Em xin chân thànhcảm ơn.Sinh viên thực hiệnVõ Thanh SangThực tập thực tế - CNTTVõ Thanh Sang B15099473Mục LụcPHẦN A: TÌM HIỂU CƠ QUAN THỰC TẬP...................................................................................... 1CHƯƠNG 1 ................................................................................................................................... 1GIỚI THIỆU TRƯỜNG ĐẠI HỌC Y DƯỢC CẦN THƠ .................................................................. 1I.Tổng quan về Trường Đại học Y Dược Cần Thơ ......................................................... 1II.Lĩnh vực hoạt động ........................................................................................................ 1III. Cơ cấu tổ chức................................................................................................................ 2IV. Cơ cấu tổ chức Phòng Công nghệ thông tin ............................................................... 2CHƯƠNG 2 ................................................................................................................................... 2HOẠT ĐỘNG CỦA PHÒNG CÔNG NGHỆ THÔNG TIN TRƯỜNG ĐẠI HỌC Y DƯỢC CẦN THƠ....................................................................................................................................................... 2I.Hoạt động chuyên ngành của phòng Công nghệ thông tin ....................................... 2II.Các nhân sự chính của phòng công nghệ thông tin ................................................... 3PHẦN B: NỘI DUNG THỰC TẬP ...................................................................................................... 3CHƯƠNG 1 ................................................................................................................................... 3NỘI DUNG CÔNG VIỆC, PHƯƠNG PHÁP ................................................................................... 3THỰC HIỆN THỰC TẬP THỰC TẾ ............................................................................................... 3I.Nội dung công việc thực tập ......................................................................................... 3II. Phương pháp, thời gian thực hiện ....................................................................................... 3CHƯƠNG 2 ................................................................................................................................... 5NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU ....................................................................................... 5I.Tổng quan về xử lí ngôn ngữ Tiếng Việt. ..................................................................... 51.Tìm hiểu về công cụ và thư viện. ....................................................................................................8a)Tìm hiểu công cụ tách từ tự động vnTokenizer .................................................................8b)Tổng quan thư viện pyvi ......................................................................................................9c)Tổng quan thư viện Natural Language Processing (NLP) ..............................................10d)Tổng quan thư viện gensim. ..............................................................................................11e)Tổng thư viện pickle. ..........................................................................................................12f)Mô hình huấn luyện Word2Vec. .........................................................................................12g)Các ứng dụng của bài toán tách từ...................................................................................132. Mục tiêu ..........................................................................................................................................133. Phương pháp nghiên cứu ............................................................................................................144.Mô hình hoạt động của hệ thống. ..........................................................................................155.Cài đặt hệ thống..........................................................................................................................15a)Tiền sử lí văn bản: .................................................................................................................15b)Tác câu trong văn bản: ..........................................................................................................17c)Chuyển câu sang Vector: .......................................................................................................18d)Phân cụm: ............................................................................................................................20e)Xây dựng đoạn văn bản tóm tắt .............................................................................................21f)Graphical User Interface (GUI) ...........................................................................................23CHƯƠNG 3 ................................................................................................................................. 24KẾT QUẢ VÀ KINH NGHIỆM ĐẠT ĐƯỢC .................................................................................. 24I.Kết quả và kinh nghiệm học tập qua thời gian thực tập thực tế.............................. 24II.Những kiến thức lý thuyết được củng cố .................................................................. 24III. Những điểm còn hạn chế ............................................................................................. 24Thực tập thực tế - CNTTVõ Thanh Sang B15099474NHẬN XÉT CỦA GIẢNG VIÊN----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------Thực tập thực tế - CNTTVõ Thanh Sang B15099475PHẦN A: TÌM HIỂU CƠ QUAN THỰC TẬPCHƯƠNG 1GIỚI THIỆU TRƯỜNG ĐẠI HỌC Y DƯỢC CẦN THƠI. Tổng quan về Trường Đại học Y Dược Cần ThơTrường Đại học Y Dược Cần Thơ được thành lập trên cơ sở tách ra từtrường Đại học Cần Thơ.Tháng 7 năm 1979: Thành lập khoa Y - Nha - Dược thuộc Trường Đại họcCần Thơ.Ngày 25 tháng 12 năm 2002: Khoa Y - Nha - Dược được tách ra để thành lậpTrường Đại học Y-Dược Cần Thơ trực thuộc Bộ Y tế.Năm 2011: Bộ trưởng Bộ Y tế ký quyết định thành lập Bệnh viện TrườngĐại học Y Dược Cần Thơ.Gồm 6 khoa, trong đó phòng công nghệ thông tin của trường Đại học YDược Cần Thơ nằm trong khoa Khoa học cơ bản.II. Lĩnh vực hoạt động- Tham gia nghiên cứu khoa học, phát triển công nghệ theo kế hoạch của nhàtrường.- Tổ chức, quản lý, giảng dạy các chương trình đào tạo môn Tin học ở bậc Đạihọc, sau đại học, đại học, trung cấp và dự bị đại học.- Sản xuất kinh doanh, cung ứng, đại lý vật tư, thiết bị Viễn thông – Côngnghệ thông tin theo yêu cầu sản xuất kinh doanh của đơn vị và nhu cầu củakhách hàng.- Khảo sát, tư vấn, thiết kế, lắp đặt, bảo dưỡng mảng công nghệ thông tin củatrường.- Chịu trách nhiệm về nội dung, chương trình, chất lượng, tiến độ giảng dạymôn Tin học trong chương trình, kế hoạch giảng dạy môn Tin học được khoavà Trường giao.Thực tập thực tế - CNTT1III. Cơ cấu tổ chứcTrường Đại học YDược Cần ThơKhoaDượcKhoaRăngHàmMặtKhoa YNhàHiệuBộKhoaKhoahọc cơbảnKhoaKhoa Y Điềutế công dưỡngkỹcộngthuật yhọcIV. Cơ cấu tổ chức Phòng Công nghệ thông tinTrưởng PhòngGiảng viênGiảng viên kiêmnhiệmPhụ trách bộ mônCHƯƠNG 2HOẠT ĐỘNG CỦA PHÒNG CÔNG NGHỆ THÔNG TINTRƯỜNG ĐẠI HỌC Y DƯỢC CẦN THƠI. Hoạt động chuyên ngành của phòng Công nghệ thông tin- Tổ chức, xây dựng và phát triển hệ thống công nghệ thông tin phục vụ côngtác quản lý của trường Đại học Y Dược Cần Thơ.- Giảng dạy các lĩnh vực thuộc bộ môn công nghệ thông tin.- Tổ chức triển khai các sản phẩm phần mềm tin học tại các phòng học và thưviện.Thực tập thực tế - CNTTVõ Thanh Sang B15099472II. Các nhân sự chính của phòng công nghệ thông tinVới môi trường làm việc chuyên nghiệp, phòng công nghệ thông tin có các chứcvụ sau:-Ths. Châu Minh Khoa: Giảng viên kiêm nhiệm.Ths. Lương Thị Minh Thư: Giảng viên kiêm nhiệm.Ths. Trần Thị Bích Phương: Phụ trách bộ môn.Ks. Trần Việt Xô: Giảng viên kiêm nhiệm.Phạm Việt Tân: nhân viên bộ môn.Ks. Nguyễn Hoàng Thái: Giảng viên.PHẦN B: NỘI DUNG THỰC TẬPCHƯƠNG 1NỘI DUNG CÔNG VIỆC, PHƯƠNG PHÁPTHỰC HIỆN THỰC TẬP THỰC TẾI.II.Nội dung công việc thực tậpThu thập, tìm hiểu về số liệu khảo sát phản hồi, đánh giá của sinh viên.Tìm hiểu về công cụ mã nguồn mở vntokenizer.Viết chương trình tóm tắt các góp ý, các phản hồi của sinh viên.Kiểm tra, sửa lỗi chương trình.Viết báo cáo.Phương pháp, thời gian thực hiệnSTTThời gianNội dung thực hiện1Từ ngày25/5/2019đến ngày26/5/2019- Thu thập, tìm hiểu về sốliệu khảo sát phản hồi, đánhgiá của sinh viên.Thực tập thực tế - CNTTPhương pháp thực hiệnTìm hiểu, đọc tài liệu (Internet,sách) về đề tài.Gặp gỡ và trao đổi các vấn đề thắcmắc, thống nhất thời gian thực tậpvới người hướng dẫn.Võ Thanh Sang B150994732345678Từ ngày27/5/2019đến ngày2/6/2019Từ ngày3/6/2019đến ngày9/6/2019Từ ngày10/6/2019đến ngày16/6/2019Từ ngày17/6/2019đến ngày23/6/2019Từ ngày24/6/2019đến ngày30/6/2019Từ ngày1/7/2019đến ngày7/7/2019Từ ngày8/7/2019đến ngày14/7/2019- Tìm hiểu về công cụ mãnguồn mở vntokenizerChuẩn bị các tài nguyên (giấy, viết,Laptop)Ghi chép lại các lưu ý trong quátrình gặp gỡ, tìm hiểu.Tìm hiểu, đọc tài liệu (Internet,sách) về mã nguồn mở, tham khảothêm ý kiến của cán bộ hướng dẫnvề chi tiết phương pháp tokenizer.- Viết chương trình tóm tắtcác góp ý, các phản hồi củasinh viênVận dụng kiến thức đã học để vậndụng vào việc xây dựng giải pháp vàgiải thuật.- Viết chương trình tóm tắtcác góp ý, các phản hồi củasinh viênVận dụng kiến thức để phân tích vàxây dựng mô hình, thuật toán, sốliệu liệu cho hệ thống.- Viết chương trình tóm tắtcác góp ý, các phản hồi củasinh viênVận dụng kiến thức đã học để tiếptục xây dựng hoàn thiện hệ thống.- Viết chương trình tóm tắtcác góp ý, các phản hồi củasinh viênHoàn thiện hệ thống.- Kiểm tra, sửa lỗi chươngtrìnhKiểm tra lại hệ thống, khắc phục cáclỗi và giao cho cán bộ hướng dẫnđánh giá, nghiệm thu.- Viết báo cáoChuẩn bị Laptop, tham khảo mẫubáo cáo của khoa gửi và chỉnh sửacác lỗi sai cho hoàn chỉnh.Thực tập thực tế - CNTTVõ Thanh Sang B15099474CHƯƠNG 2NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨUI. Tổng quan về xử lí ngôn ngữ Tiếng Việt.Tiếng nói và chữ viết là hai yếu tố cơ bản của ngôn ngữ. Trên thế giới có rất nhiềucác công trình nghiên cứu về xử lý ngôn ngữ, tuy nhiên, ở Việt Nam, lĩnh vực nàyđang gặp trở ngại rất lớn.Xử lý ngôn ngữ là một phạm trù trong xử lý thông tin với đầu vào là dữ liệu ngônngữ, hay nói cách khác, đó là văn bản hoặc tiếng nói, Các dữ liệu này đang trở thànhkiểu dữ liệu chính của con người, và lưu dưới dạng điện tử. Đặc điểm chung củachúng là không có cấu trúc (non-structured ), hoặc nửa câu trúc (semi-structured) vàkhông thẻ lưu lại dưới dạng bảng biểu. Vì vậy chúng ta cần phải xử lý chúng để cóthể chuyển từ dạng chưa hiểu thành dạng có thể hiểu.Một số bài toán về xử lý ngôn ngữ tiêu biểu như:1. Nhận dạng tiếng nói, (Speech recognization) phổ biến trong các hệ thống trợý ảo2. Tổng hợp tiếng nói (speech synthesis) từ dữ liệu vẫn bản, phân tích vàchuyển thành tiếng nói3. Nhận dạng chữ viết (optical character recognition) Từ một văn bản in trêngiấy, hoặc các baner, ... bạn có thể chuyển thành một tệp văn bản lưu trênmáy tính4. Dịch tự động (machine translate) Cái này có lẽ phổ biến hơn cả, không ai làchưa biết đến Google translate5. Tóm tắt văn bản (text summarization) Từ một văn bản dài, máy tóm tắt thànhmột văn bản ngắn hơn với các nội dung chính cơ bản6. Tìm kiếm thông tin (information retrieval) từ một nguồn có rất nhiều tệpthông tin, tìm ra những tệp có liên quan đến câu hỏi cần tìm. Tiêu biểu nhưGoogle search.7. Trích chọn thông tin (infomation extraction) tìm ra những đoạn bên trongcủa một tệp thông tin chứa nội dung ta cần biết.8. Phát hiện tri thức và khai phá dữ liệu văn bản (knowledge discovery and textdata mining), từ rất nhiều nguồn văn bản khác nhau, có thể không liên quanvới nhau, tìm ra những tri thức chưa ai biết. Ngoài ra còn có rất nhiều côngnghệ về xử lý ngôn ngữ khác như các hệ chuyên gia, hệ hỏi đáp, hệ sinhngôn ngữ, ...Thực tập thực tế - CNTTVõ Thanh Sang B15099475Các bài toán trên có phân thành 3 loại sau:•1-3 thuộc lĩnh vực xử lý tiếng nói và xử lý ảnh,•4-5 thuộc xử lý văn bản,•6-8 thuộc lĩnh vực khai phá văn bản Web.Đối với các bài toán về xử lý văn bản, chúng ta cần xử lý thyeo các tầng cơ bản sau:1. Tầng ngữ âm (phonetic and phonological layer), nghiên cứu về ngữ âm, môhinh hóa các từ, cách phát âm, thanh điệu, ngữ điệu, trường độ âm tiết, độnhấn, biến thanh, ....2. Tầng hình thái (morphological layer), nghiên cứu về thành phần có nghĩa củatừ, cấu tạo của từ, hay nó được tách ra trong một câu như thế nào. VD đốivới bài toán word segmentation trong tiếng Việt, bạn có thể thấy một ví dụquen thuộc "Ông già đi nhanh quá", và bạn có thể hiểu theo 2 nghĩa: (Ônggià) (đi) (nhanh quá) hoặc (Ông) (già đi) (nhanh quá). Điều này có thể dẫnđến nhập nhằng ngữ nghĩa, và làm ảnh hưởng rất lớn đến quá trình dạy máyhiểu được ngôn ngữ con người.3. Tầng ngữ pháp(morphological layer), nghiên cứu về các quan hệ cấu trúcgiữa các từ trong câu để tạo ra câu đúng. Các bài toán giải quyết tầng nàynhư:oPart-Of-Speach tagging: xác định loại từ trong câu (danh từ, động từ,giới từ, trợ từ ,....)oChungking: xác định cụm từ, ( cụm danh từ, cụm động từ, cụm trạngtừ, ...) VD "học sinh" là cụm danh từ, "học" là cụm động từ, "sinhhọc" là cụm trạng từ.oParsing: Phân tích cú pháp. VD (Học sinh) (học) (sinh học) là quan hệchủ ngữ - vị ngữ. Một số loại parsing bạn có thể tham khảo như: phântích cú pháp từ trên xuống (Top-Down Parsing), phân tích cú pháp dựđoán (Predictive Parsing)....4. Tầng ngữ nghĩa (semantic layer), nghiên cứu xác định nghĩa của từ và tổ hợpcủa chúng. VD với từ "đi" người ta có hiểu "đi" là động tác "bước đi" hoặc"đi" cũng có thể là "qua đời". Do đó để hiểu được ý nghĩa của từ, chúng tacần đặt nó trong văn cảnh của câu văn.5. Tầng ngữ dụng (pragmatic layer): nghiên cứu mối quan hệ giữa ngôn ngữ vàngữ cảnh sử dụng ngôn ngữ.Thực tập thực tế - CNTTVõ Thanh Sang B15099476Trong một bài toán về xử lý ngôn ngữ, khi phân tích ở các tầng ngữ âm (1) đếncác tầng ngữ pháp (3) chúng ta gọi là phân tích sơ bộ (shallow parsing), thường đượcáp dụng trong các bài toán như tìm kiếm thông tin, phân tích văn bản cho tổng hợptiếng nói ..v..v. Tuy nhiên với một số bài toán đi sâu vào ngữ nghĩa như dịch tựđộng, thì việc phân tích sơ bộ là chưa đủ, Khi đó, ít nhất chúng ta phải thực hiện đếntầng ngữ nghĩa (4) ta sẽ có phân tích đầy đủ (fully parsing).Tình hình xử lý tiếng Việt tại ViệtXử lý ngôn ngữ cũng đóng một vai trò quan trọng trong việc đẩy mạnh sựphát triển của CNTT Việt Nam đến với thế giới. Tuy nhiên, ông ta ta xưa nay vẫnnói: Phong ba bão táp không bằng ngữ pháp Việt Nam. Người Việt Nam đôi khi còngặp khó khăn khi sử dụng tiếng Việt, ấy thế mà, giờ chúng ta cần phải dạy cho máycó thể dùng tiếng Việt như con người. Điều này quả thật rất khó khăn.Ở Việt Nam cũng đã có một số nhóm bắt đầu nghiên cứu về xử lý ngôn ngữ,bước đầu đã có những kết quả nhất định, như: các nhóm nghiên cứu đến từ cáctrường đại học, đại học Bách Khoa, đại học Công Nghệ, đại học Khoa Học TựNhiên, Viện Nghiên Cứu Công Nghệ Thông Tin, .... Nhóm Nghiên Cứu VLNP, Bênngoài Việt Nam cũng có các nghiên cứu đến từ các nghiên cứu sinh Việt Nam tạiJAIST. Phần lớn các sản phẩm hiện nay đang tập trung vào lĩnh vực dịch máy, mộtsản phẩm khó, và yêu cầu làm dài hạn. Ngoài ra còn có các bài toán phân loại chianhóm văn bản.... Và đa phần chỉ dừng lại ở đề tài tiến sĩ, thạc sĩ, mang tính chất tìmhiểu, chưa hệ thống và định hướng rõ ràng.Bên cạnh những thành quả ban đầu, các công trình nghiên cứu xử lý ngôn ngữ ởViệt Nam vẫn đang gặp rất nhiều những khó khăn.•Ít các nghiên cứu nền tảng, những công cụ và tài nguyên. Các bộ dữ liệuchưa hoàn chỉnh, không được public hay thương mại hóa. Dữ liệu thườnghay bị spam, sai chính tả, ngữ pháp không rõ ràng.•Phần lớn là các nghiên cứu ngắn hạn, đơn lẻ như đề tài thạc sĩ, tiến sĩ, vớinhiều hạn chế về mô hình, thời gian, điều kiện phát triển.•Nhiều nhóm bắt đầu nghiên cứu khi còn thiếu kiến thức, dẫn đến nhiều sảnphẩm vẫn chưa thể đưa ra được kết quả.•Và điều quan trọng hơn hết là người Việt Nam mình mắc căn bệnh thiếu chiasẻ, liên kết, hợp tác làm việc theo đúng quy trình, và không có tính kế thừa,khiến cho người mới khi gặp vấn đề không biết phải xử lý sao, hỏi ai để cóthể giải quyết.Thực tập thực tế - CNTTVõ Thanh Sang B150994771.Tìm hiểu về công cụ và thư viện.a) Tìm hiểu công cụ tách từ tự động vnTokenizerMã nguồn mở là phần mềm có bộ source code mà bất kì ai cũng có thểdownload về, sửa đổi hoặc nâng cấp thêm cho nó những tính năng vượt trội khác.Thông thường, mã nguồn mở được phát hành miễn phí và sở hữu bởi các đơnvị, doanh nghiệp lớn về công nghệ, cũng có một số trường hợp các lập trình viênphát triển mã nguồn mở và bày bán nó với các chức năng độc đáo hơn phiên bảngốc.Tokenizers nhận được thường là một mảng các từ riêng lẻ xuất rả từ một chuỗiký tự tìm kiếm. Tokenizer là một chương trình chuyện phân chia một yêu cầu, hiểnthị (expression) thành nhiều unit nhỏ gọi là Token. Tokenizer được dùng cho việcphát triển của compiler cho ngôn ngữ lập trình. Nó giúp cho compiler tạo ra đượcnhững cấu trúc dựa theo những gì chúng ta muốn.vnTokenizer là chương trình tách từ tiếng Việt tự động. Việc nghiên cứu, pháttriển và cài đặt chương trình được thực hiện bởi một nhóm GV trẻ thuộc Khoa ToánCơ Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội thựchiện.Dữ liệu gồm:Từ điển tiếng ViệtooooKhoảng 35.000 từ, với các thông tin hình thái, ngữ pháp, ngữ nghĩadùng cho xử lý ngôn ngữ tự nhiên;Chứa đựng đủ lớp từ thông dụng trong tiếng Việt hiện đại;Mô hình từ điển theo chuẩn quốc tế nhằm sử dụng/trao đổi được giữanhiều hệ thống, thuận tiện cho nghiên cứu đối sánh các ngôn ngữ, dễcập nhật khi cần thiết;Mã hoá chuẩn XML.Treebank tiếng ViệtoooooVăn bản thuộc chủ đề Chính trị - Xã hội của báo Tuổi Trẻ;70,000 câu đã được tách từ (90,000 nếu tính cả hai tập dữ liệu bêndưới);10,000 câu đã được gán nhãn từ loại (20,000 nếu tính cả tập dữ liệubên dưới);10,000 cây cú pháp;Khuôn dạng tương tự treebank tiếng Anh (Penn Treebank).Kho ngữ liệu song ngữ Anh-Việt80,000 cặp câu Kinh tế - Xã hội;20,000 cặp câu Tin học.Thực tập thực tế - CNTTVõ Thanh Sang B15099478Hệ tách từ tiếng Việt••Sử dụng kết hợp từ điển và ngram, trong đó mô hình ngram được huấn luyệnsử dụng treebank tiếng Việt (70,000 câu đã được tách từ);Độ chính xác trên 97%.Hệ gán nhãn từ loại tiếng ViệtDựa trên các mô hình học máy MEMs và CRFs;Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (20,000 câu đã đượcgán nhãn từ loại);o Độ chính xác trên 93%.ooHệ phân tích cụm từ tiếng ViệtoooDựa trên mô hình học máy CRFs;Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (10,000 cây cúpháp);F-score đạt 81%.Hệ phân tích cú pháp tiếng ViệtoooDựa trên mô hình văn phạm phi ngữ cảnh xác suất;Được huấn luyện sử dụng dữ liệu treebank tiếng Việt (10,000 cây cúpháp);F-score đạt 78%.b) Tổng quan thư viện pyviChức năng chính:• Tokenize• POS tag:• Remove accents:Xoá dấuAlgorithm: Conditional Random FieldVietnamese tokenizer f1_score = 0.978637686Vietnamese pos tagging f1_score = 0.92520656Thực tập thực tế - CNTTVõ Thanh Sang B15099479POS TAGS:• A - Adjective• C - Coordinating conjunction• E - Preposition• I - Interjection• L - Determiner• M - Numeral• N - Common noun• Nc - Noun Classifier• Ny - Noun abbreviation• Np - Proper noun• Nu - Unit noun• P - Pronoun• R - Adverb• S - Subordinating conjunction• T - Auxiliary, modal words• V - Verb• X - Unknown• F - Filtered out (punctuation)Installation: $ pip install pyvic) Tổng quan thư viện Natural Language Processing (NLP)Natural Language Processing là khái niệm để chỉ các kĩ thuật, phươngpháp thao tác trên ngôn ngữ tự nhiên bằng máy tính. Bạn cần phân biệt ngôn ngữtự nhiên (ví dụ như tiếng Việt, tiếng Anh, tiếng Nhật… là những ngôn ngữ tronggiao tiếp thường ngày) và ngôn ngữ nhân tạo ( như ngôn ngữ lập trình, ngôn ngữmáy, …).Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từtrong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từđơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định cấu trúcngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ralà phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng đơn giản vớicon người nhưng đối với máy tính, đây là bài toán rất khó giải quyết.Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệthống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùngĐông Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật,tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này, ranh giới từkhông chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hìnhhòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, mộtThực tập thực tế - CNTTVõ Thanh Sang B150994710từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy đối với các ngôn ngữ thuộcvùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranhgiới từ.Trong NLP có 2 quan điểm cơ bản :1. Xử lý các từ ngữ bằng máy tính.2. Làm cho máy tính hiểu được các từ ngữ.Hiện tại, cả 2 hướng này đều đang được tích cực nghiên cứu và phát triển, nhờđó rất nhiều các hệ thống hiệu quả đã và đang được tạo ra.Các ứng dụng cơ bản của NLP :1. Chế tạo các hệ thống Máy dịch, ví dụ như Google translation.2. Xử lý văn bản và ngôn ngữ.3. Tìm kiếm thông tin.4. Chiết suất thông tin.5. Tóm tắt văn bản.6. Phân loại văn bản.7. Data mining, web mining.d) Tổng quan thư viện gensim.Gensim là một thư viện Python để lập mô hình chủ đề, lập chỉ mục tàiliệu và truy xuất tương tự với khối lớn. Đối tượng mục tiêu là cộng đồng xửlý ngôn ngữ tự nhiên (NLP) và cộng đồng truy xuất thông tin (IR).Tính năng, đặc điểm:Tất cả các thuật toán là độc lập với bộ nhớ w.r.t. kích thước kho vănbản (có thể xử lý đầu vào lớn hơn RAM, truyền phát, ngoài lõi),Giao diện trực quandễ dàng cắm vào kho dữ liệu / kho dữ liệu đầu vào của riêng bạn (APItruyền phát tầm thường)dễ dàng mở rộng với các thuật toán Vector Space khác (API biến đổitầm thường)Thực tập thực tế - CNTTVõ Thanh Sang B150994711Hiệu quả đa lõi của các thuật toán phổ biến, chẳng hạn như Phân tíchngữ nghĩa tiềm ẩn trực tuyến (LSA / LSI / SVD), Phân bổ Dirichlet tiềm ẩn(LDA), Dự đoán ngẫu nhiên (RP), Quy trình Dirichlet phân cấp (HDP) hoặchọc sâu word2vec.Điện toán phân tán: có thể chạy Phân tích ngữ nghĩa tiềm ẩn và Phân bổDirichlet tiềm ẩn trên một cụm máy tính.Tài liệu mở rộng và hướng dẫn Jupyter Notebook.Nếu danh sách tính năng này khiến bạn phải gãi đầu, trước tiên bạn cóthể đọc thêm về Mô hình không gian Vector và phân tích tài liệu khônggiám sát trên Wikipedia.pip install -U gensime) Tổng thư viện pickle.Các chuỗi có thể được ghi hoặc đọc dễ dàng từ một tập tin. Các số cầnmột ít cố gắng hơn, vì phương thức read() chỉ trả về chuỗi, và cần đượctruyền vào một hàm như int(), nó sẽ nhận một chuỗi như '123' và trả về giátrị số 123 của nó. Tuy nhiên, khi bạn muốn lưu các kiểu dữ liệu phức tạphơn như danh sách, từ điển, hoặc các đối tượng, việc này trở nên rắc rối hơnnhiều.Thay vì để người dùng luôn viết và gỡ rối mã để lưu các kiểu dữ liệuphức tạp, Python cung cấp một mô-đun chuẩn gọi là pickle. Đây là một môđun tuyệt diệu có thể nhận hầu hết mọi đối tượng Python (ngay cả một vàidạng mã Python!), và chuyển nó thành một chuỗi; quá trình này được gọilà giầm (pickling). Tạo lại đối tượng từ một chuỗi được gọi là vớt(unpickling). Giữa việc giầm và vớt, biểu diễn dạng chuỗi của đối tượng cóthể được lưu vào tập tin, hoặc gửi qua mạng đến một máy ở xa.f) Mô hình huấn luyện Word2Vec.Pre-trained word vectors trên 30 ngôn ngữ trên thế giới đã traningsẵn. Dự án này có hai mục đích. Trưóc hết là chia sẻ kinh nghiệm của tácgiả trong tác vụ NLP như phân đoạn văn bản hoặc vectors từ. Điều quantrọng hơn là một số mô hình vectors từ đã được đào tạo từ trước cho cácngôn ngữ mà không phải tiếng anh. Than ôi! Tiếng Anh đã thu hút đượcnhiều sự chú ý hơn bất kỳ ngôn ngữ nào khác. Kiểm tra điều này để xembạn có thể dễ dàng có được nhiều vectơ từ tiếng Anh được đào tạo trướcnhư thế nào mà không cần nỗ lực.Thực tập thực tế - CNTTVõ Thanh Sang B150994712Yêu cầu:••••nltk >= 1.11.1numpy >= 1.11.2pyvi >= 0.0.7.2 (Only for Vietnamese)gensim > =0.13.1 (for Word2Vec) />g) Các ứng dụng của bài toán tách từBài toán tách từ là bài toán cơ bản đầu tiên trong các bài toán đặt ra cho xử lýngôn ngữ sau :- Phân tích hình thái (morphological analysis)- Phân tích phụ tố- Nhận diện tên riêng- Nhận diện ranh giới ngữ- Phân tích ngữ pháp (PARSER)- Gán nhãn từ loại- Gán nhãn ranh giới ngữ- Gán nhãn quan hệ cú pháp- Xử lý văn bản- Kiểm lỗi chính tả- Kiểm lỗi văn phạm- Phân loại văn bản- Tóm tắt văn bản- Hiểu văn bản- Khai thác văn bản-Tóm tắt văn bản.-Kiểm lỗi chính tả.-Phân loại văn bản.-Tách các dấu chấm câu, các ký hiệu chữ và số.Tài nguyên hỗ trợ:· Từ điển tiếng Việt· Ngữ liệu tiếng Việt được tách từ hỗ trợ quá trình huấn luyện2. Mục tiêuTrong một thời đại mà mỗi ngày, mỗi giờ , mỗi phút đều có một lượng thôngtin khổng lồ được sinh ra, nhưng giới hạn về thời gian, về khả năng đọc và tiếp thucủa con người là có hạn, việc hiểu và nắm bắt thật nhiều thông tin một cách nhanhchóng không phải là vấn đề đơn giản với bất kỳ ai.Thực tập thực tế - CNTTVõ Thanh Sang B150994713Đã bao giờ bạn tìm kiếm các kiến thức trên internet, hay đọc một cuốn sách mà nộidung của nó dài "lê thê", khiến cho bạn cảm thấy một chút khó khăn để có thể nắmbắt được nó chưa?Đứng trước xu hướng con người ngày càng mất nhiều thời gian đọc email,báo điện tử và mạng xã hội, các thuật toán sử dụng machine learning để tự động tómtắt các văn bản dài một cách gãy gọn và chính xác ngày càng trở nên cần thiết và cóvai trò to lớn đối trong bất kỳ lĩnh vực nào.Tự động tóm tắt sẽ là một trong những công nghệ quan trọng có thể giúp conngười giảm thiểu thời gian đọc email và thông tin, kiến thức mới để dành thời giancho các công việc khác, mà vẫn có thể nắm bắt được gãy gọn những nội dung củanó.Hiện nay, rất nhiều thuật toán cho việc tóm tắt đã và đang được các công ty,các nhà nghiên cứu phát triển. Tuy nhiên, hôm nay mình muốn giới thiệu cho cácbạn một trong số những cách đơn giản nhất mà mình đã tìm hiểu được. Với việc ápdụng những phương pháp cơ bản nhất của học máy (Machine Learning) hay xử lýngôn ngữ tự nhiên (Natural Language Processing), cá nhân mình thấy đây là mộtphương pháp cực kỳ đơn giản và có thể dễ dàng nắm bắt.3. Phương pháp nghiên cứuPhương pháp thu thập thông tin:- Tìm kiếm thông tin trên internet.- Học hỏi từ bạn bè.- Liên hệ, trao đổi ý kiến với người hướng dẫn.Về mặt lý thuyết:Xây dựng ma trận dữ liệu liên quan.Áp dụng máy học để huấn luyện dữ liệu.Lưu lại mô hình dữ liệu với tham số tối ưu.Về kĩ thuật:Sử dụng ngôn ngữ lập trình Python cùng với các thư viện hỗ trợ tính toán và cácgiải thuật máy học.- Công cụ hỗ trợ lập trình Python.Thực tập thực tế - CNTTVõ Thanh Sang B1509947144. Mô hình hoạt động của hệ thống.Các bước xử lý:Chươngtrìnhcủachúngtasẽchỉcầncó5bướcnhưsơđồởtrên.Cụ thể mình mô tả các bước như sau:Tiền xử lý văn bản: Văn bản đầu vào của chúng ta có thể chứa nhiều ký tựthừa, dấu câu thừa, khoảng trắng thừa, các từ viết tắt, viết hoa, ... điều này có thểlàm ảnh hưởng tới các bước ở sau này nên chúng ta cần phải xử lý nó trước! Tuynhiên trong bài lần này, chúng ta sẽ chỉ thử trên một số bài báo đã khá "quy củ" rồinên tôi sẽ chỉ thực hiện 2 phương pháp đó là Biến đổi hết về các chữ cái thườngvà Loại bỏ các khoảng trắng thừa.Tách câu trong văn bản: Ở bước này, chúng ta sẽ tách 1 đoạn văn bản cầntóm tắt đã qua xử lý thành 1 danh sách các câu trong nó.Chuyển các câu sang dạng vector số thực: Để phục vụ cho phương pháp tómtắt ở bước tiếp theo, chúng ta cần chuyển các câu văn (độ dài ngắn khác nhau) thànhcác vector số thực có độ dài cố định, sao cho vẫn phải đảm bảo được "độ khácnhau" về ý nghĩa giữa 2 câu cũng tương tự như độ sai khác giữa 2 vector tạo ra.Phân cụm: Về Machine Learning thì đây chắc hẳn là một thuật toán rất quenthuộc (K-Means Clustering). Thuật toán này sẽ giúp chúng ta phân ra những cụmcâu có ý nghĩa giống nhau, để từ đó chọn lọc và loại bỏ bớt các câu có cùng ý nghĩa.Xây dựng đoạn văn bản tóm tắt: Sau khi đã có các cụm, trong mỗi cụm (phân loạitheo ý nghĩa), chúng ta sẽ chọn ra 1 câu duy nhất trong cụm đó để tạo nên văn bảnđược tóm tắt.5. Cài đặt hệ thống.a) Tiền xử lí văn bản:Để thu được được các dữ liệu ta sử Google Form, GoogleSheets để thu thập và lưu trữ dữ .Code lấy dữ liệu thông qua công cụ dành cho nhà phát triểnSheets API như sau:from __future__ import print_functionimport pickleimport os.pathThực tập thực tế - CNTTVõ Thanh Sang B150994715from googleapiclient.discovery import buildfrom google_auth_oauthlib.flow import InstalledAppFlowfrom google.auth.transport.requests import Request# If modifying these scopes, delete the file token.pickle.SCOPES = [' /># The ID and range of a sample spreadsheet.SAMPLE_SPREADSHEET_ID = '1nN0XoowGTJ5yYZ8GCmxfRI8pOaotHrzjVbs2qHPTNx0'SAMPLE_RANGE_NAME = 'A2:H'def main():"""Shows basic usage of the Sheets API.Prints values from a sample spreadsheet."""creds = None# The file token.pickle stores the user's access and refreshtokens, and is# created automatically when the authorization flow completes forthe first# time.if os.path.exists('token.pickle'):with open('token.pickle', 'rb') as token:creds = pickle.load(token)# If there are no (valid) credentials available, let the user login.if not creds or not creds.valid:if creds and creds.expired and creds.refresh_token:creds.refresh(Request())else:flow = InstalledAppFlow.from_client_secrets_file('credentials.json', SCOPES)creds = flow.run_local_server()# Save the credentials for the next runwith open('token.pickle', 'wb') as token:pickle.dump(creds, token)service = build('sheets', 'v4', credentials=creds)# Call the Sheets APIsheet = service.spreadsheets()result = sheet.values().get(spreadsheetId=SAMPLE_SPREADSHEET_ID,range=SAMPLE_RANGE_NAME).execute()values = result.get('values', [])if not values:print('No data found.')else:Thực tập thực tế - CNTTVõ Thanh Sang B150994716print('Góp Ý: ')for row in values:print(row[5])pickle.dump(row[5], open("sheet.pkl", "wb"))if __name__ == '__main__':main()Dùng thư viện pickle để nén dữ liệu thành một file binary và lưu lại để giữtính toàn vẹn cho file khi load lên và việc lưu kiểu binary sẽ nhẹ hơn nhiều so vớilưu file dạng text thông thường nếu quá nhiều dữ liệu.Dùng 2 phương pháp là chuyển đổi hết sang chữ cái thường và loại bỏ cáckhoảng trắng nhé, chúng ta sẽ có đoạn code sau:contents_parsed = content.lower() #Biến đổi hết thành chữ thườngcontents_parsed = contents_parsed.replace('\n', '. ') #Đổi các ký tự xuống dòngthành chấm câucontents_parsed = contents_parsed.strip() #Loại bỏ đi các khoảng trắng thừaVà đây là kết quả thu được:cô dạy rất hay và dễ hiểu. cô dịu dàng rất thân thiện, đềnghị bộ môn định hướng dược lâm sàng xem lại về cách hướngdẫn sinh viên tìm ra đáp án của những ca lâm sàng tronggiờ thực hành, trả lời sao mới đúng để sinh viên có kiếnthức thêm. em mong một số thầy cô giải đáp án đúng từngcâu hỏi trong ca lâm sàng để tụi em biết được cái nào làđúng, dạ! em có thêm ý kiến là: cô dạy rất hay và cho vídụ rất dễ hiểu. dạ! em xin cám ơn. em rất thích cách dạycủa cô, rất thích cách truyền đạt của cô!!!, cô liên làngười gv mà em luôn mếm và phục! cô nghiêm khác tronggiảng dạy đòi hỏi sv nắm bắt được kiến thức nhưng cô rấtthân thiện và nhiệt tình với sv về mọi mặt cả học tập lẫnxã hội. có nhiều bạn sợ cô bảo cô khó nhưng đối với em côliên là người cô em mến và phục! em cảm ơn cô đã truyềnđạt những kiến thức hữu ích và nhìn nhận về thực tế choem. cô là 1 giảng viên rất trách nhiệm và tâm huyết. em rấtcảm ơn cô!, thầy giảng khá là dễ thương, và thầy có thể mởrộng tầm hiểu biết của sinh viên đối với mỗi thứ chúng emđang làm trong phòng thí nghiệm ra ngoài thực tế hơn…b) Tác câu trong văn bản:Thực tập thực tế - CNTTVõ Thanh Sang B150994717Tạiđâychúngtasẽtáchcáccâutrongvănbảntrênrađểthuđược1danhsáchcáccâucóởtrên.ViệcnàytrởnênđơngiảnhơnrấtnhiềuvớithưviệnNLTK,tôicóthểdễdàngsửdụnghàmsent_tokenizeđểlấyradanhsáchcáccâu.import nltksentences = nltk.sent_tokenize(contents_parsed)Kếtquảthuđược:['cô dạy rất hay và dễ hiểu.', 'cô dịu dàng rất thânthiện, đề nghị bộ môn định hướng dược lâm sàng xem lại vềcách hướng dẫn sinh viên tìm ra đáp án của những ca lâmsàng trong giờ thực hành, trả lời sao mới đúng để sinhviên có kiến thức thêm.', 'em mong một số thầy cô giảiđáp án đúng từng câu hỏi trong ca lâm sàng để tụi embiết được cái nào là đúng, dạ!', 'em có thêm ý kiến là:cô dạy rất hay và cho ví dụ rất dễ hiểu.', 'dạ!', 'em xincám ơn.', 'em rất thích cách dạy của cô, rất thích cáchtruyền đạt của cô!!', '!, cô liên là người gv mà emluôn mếm và phục!', 'cô nghiêm khác trong giảng dạy đòihỏi sv nắm bắt được kiến thức nhưng cô rất thân thiện vànhiệt tình với sv về mọi mặt cả học tập lẫn xã hội.', 'cónhiều bạn sợ cô bảo cô khó nhưng đối với em cô liên làngười cô em mến và phục!', 'em cảm ơn cô đã truyền đạtnhững kiến thức hữu ích và nhìn nhận về thực tế choem.', 'cô là 1 giảng viên rất trách nhiệm và tâmhuyết.', 'em rất cảm ơn cô!, thầy giảng khá là dễthương, và thầy có thể mở rộng tầm hiểu biết của sinhviên đối với mỗi thứ chúng em đang làm trong phòng thínghiệm ra ngoài thực tế hơn…']c) Chuyển câu sang Vector:Về phần này, hiện nay có rất nhiều phương pháp training được sử dụnghiệu quả, nhằm biến đổi các câu sang các vector có độ dài cố định mà vẫn giữđược các đặc trưng, ý nghĩa của câu đó. Có thể kể đến phương pháp làSkipThought( Tuy nhiênmô hình này được training trên tập dữ liệu tiếng Anh và để training lại với dữliệu tiếng Việt sẽ mất của các bạn thêm chút thời gian nữa. Mô hình này tỏ rarất hiệu quả,tuy nhiên phương pháp dễ dàng để tiếp cận hơn đó là sử dụng sẵnmô hình đã được huấn luyện chuyển đổi từ "Từ sang vector" (Word2Vec).Thực tập thực tế - CNTTVõ Thanh Sang B150994718Phương pháp của mình đó chính là sẽ tách nhỏ từng câu thành các từ,sau đó dùng mô hình Word2Vec đã được training cho tiếng Việt, chuyển đổicác từ đó sang các vector số thực có chiều dài cố định. Cuối cùng, vector của1 câu mà mình chuyển đổi sang sẽ là TỔNG của các vector đại diện cho cáctừ trong câu!Mô hình Word2Vec cho tiếng Việt có thể dễ dàng tìm trên mạng, ởđây tôi sử dụng mô hình tại />Với mô hình mình vừa tải xuống, các từ sẽ được biến đổi thành mộtvector 100 chiều. Chúng ta sẽ sử dụng thư viện gensim để load lại model.from gensim.models import KeyedVectorsw2v = KeyedVectors.load_word2vec_format("vi_txt/vi.vec")Tiếp theo là tách các từ trong câu và lấy tổng để được các vector chotừng câu trong danh sách mà chúng ta vừa có trên kia:vocab = w2v.wv.vocab # Danh sách các từ trong từfrom pyvi import ViTokenizerX = []for sentence in sentences:sentence = ViTokenizer.tokenize(sentence)words = sentence.split(" ")sentence_vec = np.zeros((100))for word in words:if word in vocab:sentence_vec+=w2v.wv[word]X.append(sentence_vec)Trong đoạn code ở trên, mình sẽ duyệt qua từng câu trong danh sáchcâu của chúng ta. Với mỗi câu, mình sẽ tách các từ ra. Ở đây mình dùng thêm1 thư viện pyvi để tách các từ tiếng Việt.Ví dụ như câu:'cô dạy rất hay và dễ hiểu.'Chúngtaphảitáchthành['cô_dạy' 'rất' 'hay' 'và' 'dễ' 'hiểu''.']Thư viện pyVi với hàm ViTokenize sẽ giúp chúng ta ghép các từ cónghĩa trong tiếng Việt lại với nhau nhằm đảm bảo giữ nguyên ý nghĩa củatừng từ!Thực tập thực tế - CNTTVõ Thanh Sang B150994719Sau đó, tôi khai báo một vector 100 chiều gồm toàn số 0. rồi với mỗimột từ trong câu, tôi đều sử dụng hàm word2vec chuyển thành vector rồicộng nó vào vector này (nếu nó có thể chuyển được thành vector). Cuối cùngsau khi hết mỗi câu, tôi thêm nó vào 1 mảng đặt tên là X. X chúng ta thu đượcsẽ là các vector 100 chiều mà mỗi vector đại diện cho 1 câu trong văn bản.d) Phân cụm:Bài toán phân cụm là 1 nhánh ứng dụng chính của lĩnh vựcUnsupervised Learning (Học không giám sát), trong đó dữ liệu được mô tảtrong bài toán không được dán nhãn (tức là không có đầu ra). Trong trườnghợp này, thuật toán sẽ tìm cách phân cụm - chia dữ liệu thành từng nhóm cóđặc điểm tương tự nhau, nhưng đồng thời đặc tính giữa các nhóm đó lại phảicàng khác biệt càng tốt.Và ở đây, tôi muốn phân cụm các vector đại diện cho từng câu trongvăn bản vừa rồi để biết những câu nào mang ý nghĩa giống nhau.Thực tập thực tế - CNTTVõ Thanh Sang B150994720
Tài liệu liên quan
- Nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn
- 13
- 1
- 2
- LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc
- 59
- 1
- 1
- Nâng cao hiệu quả hoạt động của hệ thống vận tải hành khách công cộng trong đô thị tóm tắt LUẬN án TIẾNG VIỆT
- 27
- 571
- 1
- Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng việt
- 23
- 985
- 1
- nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn
- 53
- 602
- 2
- phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt
- 131
- 326
- 0
- Tóm tắt văn bản tiếng Việt Rút gọn câu và phát hiện quan hệ ngữ nghĩa
- 101
- 597
- 0
- Hệ thống dịch và tóm tắt văn bản Anh - Việt
- 101
- 485
- 0
- Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê
- 92
- 361
- 0
- Xây dựng hệ tóm tắt ý kiến về các sản phẩm từ nhiều người dùng cho văn bản tiếng Việt
- 51
- 778
- 2
Tài liệu bạn tìm kiếm đã sẵn sàng tải về
(1.08 MB - 30 trang) - Công Cụ Tóm Tắt Văn Bản Tiếng Việt Bằng Python Tải bản đầy đủ ngay ×Từ khóa » Tách Từ Tiếng Việt Python
-
[PDF] Tách Từ Tiếng Việt - Soict - HUST
-
Thuật Toán Tách Từ
-
Thuật Toán Tách Từ (Tokenizer)
-
Undertheseanlp/word_tokenize: Vietnamese Word Tokenize - GitHub
-
Bài Toán Tách Từ Tiếng Việt | Tìm ở đây
-
Tokenization Là Gì? Các Kỹ Thuật Tách Từ Trong Xử Lý Ngôn Ngữ Tự Nhiên
-
Tokenization Là Gì? Các Kỹ Thuật Tách Từ Trong Xử Lý Ngôn Ngữ Tự Nhiên
-
Tách Từ Trong Xử Lý Ngôn Ngữ Tự Nhiên - Tokenization In NLP
-
Tìm Hiểu Một Vài Phương Pháp Tách Từ Trong Văn Bản Tiếng Việt
-
Xử Lý Tiếng Việt Trong Python - Lập Trình Không Khó
-
Xử Lý Ngôn Ngữ Tự Nhiên Với Python - P4 - Viblo
-
Xây Dựng Chương Trình Tóm Tắt Văn Bản (tiếng Việt) đơn Giản Với ...
-
Giới Thiệu Tiền Xử Lý Trong Xử Lý Ngôn Ngữ Tự Nhiên - Kipalog
-
Phân Loại Văn Bản Tiếng Việt Sử Dụng Machine Learning
-
Forum Machine Learning Cơ Bản | Cốc Cốc Chia Sẻ Mã Nguồn Mở ...
-
[PDF] Giải Pháp Tách Từ Sử Dụng Mạng Nơ Ron Nhằm Nâng Cao Chất Lượng ...
-
[PDF] Gán Nhãn Từ Loại Tiếng Việt Dựa Trên
-
Phân Loại Văn Bản Tự động Bằng Machine Learning Như Thế Nào?
-
Python — Tách Một Chuỗi được Phân Tách Bằng Dấu Chấm Phẩy Cho ...