Mô Hình Tách Từ, Gán Nhãn Từ Loại Và Hướng Tiếp Cận Tích Hợp Cho ...

logo xemtailieu Xemtailieu Tải về Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng việt
  • pdf
  • 56 trang
Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt TRẦN THỊ OANH Master Thesis Giảng viên hướng dẫn: TS. Lê Anh Cường PGS.TS. Hà Quang Thụy 2008 Mục lục Mở đầu iv 1 KHÁI QUÁT VỀ TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 1 1.1 Khái quát về tách từ tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Khái quát về gán nhãn từ loại - POS tagging . . . . . . . . . . . . . . . . . 2 1.2.1 Giới thiệu về bài toán gán nhãn từ loại . . . . . . . . . . . . . . . . 2 1.2.2 Các hướng tiếp cận bài toán POS tagging . . . . . . . . . . . . . . 4 1.2.3 Các nghiên cứu gán nhãn từ loại cho tiếng Việt . . . . . . . . . . . 6 Vấn đề tích hợp tách từ và gán nhãn từ loại . . . . . . . . . . . . . . . . . 7 1.3 2 MỘT MÔ HÌNH TÁCH TỪ TIẾNG VIỆT 2.1 9 Các mô hình liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1 Mô hình dựa vào từ điển . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.2 Mô hình nhận dạng tên thực thể - Named Entity Recognition . . . 10 2.1.3 Mô hình N-gram . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2 Phân tích các mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3 Thiết kế tập đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4 2.3.1 FS1: Đặc trưng trích từ mô hình tách từ dựa vào từ điển . . . . . . 13 2.3.2 FS2: Đặc trưng dựa vào mô hình nhận dạng tên thực thể . . . . . . 13 2.3.3 FS3: Đặc trưng dựa vào mô hình N-gram . . . . . . . . . . . . . . . 14 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.1 Đánh giá các đặc trưng FS1 và FS2 so với các mô hình trước đó . . 15 2.4.2 Đánh giá tầm quan trọng của từng tập thuộc tính . . . . . . . . . . 16 v vi 2.5 Đánh giá kết quả tách từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3 MỘT MÔ HÌNH GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 3.1 3.2 3.3 3.4 19 Xây dựng corpus gán nhãn từ loại cho tiếng Việt . . . . . . . . . . . . . . 19 3.1.1 Thiết kế tập thẻ VnPOSTag . . . . . . . . . . . . . . . . . . . . . . 19 3.1.2 Mô tả bộ dữ liệu làm vnPOS corpus . . . . . . . . . . . . . . . . . 21 3.1.3 Xây dựng vnPOS corpus . . . . . . . . . . . . . . . . . . . . . . . . 22 Gán nhãn từ loại bằng phương pháp Maximum Entropy Model . . . . . . . 24 3.2.1 Mô hình xác suất . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2.2 Các đặc trưng của gán nhãn từ loại . . . . . . . . . . . . . . . . . . 25 Đề xuất mô hình gán nhãn từ loại cho tiếng Việt . . . . . . . . . . . . . . 26 3.3.1 Gán nhãn từ loại dựa vào thông tin từ . . . . . . . . . . . . . . . . 27 3.3.2 Gán nhãn từ loại dựa vào hình vị . . . . . . . . . . . . . . . . . . . 29 Đánh giá kết quả gán nhãn từ loại . . . . . . . . . . . . . . . . . . . . . . 30 4 MỘT MÔ HÌNH TÍCH HỢP TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 32 4.1 Các mô hình tích hợp cho tiếng Trung . . . . . . . . . . . . . . . . . . . . 32 4.2 Lựa chọn mô hình tích hợp cho tiếng Việt . . . . . . . . . . . . . . . . . . 34 4.3 Xây dựng mô hình và tiến hành thực nghiệm . . . . . . . . . . . . . . . . . 35 4.4 4.3.1 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3.2 Giải mã . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.3.3 Kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 A Chú giải tập từ loại vnPOS 44 vi Danh sách hình vẽ 2.1 Mô hình tách từ sử dụng N-gram. . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Các mô hình liên quan cần để trích các đặc trưng. . . . . . . . . . . . . . . 12 2.3 Biểu đồ độ đo F1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.1 Giao diện công cụ trợ giúp gán nhãn vnPOS. . . . . . . . . . . . . . . . . . 23 3.2 Kiến trúc gán nhãn từ loại. . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1 Kiến trúc tích hợp tách từ và gán nhãn từ loại tiếng Việt. vii . . . . . . . . . 34 Danh sách bảng 1 Bảng thuật ngữ Anh - Việt. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Bảng tập đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Ví dụ tập đặc trưng 1 (FS1) . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 Ví dụ một câu được tách từ . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4 Kết quả đánh giá hiệu quả của đặc trưng dựa vào từ điển . . . . . . . . . . 16 2.5 Kết quả đánh giá hiệu quả của đặc trưng dựa vào NER . . . . . . . . . . . 16 2.6 Kết quả thực nghiệm khi bỏ đi lần lượt từng tập đặc trưng. . . . . . . . . 17 2.7 Kết quả thực nghiệm sử dụng từng loại đặc trưng riêng. . . . . . . . . . . 17 3.1 Tập thẻ vnPOSTag của từ loại tiếng việt. . . . . . . . . . . . . . . . . . . . 22 3.2 Kết quả gán nhãn từ loại dựa vào thông tin mức từ. . . . . . . . . . . . . . 29 3.3 Kết quả gán nhãn từ loại dựa vào thông tin hình vị. . . . . . . . . . . . . . 30 4.1 Một ví dụ ouput của mô hình tích hợp. . . . . . . . . . . . . . . . . . . . . 35 4.2 Kết quả thực nghiệm tích hợp tách từ và gán nhãn từ loại. . . . . . . . . . 36 viii ix Một số thuật ngữ tiếng Anh - Việt STT 1 2 3 4 5 6 7 8 Bảng 1: Bảng thuật ngữ Anh Thuật ngữ tiếng Anh Viết tắt Natural Language Processing NLP Word Segmentation WS Part of speech tagging POS tagging Maximum Entropy Model MEM Named Entity Recognition NER Hidden Markov Model HMM Maximal Matching MM Longest Matching LM ix Việt. Thuật ngữ tiếng Việt Xử lý ngôn ngữ tự nhiên Tách từ Gán nhãn từ loại Mô hình entropy cực đại Nhận dạng thực thể Mô hình Markov ẩn Phù hợp tốt nhất Phù hợp dài nhất iii MỞ ĐẦU Tách từ (word segmentation) và gán nhãn từ loại( part-of-speech tagging – POS tagging) là hai bài toán đặc biệt quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, các nghiên cứu tại Việt Nam về hai vấn đề này vẫn còn ở giai đoạn ban đầu. Do đó, nhu cầu là rất lớn cả về cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng. Xét về mặt ngôn ngữ, các cách tách từ khác nhau dẫn đến các cách gán nhãn từ loại khác nhau và ngược lại thông tin về các qui tắc đi kèm nhau của các từ loại có thể ảnh hướng tới việc tách từ. Đây có thể là cơ sở cho một mô hình chung của hai quá trình này. Vì thế, trong luận văn này chúng tôi nghiên cứu “Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt”. Đóng góp của luận văn là việc tìm hiểu, nghiên cứu và đề xuất mô hình thực hiện tách từ, gán nhãn từ loại tiếng Việt; xây dựng công cụ thực hiện liên quan; bên cạnh đó để huấn luyện và kiểm thử mô hình chúng tôi cũng tiến hành xây dựng một corpus tiếng Việt về gán nhãn từ loại xấp xỉ 8000 câu. Luận văn cũng tiến hành thực nghiệm một hướng tiếp cận tích hợp cho hai bài toán này. Các nghiên cứu trình bày trong luận văn sẽ đặc biệt hữu ích cho các nghiên cứu ở mức cao hơn như dịch máy, tóm tắt văn bản, phân tích cú pháp ... Cấu trúc của luận văn được trình bày như sau: • Chương 1: Khái quát về tách từ và gán nhãn từ loại tiếng Việt : Trong chương này, luận văn giới thiệu hai bài toán cơ bản trong xử lý ngôn ngữ tự nhiên là bài toán tách từ và bài toán gán nhãn từ loại tiếng Việt, các hướng tiếp cận cho mỗi bài toán và tình hình nghiên cứu chung ở Việt Nam cũng như trên thế giới. Chương 1 cũng trình bày các hướng tiếp cận tích hợp hai bài toán này để nâng cao hiệu quả của cả hai mô hình đã được áp dụng thành công cho tiếng Trung. • Chương 2: Một mô hình tách từ tiếng Việt : Chương này nghiên cứu và đề xuất một mô hình cho bài toán tách từ tiếng Việt tận dụng thông tin tri thức từ nhiều nguồn khác nhau nhằm tăng độ chính xác của bộ tách từ. • Chương 3: Một mô hình gán nhãn từ loại tiếng Việt: Chương này nghiên cứu và đề xuất mô hình gán nhãn từ loại tiếng Việt, các công việc mà luận văn iii iv đã tiến hành nhằm xây dựng một mô hình gán nhãn từ loại hiệu quả như thiết kế corpus gán nhãn từ loại, đề xuất mô hình sử dụng Maximum Entropy Model (MEM) và thiết kế các tập đặc trưng khác nhau để tìm ra các đặc trưng hữu ích cho tiếng Việt. • Chương 4: Một mô hình tích hợp tách từ và gán nhãn từ loại tiếng Việt: Từ các nghiên cứu đã trình bày trong chương 2, chương 3 và đặc điểm tiếng Việt, chương 4 trình bày một mô hình tích hợp hai bài toán đó áp dụng cho tiếng Việt. • Kết luận: Phần này tóm tắt lại nội dung của luận văn và những đóng góp chính mà luận văn đã thực hiện. • Phụ lục A: Chú giải tập từ loại vnPOS : Mô tả cụ thể để giải thích thêm tập nhãn từ loại mà luận văn đề xuất phục vụ xây dựng corpus gán nhãn từ loại tiếng Việt. iv Chương 1. KHÁI QUÁT VỀ TÁCH TỪ VÀ GÁN NHÃN TỪ LOẠI TIẾNG VIỆT 1.1 Khái quát về tách từ tiếng Việt Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký tự dựa trên hệ chữ cái Latin. Cũng giống một số tiếng khác như tiếng Trung, tiếng Nhật, tiếng Hàn thì từ trong tiếng Việt không được xác định bởi khoảng trắng. Một từ tiếng Việt có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phân tách nhau bởi các khoảng trắng. Từ là đơn vị cơ bản để phân tích cấu trúc của ngôn ngữ, do vậy để tiến tới những ứng dụng xa hơn về xử lý ngôn ngữ tiếng Việt như gán nhãn chức năng từ loại, phân tích cú pháp thì việc đầu tiên ta phải giải quyết bài toán tách từ. Các nhà nghiên cứu đã đề xuất một số hướng tiếp cận để giải bài toán tách từ [11, 14, 16, 20, 23, 25, 27] . Nhìn chung, các hướng tiếp cận đó được chia thành 2 loại: tiếp cận dựa trên từ điển và tiếp cận dựa trên thống kê. Hai phương pháp tiêu biểu của hướng tiếp cận dựa vào từ điển là Longest Matching và Maximal Matching. Hầu hết những nghiên cứu ban đầu về tách từ đều dựa trên cách tiếp cận này như trong [25, 29]. Hướng tiếp cận này có đặc điểm là đơn giản, dễ hiểu tuy nhiên hiệu quả mang lại không cao. Lý do là bởi nó không xử lý được rất nhiều trường hợp nhập nhằng cũng như không có khả năng phát hiện từ mới trong văn bản. Chính vì vậy mà các hệ thống tách từ có chất lượng cao hiện nay thường sử dụng hướng tiếp cận dựa trên thống kê. Ví dụ, đối với tiếng Trung thì có các nghiên cứu liên quan [14, 27], tiếng Thái [25], cũng như tiếng Việt [12, 23]. Cụ thể, đối với tiếng Việt thì tác giả Lê An Hà[16] đã xây dựng corpus xấp xỉ 10 triệu hình vị và sử dụng thông tin N-gram để tối ưu tổng các xác suất tách cho mỗi phân cụm (chunk). Kết quả thực nghiệm tuy không cao nhưng cũng đã cho thấy N-gram sẽ trở nên hữu ích nếu ta biết cách sử dụng thông tin này khi liên kết với các nguồn thông tin khác. Hiện nay, rất nhiều hệ thống tách từ phổ biến sử dụng hướng tiếp cận lai. Ví dụ, nhóm tác giả Cẩm Tú [23] đã nghiên cứu ứng dụng các mô hình CRF và SVM để tách 1 2 từ tiếng Việt. Hoặc như nhóm tác giả Đinh Điền [12] đã sử dụng mô hình MEM sử dụng giải thuật tối ưu GIS để huấn luyện bộ tách trên corpus gán nhãn. Trong nghiên cứu đó, tác giả đã phân tách hai quá trình nhận dạng từ mới (unknown word recognition) và tách từ đã biết (known word segmentation) như hai tiến trình độc lập nhau. Tuy nhiên, nhiều nghiên cứu đã cho thấy rằng hai tiến trình này nên được tiến hành đồng thời để nâng cao độ chính xác. Một ví dụ điển hình của hướng tiếp cận như vậy cho tiếng Trung được J.Gao đề cập trong [14]. Trong các phương pháp lai, các tác giả đã tận dụng thông tin từ điển và một số thông tin khác nhằm phát hiện tên thực thể. Tuy nhiên, trong các nghiên cứu đó đều chưa quan tâm thích đáng tới việc đánh giá ảnh hưởng của từng nguồn tri thức và đặc biệt là chưa có những nghiên cứu để phát hiện từ mới (không chỉ là tên thực thể và các dạng factoid). Nghiên cứu các phương pháp phát hiện từ mới ta thấy thông tin Ngram đóng vai trò hữu ích giúp ta phát hiện từ mới khi mà corpus thống kê đủ lớn và xác định được độ đo phù hợp. Câu hỏi đặt ra là làm cách nào để tận dụng được tất cả các nguồn tri thức đó. Đây cũng chính là động lực cho luận văn này. 1.2 Khái quát về gán nhãn từ loại - POS tagging 1.2.1 Giới thiệu về bài toán gán nhãn từ loại Gãn nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ vào các lớp từ loại của ngôn ngữ đó: • Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ đối với tiếng Anh: “Book that flight.”, và tập thẻ Penn Treebank) • Output: Một nhãn tốt nhất cho từng từ trong câu (Ví dụ: Book/VB that/DT flight/NN ./.) Quá trình gán nhãn từ loại có thể chia làm 3 bước như sau: 1. Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. 2 3 Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất cao. 2. Khởi tạo gán nhãn: Tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét. 3. Quyết định kết quả gán nhãn: Đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi bật là phương pháp Brill và các phương pháp xác suất. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng, ... Việc gán nhãn từ loại đã được quan tâm từ rất sớm, cùng với nó là sự xuất hiện của rất nhiều phương pháp giải quyết. Tới nay, các phương pháp mới vẫn đang tiếp tục được nghiên cứu nhằm hoàn thiện hơn nữa các kết quả đã đạt được. Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt độ chính xác khá cao tầm 97% [15]. Bên cạnh việc hoàn thiện hơn nữa các bộ gán nhãn đã có, ngày càng nhiều bộ gán nhãn mới ra đời, đem lại kết quả gần như tối ưu. Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình (như tiếng Trung Quốc, Nhật, Hàn Quốc ..), các ngôn ngữ của Ấn Độ, Thái Lan, A Rập, Nga cũng như đối với tiếng Việt thì bài toán gán nhãn từ loại vẫn còn là một thách thức lớn. Các phương pháp và công cụ đã được xây dựng gần như hoàn thiện cho Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên thường đưa lại kết quả thấp [17]. Như vậy, yêu cầu đặt ra với từng ngôn ngữ là phải kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh hoặc đề xuất ra các hướng tiếp cận mới sao cho phù hợp với các đặc điểm riêng biệt của từng ngôn ngữ. 3 4 1.2.2 Các hướng tiếp cận bài toán POS tagging Theo [18], hầu hết các thuật toán gán nhãn từ loại rơi vào một trong hai lớp: gán nhãn dựa trên luật (rule-based taggers) hoặc bộ gán nhãn xác suất (stochastic taggers). Các bộ gán nhãn dựa trên luật thường liên quan tới một cơ sở dữ liệu lớn các luật được viết bằng tay. Ví dụ một từ nhập nhằng đang xét có xu hướng là một danh từ hơn là một động từ nếu nó đi sau một từ chỉ định. Phần tiếp sau sẽ mô tả một bộ gán nhãn dựa trên luật mẫu, ENGTWOL, dựa trên kiến trúc cú pháp ràng buộc của Karlson năm 1995. Bộ gán nhãn xác suất thường giải quyết nhập nhằng bằng cách sử dụng một corpus huấn luyện để tính toán xác suất của một từ cho sẵn sẽ được gán một thẻ nào đó trong ngữ cảnh cho trước. Phần sau sẽ mô tả một bộ gán nhãn HMM (HMM Tagger), hay còn được gọi là Maximum Likelihood Tagger cũng dựa trên mô hình Markov ẩn. Ngoài ra còn có các hướng tiếp cận khác gồm bộ gán nhãn dựa trên chuyển đổi transformation-based tagger hoặc bộ gán nhãn Brill (Brill tagger). Bộ gán nhãn Brill sẽ sử dụng các đặc tính của cả 2 kiến trúc gán nhãn trên. Giống như bộ gán nhãn dựa trên luật, nó dựa vào luật để xác định khi một từ nhập nhằng thì nó có khả năng là một thẻ nào nhất. Giống như bộ gán nhãn xác suất, nó có một thành phần học máy để tạo ra các luật một cách tự động từ một corpus huấn luyện đã được gán nhãn trước. Tuy nhiên, trong phạm vi luận văn này chúng tôi không trình bày cụ thể việc nghiên cứu 2 phương pháp này (xem thêm trong [18]). Gán nhãn chức năng cú pháp dựa trên luật Các thuật toán ban đầu về gán nhãn tự động từ loại thường gồm hai giai đoạn. Giai đoạn một nó sử dụng một từ điển để gán cho mỗi từ một danh sách các từ loại có thể có. Giai đoạn 2 nó sử dụng một danh sách gồm tập các luật không có nhập nhằng thường được soạn bằng tay để gán cho mỗi từ chỉ một từ loại phù hợp nhất. Một bộ gán nhãn điển hình theo tiếp cận này cho tiếng Anh là bộ gán nhãn ENGTWOL[19]. Giai đoạn 1 sử dụng bộ phân tích hình vị 2 mức, và giai đoạn 2 dựa vào ∼1100 luật soạn bằng tay để loại bỏ nhập nhằng của từ. Ví dụ, ta có câu đầu vào là: He had a book. Sau bước 1 thì phân tích đầu ra là: • he he/pronoun 4 5 • had have/verbpast have/auxliarypast • a a/article • book book/noun book/verb Trong bước hai, nó sử dụng hai luật sau trong tập luật mà ENGTWOL có để loại bỏ các thẻ còn nhập nhằng cho từ để tìm chuỗi phù hợp nhất: Luật 1: Nếu (thẻ liền trước là một mạo từ) thì loại bỏ tất cả các thẻ động từ Luật 2: Nếu (thẻ tiếp theo là một động từ) thì loại bỏ tất cả các thẻ động từ Cuối cùng chuỗi thẻ áp dụng phương pháp này là : He//pronoun had//verbpast a//article book//noun .//. Gán nhãn từ loại theo tiếp cận xác suất Phần này trình bày một bộ gán nhãn xác suất điển hình sử dụng mô hình Markov ẩn. Thuật toán này lựa chọn chuỗi nhãn tốt nhất cho toàn bộ câu. Và thông thường người ta hay sử dụng thuật toán Viterbi để tìm chuỗi thẻ tốt nhất đó. Giả sử với câu đầu vào là W ta cần tìm một chuỗi thẻ T=t1 , ..., tn thỏa mãn công thức 1.1: Tb = argmaxT ∈τ P (T |W ) (1.1) Sử dụng luật Bayes, P(T|W) được viết theo công thức 1.2 P (T |W ) = P (T )P (W |T ) P (W ) (1.2) Ta đang quan tâm tới tìm chuỗi thẻ phù hợp nhất làm cực đại công thức 1.2 nên mẫu số trong tất cả các trường hợp là giống nhau. Do vậy, bài toán trở thành tìm chuỗi thẻ thỏa mãn công thức 1.3 Tb = argmaxT ∈τ P (T )P (W |T ) (1.3) Áp dụng luật chuỗi xác suất ta có công thức 1.4: P (T )P (W |T ) = n Y P (wi |w1 t1 ...wi−1 ti−1 ti )P (ti |w1 t1 ...wi−1 ti−1 ) i=1 5 (1.4) 6 Vẫn không có phương pháp hiệu quả để tính toán xác xuất của chuỗi này một cách chính xác, nó yêu cầu quá nhiều dữ liệu. Tuy nhiên, xác suất có thể được xấp xỉ bởi một xác suất đơn giản hơn bằng cách áp dụng các giả thuyết độc lập điều kiện. Mặc dù các giả thuyết này là không đúng nhưng trong thực hành thì việc đánh giá đó là vẫn hợp lý. Ở đây, ta sử dụng giả thiết N-gram để mô hình hóa xác suất chuỗi từ. Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-gram. Đầu tiên, ta làm đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc vào thẻ của nó (xem công thức 1.5): P (wi |w1 t1 ...wi−1 ti−1 ti ) = P (wi |ti ) (1.5) Tiếp đến, ta giả thiết rằng các thẻ phía trước có thể được xấp xỉ bởi 2 thẻ gần nó nhất (xem công thức 1.6): P (ti |w1 t1 ...wi−1 ti−1 ) = P (ti |ti−2 ti−1 ) (1.6) Vì vậy cuối cùng ta lựa chọn chuỗi thẻ làm cực đại công thức 1.7: P (t1 )P (t2 |t1 ) n Y n Y P (ti |ti−2 ti−1 )[ P (wi |ti )] i=3 (1.7) i=1 Các thành phần thừa số trong công thức 1.7 có thể được tính toán từ corpus huấn luyện của mô hình. Chú ý rằng để có thể tránh xác suất bằng 0 ta cần sử dụng các kỹ thuật làm trơn. 1.2.3 Các nghiên cứu gán nhãn từ loại cho tiếng Việt Đối với tiếng Anh thì bài toán này đạt độ chính xác rất cao lên tới >96% [6]. Tuy nhiên, đối với các văn bản Việt ngữ, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống nhất. Hiện nay đã có một số nghiên cứu gán nhãn từ loại tiếng Việt đạt được những kết quả nhất định. Điển hình là bộ gán nhãn từ loại xác suất của nhóm tác giả Nguyễn Thị Minh Huyền [2]. Nhóm tác giả đã sửa đổi phần mềm QTAG để thích nghi với việc thao tác trên văn bản tiếng Việt, cũng như cho phép sử dụng từ điển từ vựng có thông tin từ loại bên cạnh việc sử dụng kho văn bản đã gán nhãn. Ý tưởng của phương pháp là xác 6 7 định phân bố xác suất trong không gian kết hợp giữa dãy các từ Sw và dãy các nhãn từ loại St. Sau khi đã có phân bố xác suất này, bài toán loại bỏ nhập nhằng từ loại cho một dãy các từ được đưa về bài toán lựa chọn một dãy từ loại sao cho xác suất điều kiện P(St|Sw) đạt giá trị lớn nhất. Kết quả thử nghiệm trên corpus do nhóm tiến hành xây dựng cho thấy: Tập mẫu đã xây dựng đạt tới độ chính xác ∼94% đối với bộ nhãn gồm 9 nhãn từ vựng và 10 nhãn cho các loại kí hiệu, trong khi với bộ nhãn thứ hai chỉ đạt tới ∼85% gồm 48 nhãn từ vựng và 10 nhãn cho các loại kí hiệu. Nếu không dùng đến từ điển từ vựng (chỉ sử dụng kho văn bản đã gán nhãn mẫu) thì các kết quả chỉ đạt được tương ứng là ∼80% và ∼60%. Các nhà nghiên cứu còn thực hiện gán nhãn từ loại bằng cách sử dụng kho ngữ liệu song ngữ Anh-Việt [13]. Các hướng tiếp cận này có ưu điểm là tận dụng được các công cụ đã phát triển gần như hoàn thiện dùng cho tiếng Anh tuy nhiên nhược điểm của nó là: Do sự khác nhau về hình thái giữa tiếng Anh và tiếng Việt nên phép chiếu trực tiếp không đơn giản là phép chiếu 1-1 mà thường là phép chiếu phức tạp m-n. Sự khác nhau về cơ bản giữa hai ngôn ngữ này là nguyên nhân của không ít nhập nhằng cần phải giải quyết, nó còn có thể tiềm tàng nhiều trường hợp chưa được đề cập tới. Ngoài ra, còn có hướng tiếp cận khác đó là của nhóm tác giả Nguyễn Quang Châu [3]. Trong [3] trình bày một hướng tiếp cận cho bài toán gán nhãn từ loại trong văn bản tiếng Việt trên cơ sở vận dụng các mô hình thống kê dựa vào kho ngữ liệu, từ điển, cú pháp và ngữ cảnh. Cụ thể, nhóm tác giả trình bày một phương pháp tiếp cận để giải quyết bài toán gán nhãn từ loại tự động là kết hợp tính toán xác suất và các đặc thù ràng buộc ngữ pháp cũng như văn phong cho các văn bản tiếng Việt. Tuy những kết quả ban đầu có độ chính xác chưa thật cao, nhưng chúng cũng đặt nền tảng cho các nghiên cứu tiếp theo. 1.3 Vấn đề tích hợp tách từ và gán nhãn từ loại Nhiều nghiên cứu cho tiếng Trung đã chứng minh rằng hai bài toán tách từ và gán nhãn từ loại có liên quan tới nhau và ảnh hướng tới chất lượng của một hệ chung [9, 10, 22, 26, 30]. Bài toán tách từ cần sự trợ giúp của các xử lý ngôn ngữ mức cao hơn để loại bỏ một số trường hợp nhập nhằng và ngược lại thông tin về từ loại và các qui tắc đi kèm của chúng trợ giúp tách từ chính xác đối với một câu cho trước. 7 8 Ở Việt Nam chưa có một công trình nghiên cứu nào về tích hợp hai bài toán rất quan trọng trong xử lý ngôn ngữ tự nhiên là bài toán tách từ và bài toán gán nhãn từ loại tiếng Việt. Các nghiên cứu này chủ yếu mới có nghiên cứu cho tiếng Trung như [21, 22, 30]. Ý tưởng của phương pháp tích hợp là có thể kết hợp hai tiến trình lại với nhau nhằm nâng cao hiệu quả của chúng. Các hướng tích hợp có thể chia làm 2 loại: Một là loại tích hợp giả pseudo-integration và một loại là tích hợp thực sự true-integration. Hướng tích hợp giả: [10] mô tả một phương pháp gồm 3 bước chính: 1. Tạo ra N chuỗi tách từ tốt nhất(N-best word sequences) đối với một câu cho sẵn. 2. Thực hiện gán nhãn từ loại cho mỗi chuỗi từ đó, sau đó chọn ra N chuỗi thẻ từ loại tốt nhất tương ứng. 3. Sử dụng đánh giá có trọng số của (1) và (2) để chọn giải pháp tách từ và gán nhãn từ loại tốt nhất cho câu đầu vào đó. Trong hệ thống này, việc giải mã cho tách từ và gán nhãn từ loại vẫn được thực hiện riêng rẽ, và sự suy luận chính xác cho cả hai là điều có thể. Tuy nhiên, sự tương tác giữa thông tin từ loại và tách từ bị hạn chế bởi reranking: Thông tin từ loại được sử dụng để cải tiến chất lượng tách từ đối với chỉ N tách từ tốt nhất cho một câu đầu vào. Một hướng tiếp cận tích hợp thực sự được Shi và Wang trình bày trong [26]. Trong [26] các tác giả đề xuất một phương pháp dựa trên CRFs hai tầng sử dụng giải mã đồng thời tách từ và gán nhãn từ loại. Trong phương pháp này, tác giả mô hình bài toán tách từ và gán nhãn bằng một CRFs hai tầng. Lúc giải mã, đầu tiên thực hiện giải mã riêng ở mỗi tầng. Sau đó, một khung xác suất được xây dựng để tìm ra giải mã kết hợp tốt nhất cho cả hai bài toán. Còn khi huấn luyện, tác giả huấn luyện một lần các CRF riêng đó cho hai bài toán, đối với phạm vi ứng dụng này thì huấn luyện đồng thời sẽ tốn công hơn. Kết quả đánh giá tách từ và gán nhãn từ loại thu được kết quả state-of-the-art trên cả tập PCT và First SIGHAN Bakeoff datasets [26]. Trong cả hai bài toán, phương pháp đề xuất cải tiến so với phương pháp baseline không thực hiện giải mã đồng thời. 8 Chương 2. MỘT MÔ HÌNH TÁCH TỪ TIẾNG VIỆT Trong luận văn này, chúng tôi chọn mô hình Maximum Entropy [8] làm phương pháp học máy trong đó các đặc trưng của mô hình được lựa chọn dựa trên những nghiên cứu về tri thức của các mô hình khác và các đặc điểm của ngôn ngữ tiếng Việt. Cụ thể, chúng tôi sử dụng thông tin có được từ ba nguồn là mô hình tách từ dựa vào từ điển, mô hình N-gram và mô hình nhận dạng thực thể. Chúng tôi cũng làm những thực nghiệm để đánh giá tính hiệu quả của hệ thống dựa trên tập dữ liệu đã gán nhãn. Bên cạnh đó, chúng tôi đánh giá ảnh hưởng của từng nguồn tri thức đó đối với mô hình cuối cùng. Trong thực nghiệm, chúng tôi lấy phương pháp Longest Matching làm mô hình cơ sở (baseline) để so sánh. 2.1 Các mô hình liên quan 2.1.1 Mô hình dựa vào từ điển Hai phương pháp kinh điển của hướng tiếp cận dựa trên từ điển là: Longest Matching (LM) và Maximal Matching (MM). Phương pháp LM duyệt câu đầu vào tuần tự từ trái qua phải và chọn từ dài nhất nếu từ đó có trong từ điển. Rõ ràng là phương pháp này rất đơn giản nhưng bị phân lớp sai trong nhiều trường hợp nhập nhằng. Ví dụ câu “Đó là cách để truyền thông tin”, nếu áp dụng phương pháp LM thì câu này sẽ bị phân tách sai thành “Đó là cách để truyền_thông tin”. Phương pháp MM sẽ tạo ra tất cả các cách tách từ có thể cho một câu bất kỳ, sau đó câu được tách từ đúng được chọn là câu chứa ít từ nhất. Giống như phương pháp trên phương pháp này cũng có yếu điểm là không thể đưa ra cách tách từ đúng trong trường hợp nhiều kết quả tách từ lại chứa cùng một số lượng từ ít nhất. Ví dụ câu “Học sinh học sinh học” có hai ứng cử là “Học_sinh học sinh_học” và “Học sinh_học sinh_học”. Trong 9 10 những trường hợp này, ta cần áp dụng các phương pháp học máy trên một cơ sở dữ liệu lớn để xác định được cách tách từ đúng. 2.1.2 Mô hình nhận dạng tên thực thể - Named Entity Recognition Bài toán nhận dạng tên thực thể là bài toán gán nhãn mỗi từ trong văn bản vào một trong các lớp được định nghĩa trước như tên người, tên địa danh, tên tổ chức, ngày tháng, số, tiền tệ, ..., hoặc là nhãn other (tức không phải là dạng thực thể). Một ví dụ là: “[PERSON Ông Nguyễn Hữu Minh] được đề cử chức tổng giám đốc của [ORG Công ty Đại Á] nhiệm kỳ [DTIME 2002-2006]." Nhiều phương pháp học máy đã được áp dụng thành công cho bài toán nhận dạng này, trong đó các phương pháp chủ yếu dựa vào các đặc trưng ngôn ngữ và thông tin ngữ cảnh của từ để xác định lớp cho mỗi từ. Ví dụ, Tri Tran Q. [24] đã nghiên cứu sử dụng SVM để giải bài toán này và kết quả đạt được là khả quan. Hoặc như J.Gao cùng đồng tác giả [14] đã đề xuất một khung toán học thực hành để vừa thực hiện tách các từ đã biết cũng như phát hiện từ mới. Những nghiên cứu như vậy đã chỉ ra rằng bài toán nhận dạng thực thể có một mối liên hệ gần gũi với bài toán tách từ . 2.1.3 Mô hình N-gram Mô hình ngôn ngữ N-gram thể hiện khá tốt mối quan hệ ngữ cảnh của từ. Trong mô hình đó, mỗi từ được coi như phụ thuộc xác suất vào n-1 từ trước nó. P (W ) = P (w1 w2 ...wn ) = N Y P (wi |wi−n+1 ...wi−1 ). (2.1) i=1 Mô hình N-gram được ứng dụng để tách từ trong đó với mỗi câu thì cách tách tốt nhất theo mô hình này là cách tách có xác suất P(W) được tính theo công thức 2.1 là lớn nhất. Trong đó, các xuất suất về sự phụ thuộc của một từ vào n từ trước đó được thống kê dựa trên một corpus đủ lớn. Tùy vào giả thiết về tính phụ thuộc mà ta có các mô hình 2-gram hoặc 3-gram tương ứng. Phương pháp này là một trong những phương pháp thống kê chính để giải bài toán tách từ khi không có thông tin từ điển và dữ liệu gán nhãn. Mô hình tách từ sử dụng 10 11 N-gram được biểu diễn như hình bên dưới (hình 2.1). Hình 2.1: Mô hình tách từ sử dụng N-gram. Khi áp dụng phương pháp này đòi hỏi chúng ta phải xác định một độ đo tốt phù hợp với bài toán để đánh giá khả năng mỗi cụm hình vị có là một từ hay không? Có rất nhiều độ đo có thể sử dụng như: Đơn giản chỉ sử dụng thông tin về tần suất xuất hiện của từ, hoặc có thể sử dụng thông tin mutual information hoặc t-score, . . . Ví dụ, Maosong và các đồng tác giả [27] đã sử dụng độ đo mutual information và t-scores và một số kỹ thuật khác để xác định từ cho tiếng Trung và đã thu được kết quả khá cao (>90%). Đối với tiếng Việt tác giả Lê An Hà[16] đơn giản sử dụng tần suất N-gram để tối ưu xác suất của mỗi chunk. Kết quả thực nghiệm tuy không cao nhưng đã chứng tỏ rằng N-gram là một phương pháp phù hợp có thể ứng dụng cho bài toán tách từ tiếng Việt nói riêng. 2.2 Phân tích các mô hình Hiệu quả của các phương pháp dựa trên từ điển như Longest Matching và Maximal Matching phụ thuộc phần lớn vào độ bao phủ của từ điển. Tuy nhiên, trên thực tế không tồn tại một từ điển hoàn thiện nào có khả năng bao phủ hết các mục từ của một ngôn ngữ bất kỳ bởi vì những từ mới luôn luôn xuất hiện. Theo thống kê, corpus SIGHAN’s PK có xấp xỉ 30% OOVs [14]. Corpus tiếng Việt mà chúng tôi chọn để đánh giá mô hình cũng chứa ∼11.6% OOVs[23]. Đây là những tỷ lệ khá cao. OOVs thường có hai loại: Một là các dạng tên thực thể hoặc dạng factoid; Hai là những từ mới không thuộc loại 1. Để nâng cao chất lượng tách từ thì các giải pháp cần 11 12 kết hợp thông tin từ điển và các kỹ thuật để phát hiện từ mới. Xem xét dạng 1, chúng tôi thấy factoid có thể được nhận diện dễ dàng nhờ dùng biểu thức chính qui. Tuy nhiên, các NE không dễ nhận diện như vậy mà cần nghiên cứu các phương pháp phát hiện thực thể và đặc điểm riêng của các NE tiếng Việt. Kết quả của những nghiên cứu này sẽ được trình bày rõ hơn trong phần lựa chọn đặc trưng để phát hiện NE sử dụng mô hình MEM. Còn các từ mới thuộc loại 2 thường là những thuật ngữ chuyên ngành, từ nước ngoài được Việt hóa, ... Với những từ này thì không có qui tắc riêng nào để phát hiện mà cách thường được sử dụng nhất là thống kê tần suất. Nếu một cụm hình vị được dùng trên một ngưỡng nào đó thì ta có thể coi đó là một từ. Do vậy, chúng tôi sẽ sử dụng thông tin N-gram để đánh giá khả năng một cụm hình vị có phải là từ hay không?. Từ những thông tin liên quan đó, chúng tôi trích đặc trưng cho mô hình Maximum Entropy Model để huấn luyện bộ phân lớp. Cụ thể các mô hình gồm: mô hình dựa trên từ điển, mô hình nhận diện thực thể, mô hình N-gram và một số nguồn dữ liệu khác (xem biểu diễn ở hình dưới đây). Hình 2.2: Các mô hình liên quan cần để trích các đặc trưng. 2.3 Thiết kế tập đặc trưng Dựa trên các phân tích ở trên, chúng tôi đưa ra thiết kế chi tiết các đặc trưng chia ra làm 3 tập như sau: 12 Tải về bản full

Từ khóa » Tách Từ Tiếng Việt