TÌM HIỂU Bài TOÁN Gán NHÃN Từ LOẠI (POS TAGGING) - Tài Liệu Text

Tải bản đầy đủ (.pptx) (36 trang)
  1. Trang chủ
  2. >>
  3. Công Nghệ Thông Tin
  4. >>
  5. Kỹ thuật lập trình
TÌM HIỂU bài TOÁN gán NHÃN từ LOẠI (POS TAGGING)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (527.14 KB, 36 trang )

TRƯỜNG ĐH SƯ PHẠM HÀ NỘITÌM HIỂU BÀI TOÁN GÁN NHÃN TỪ LOẠI(Part-of-speech tagging)Giảng viên hướng dẫn: TS. Lê Thị Tú KiênHọc viên: Phạm Thị NhanLớp: CH – K26Môn học: Xử lý ngôn ngữ tự nhiênHÀ NỘI, 11/20171NỘI DUNG TÌM HIỂUGIỚI THIỆU BÀI TOÁNMỘT SỐ HƯỚNG TIẾP CẬN•••Rule-Based Tagger: ENCG Tagger (Voutilainen 1995,1999)Stochastic Tagger: HMM-based TaggerTransformation-Based Tagger: Brill Tagger (Brill 1995)ĐÁNH GIÁTÀI LIỆU THAM KHẢO2GIỚI THIỆU BÀI TOÁNMột trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các lớp từ loại dựa theo thựctiễn hoạt động ngôn ngữ.Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định. Các bộ chú thích từ loại có thể thay đổituỳ theo quan niệm về đơn vị từ vựng và thông tin ngôn ngữ cần khai thác trong các ứng dụng cụ thể.3GIỚI THIỆU BÀI TOÁNMỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại, và việc giải thích đúng nghĩa một từ phụ thuộc vàoviệc nó được xác định đúng từ loại hay không.Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Khi hệ thốngvăn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trongcác hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng nhưtrong các hệ thống dịch máy.4QUI TRÌNH XỬ LÝ NGÔN NGỮ TỰ NHIÊNPhân tích từ vựng(Lexical Analysis)Phân tích cú pháp(Syntax Analysis)Phân tích ngữ nghĩa(Semantic Analysis)Sinh mã trung gianTối ưu mãSinh mã đích5KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠIMỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc giải thích đúng nghĩa một từ phụthuộc vào việc nó có được xác định đúng từ loại hay không dựa trên ngữ cảnh cho trước.Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loạicác từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ. Việc gán nhãn từ loại thường được thể hiện bằngcách gán cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước6KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠIQuá trình gán nhãn từ loại thường được chia làm 3 bước:Bước 1: Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳtheo ngôn ngữ và quan niệm về đơn vị từ vựng. Chẳng hạn, đối với tiếng Anh hay tiếng Pháp, việc phân tách từphần lớn là dựa vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xửlý. Trong khi đó, với tiếng Việt thì dấu trắng càng không phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng dotần số xuất hiện từ ghép rất cao.7KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠIQuá trình gán nhãn từ loại thường được chia làm 3 bước:Bước 2: Khởi tạo gán nhãn: tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thểthu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trongcơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biếnđổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét.8KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠIQuá trình gán nhãn từ loại thường được chia làm 3 bước:Bước 3: Quyết định kết quả gán nhãn: đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phùhợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên. Có nhiều phương pháp để thực hiện việc này, trong đóngười ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp (với đại diện nổi bật là phương pháp Brill)và các phương pháp xác suất. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợptính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng, …9KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠIVí dụ câu: The girl kissed the boy on the cheekWORDSTAGSthegirlkissedNNStheVBNboyINonDTthecheek10KHÁI NIỆM BÀI TOÁN GÁN NHÃN TỪ LOẠIVí dụ câu: Con ruồi đậu mâm xôi đậuWORDSTAGSConruồiđậumâmxôiNNSVBNNDTđậu11MỘT SỐ BÀI TOÁN GÁN NHÃNPOS tagging (gán nhãn từ loại). Là cơ sở phục vụ cho các bài toán về ngữ nghĩa cao hơn.Named-Entity recognition (gán nhãn tên thực thể).Ví dụ: bà ba [CON NGUOI] bán bánh mì [THUC PHAM] ở phường mười ba [DIA DIEM]. Có giá trị về mặt ngữ nghĩa ởmức trung bình, thường được dùng để phân lớp văn bản.Machine translation (dịch máy). Đầu vào là một câu của ngôn ngữ A, đầu ra là câu của ngôn ngữ B tương ứng. Bàitoán này từng rất cấp thiết trong chiến tranh thế giới thứ 2, khi mà thông tin tình báo của địch cần được dịch trongthời gian ngắn nhất, giúp cho các lãnh đạo có thể đưa ra những chiến lược cấp thiết.12MỘT SỐ BÀI TOÁN GÁN NHÃNSpeech recognition (nhận diện tiếng nói). Đầu vào là âm thanh tiếng nói, đầu ra là câu dạng văn bản. Ngày nay, theothống kê của Apple, người dùng thích sử dụng tiếng nói của mình để nhập văn bản hơn là cách nhập dữ liệu bằngbàn phím như truyền thống, đồng thời tương tác giữa người và máy theo cách này có tốc độ nhập liệu nhanh hơn.13TẬP NHÃN TỪ LOẠI (TAGSETS)Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩa khái quát, theo khả năng kết hợpvới các từ ngữ khác và thực hiện những chức năng ngữ pháp nhất định ở trong câuTrong thực tế, các tập nhãn sử dụng cho việc gán nhãn từ loại thường được xây dựng và phát triển từ các lớp cơbản sau:•Các lớp từ đóng (Closed word class, function word class, còn được gọi là các từ chức năng, là một tập cố định và không thể mở rộng, cáclớp này thường chỉ chứa một số lượng ít các từ có liên quan. Ví dụ: Giới từ, mạo từ, đại từ, số đếm,...)•Các lớp từ mở (Open class, là các lớp từ có khả năng mở rộng bằng cách tạo thêm từ mới hoặc“mượn” từ các ngôn ngữ khác. Có 4 lớp từmở chính là danh từ - nouns, động từ -verb, tính từ - adjective và một phần của phó từ - [adverb])14Open class (lexical) wordsNounsProperVerbsCommonMainIBMcat / catsseeItalysnowregisteredAdjectivesold older oldestAdverbsslowlyNumbers… more122,312oneClosed class (functional)ModalsDeterminersthe somecanPrepositionsto withParticlesoff upInterjectionsOw EhhadConjunctionsand orPronounshe its… moreTẬP NHÃN TỪ LOẠI (TAGSETS)Với mỗi ngôn ngữ sẽ có nhiều tập nhãn từ loại có thể sử dụng. Tuy nhiên, việc lựa chọn tập nhãn ảnh hướng rất lớnđến “độ khó” của bài toán gán nhãn từ loại.••Nếu chọn tập nhãn lớn sẽ làm tăng độ khóNhưng nếu chọn tập nhãn nhỏ có thể không đủ đáp ứng cho một mục đích nhất định nào đó.16TẬP NHÃN TỪ LOẠI (TAGSETS)Vì vậy, việc chọn tập nhãn nào sẽ tùy thuộc vào từng ứng dụng cụ thể, nói cách khác là tùy thuộc vào số lượngthông tin mà ứng dụng đó đòi hỏi. Muốn thế, cần phải có sự cân đối giữa:•Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn, chia thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiệnsự khác biệt).•Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại càng ít càng dễ tiến hành).17Penn Treebank P.O.S. Tags18CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠIGán nhãn bằng phương pháp dựa trên hệ luậtĐây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai” đều thực hiện theo phương phápnày.19CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠIGán nhãn bằng phương pháp dựa trên hệ luậtNội dung chính của phương pháp này là xây dựng một cơ sở dữ liệu lớn các “luật” được viết bằng tay, vì vậyphương pháp này còn được gọi là phương pháp gán nhãn thủ công. Các luật được xây dựng dựa vào ngữ cảnhthích hợp.Ví dụ: nếu một từ nhập nhằng đang xét đi sau một từ chỉ định thì nó có xu hướng là một danh từ hơn là một động từ.Đại diện tiêu biểu cho nhóm các phương pháp thủ công dựa trên hệ luật này là ENGTWOL (ENGlish TWO Levelanalysis - Voutilainen, 1995).20Sample ENGTWOL Lexicon21CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠICác phương pháp dựa vào học máyPhương pháp dựa trên luật là một phương pháp thủ công còn tiềm tàng rất nhiều nhập nhằng. Cùng với đó, việc xâydựng một hệ thống trích chọn dựa trên các luật là rất tốn công sức.Các phương pháp dựa vào học máy là các phương pháp xây dựng hệ thống mà bằng cách nào đó có thể “tự học”.Để gán nhãn từ loại, sử dụng phương pháp học có giám sát (supervised learning), cụ thể là xác suất liên hợpthường gọi là mô hình sinh mẫu (Generative model). Hidden Markov Model (HMM) là một trong những mô hìnhthuộc phân nhóm này.22CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠICác phương pháp dựa vào học máy: Mô hình HMMMô hình Markov ẩn được giới thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến naynó được ứng dụng nhiều trong:•••Nhận dạng tiếng nói,Tin sinh họcXử lý ngôn ngữ tự nhiên.HMM lựa chọn một chuỗi nhãn tốt nhất cho toàn bộ câu, thông thường người ta sử dụng thuật toán Viterbi để tìmchuỗi nhãn tốt nhất đó.23CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠICác phương pháp dựa vào học máy: Mô hình HMMMột trong những bộ gán nhãn tiêu biểu sử dụng phương pháp này là bộ gán nhãn TnT của tác giả Thorsten Brantssử dụng phương pháp tri-gram, cho kết quả 96.7% với tập nhãn Penn TreeBank và bộ dữ liệu WallStreet trong tiếngAnh.24CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠICác phương pháp dựa vào học máy: Mô hình HMMQTAG là một bộ gán nhãn dựa trên mô hình HMM do nhóm nghiên cứu Corpus Research thuộc trường đại học tổnghợp Birmingham phát triển, cung cấp miễn phí cho mục đích nghiên cứu.Một điểm nổi trội của QTAG là dù được xây dựng cho tiếng Anh nhưng nó có thể được huấn luyện để sử dụng chocác ngôn ngữ khác.25

Tài liệu liên quan

  • So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt
    • 68
    • 1
    • 5
  • Tìm hiểu bài toán phát hiện đối tƣợng chuyển động Tìm hiểu bài toán phát hiện đối tƣợng chuyển động
    • 52
    • 459
    • 0
  • SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY  CHO BÀI TOÁN GÁN NHÃN TỪLOẠI  TIẾNG VIỆT SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪLOẠI TIẾNG VIỆT
    • 68
    • 602
    • 2
  • Tìm hiểu bài toán nhận dạng biển số xe Tìm hiểu bài toán nhận dạng biển số xe
    • 56
    • 1
    • 23
  • TÌM HIỂU BÀI TOÁN TÌM HIỂU BÀI TOÁN
    • 4
    • 331
    • 0
  • Tìm hiểu bài toán khai phá dữ liệu văn bản Tìm hiểu bài toán khai phá dữ liệu văn bản
    • 53
    • 626
    • 0
  • Tìm hiểu bài toán làm trơn ảnh Tìm hiểu bài toán làm trơn ảnh
    • 44
    • 877
    • 2
  • Tìm hiểu bài toán phát hiện trạng thái mắt của mặt người trong ảnh Tìm hiểu bài toán phát hiện trạng thái mắt của mặt người trong ảnh
    • 45
    • 594
    • 2
  • Tìm hiểu bài toán phát hiện đối tượng chuyển động Tìm hiểu bài toán phát hiện đối tượng chuyển động
    • 50
    • 718
    • 9
  • Tìm hiểu bài toán đánh giá sự tương quan giữa hai ảnh Tìm hiểu bài toán đánh giá sự tương quan giữa hai ảnh
    • 53
    • 626
    • 0

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

(222.84 KB - 36 trang) - TÌM HIỂU bài TOÁN gán NHÃN từ LOẠI (POS TAGGING) Tải bản đầy đủ ngay ×

Từ khóa » Gán Nhãn Từ Loại