Tìm Hiểu Một Vài Phương Pháp Tách Từ Trong Văn Bản Tiếng Việt

Tải bản đầy đủ (.doc) (15 trang)
  1. Trang chủ
  2. >>
  3. Công nghệ thông tin
  4. >>
  5. Hệ thống thông tin
Tìm hiểu một vài phương pháp tách từ trong văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (501.48 KB, 15 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTrường Đại Học Công Nghệ Thông TinBÀI THU HOẠCHMôn: Khai phá dữ liệu và kho dữ liệuTìm hiểu một vài phương pháp tách từ trong văn bản tiếng việt Giảng viên: PGS.TS. Đỗ PhúcSinh viên thực hiện: Nguyễn Xuân Nghĩa – CH1101108HCM Tháng 11 năm 2012 Trang 1Mục lụcMục lục 2 Trang 2I. Tổng quan1. Đặt vấn đềXử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ-công cụ hoàn hảo nhất của tư duy và giao tiếpThực chất của xử lý ngôn ngữ tự nhiên là chuyển đổi âm thanh thành ngữ nghĩa. Với mục đích là hiểu được ngôn ngữ, ý nghĩa. Các bước phân tích của xử lý ngôn ngữ tự nhiên:• Phân tích hình thái học (Morphology): cách từ được xây dụng, các tiền tố hậu tố• Phân tích cú pháp (Syntax): mối liên hệ về cấu trúc ngữ pháp giữa các từ và ngữ. • Phân tích ngữ nghĩa (Semantics ): nghĩa của từ, cụm từ và cách diễn đạt• Diễn ngôn (Discourse): quan hệ giữa các ý hoặc các câu. • Thực chứng: mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp. • Tri thức thế giới: Các tri thức về thế giới vá các tri thức ngầmTrong phân tích hình thái học từng từ sẽ được phân tích và các ký tự không phải chữ (như các dấu câu) sẽ được tách ra khỏi các từ. Trong tiếng Anh và nhiều ngôn ngữ khác, các từ được phân tách với nhau bằng dấu cách. Tuy nhiên trong tiếng Việt, dấu cách được dùng để phân tách các tiếng (âm tiết) chứ không phải từ. Cùng với các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Nhật, phân tách từ trong tiếng Việt là một công việc không hề đơn giản.2. Tách từ tiếng Việt. Đối với tiếng Anh hoặc các ngôn ngữ không đơn lập khác “từ là một nhóm các kí tự có nghĩa được tách biệt bằng khoảng trắng trong câu” do vậy việc tách từ trở nên rất đơn giản.Còn đối với ngôn ngữ đơn lập như tiếng Việt, tiếng Hán, tiếng Thái … lại là một bài toán khó. Bởi những đặc tính chính của ngôn ngữ đơn lập như sau:• Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp• Từ được cấu trúc từ tiếng. • Từ bao gồm từ đơn và từ phức (bao gồm từ láy và từ ghép). Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet như một hướng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập ngữ liệu học nào. Trang 3II. Các phương pháp tách từ hiện nay 1. Vấn đề tách từ tiếng Việta. So sánh giữa tiếng Anh và tiếng Việt.Những đặc điểm chính của tiếng anh và tiếng Việt:Tiếng Việt Tiếng Anh- Là ngôn ngữ đơn lập (isolate) hay còn gọi là loại hình phi hình thái, không biến hình, đơn âm tiết. - Từ không biến đổi hình thái, ý nghĩa ngữ pháp nằm ngoài từ. - Phương thức ngữ pháp chủ yếu : trật tự từ và hư từ. - Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. - Tồn tại loại từ đặc biệt “từ chỉ loại” hay còn gọi là phó danh từ chỉ loại kèm theo với danh từ. - Có hiện tượng láy và nói lái trong tiếng việt - Là ngôn ngữ không đơn lập- loại hình biến cách hay còn gọi là loại hình chiết khuất.  - Từ có biến đổi hình thái, ý nghĩa ngữ pháp nằm ở trong từ.  - Phương thức ngữ pháp chủ yếu là phụ tố.  - Kết hợp giữa các hình vị là chặt chẽ, khó xác định, được nhận diện bằng khoảng trắng hoặc dấu câu. - Hiện tượng cấu tạo bằng từ ghép thêm phụ tố (affix) vào từ gốc là rất phổ biến. b. Nhận xét• Tiếng Việt là loại hình phi hình thái nên việc phân loại từ (danh từ, động từ, tính từ…. ) và ý nghĩa từ là rất khó khăn, cho dù có sử dụng từ điển. • Việc tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) sẽ thêm phức tạp với phần xử lý các hư từ, phụ từ, từ láy…• Phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác xuất xuất hiện của từ có thể không chính xác như mong đợi. • Ranh giới từ không được xác định mặc định bằng khoảng trắng. Điều này khiến cho việc phân tích hình thái (tách từ) tiếng Việt trỏe nên khó khăn. Việc nhận diện ranh giới từ là quan trọng và làm tiền đề cho các xử lý tiếp theo sau đó. như: kiểm tra lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ • Vì tiếng Anh và tiếng Việt có những điểm khác biệt nên chúng ta không thể áp dụng y nguyên các thuật toán tiếng Anh cho tiếng Việt. 2. Các hướng tiếp cận của kĩ thuật tách từ tiếng ViệtDựa vào các kĩ thuật tách từ của tiếng Hán, và những điểm tương đồng giữa tiếng Việt và tiếng Hán. Chúng ta có thể xây dựng sơ đồ các hướng tiếp cận của kĩ thuật tách từ tiếng Việt: Trang 4HybridHybridVietnamese segmentationVietnamese segmentationWord-based Word-based Character-basedCharacter-basedStatisticStatisticDictionaryDictionaryN-gramN-gramUnigramUnigramFull word/ PhraseFull word/ PhraseComponentComponentShortest MatchShortest MatchOverlap MatchOverlap MatchLongest MatchLongest Matchc. Hướng tiếp cận dựa trên từ (Word-based approaches)Hướng tiếp cận dựa trên từ với mục tiêu tách được các từ hoàn chỉnh trong câu. Hướng tiếp cận này có thể chia ra theo 3 hướng : dựa trên thống kê (statistics - based), dựa trên từ điển ( dictionary – based) và hydrid ( kết hợp nhiều phương pháp). • Hướng tiếp cận dựa trên thống kê (statistic-based): dựa trên các thông tin như tần số xuất hiện của từ trong tập huấn luyện ban đầu. • Hướng tiếp cận dựa trên từ điển (dictionary- based): ý tưởng của hướng tiếp cận này là những cụm từ được tách ra từ văn bản phải được so khớp với các từ trong từ điển.• Tùy thuộc vào loại từ điển sử dụng để so khớp lại có 2 hướng tiếp cận: full word/ pharse và component. Trong đó full word/ pharse cần sử dụng một từ điển hoàn chỉnh. Còn component thì sử dụng từ điển thành phần. Trang 5• Tùy theo cách chọn so khớp từ (match) hướng tiếp cận ‘full word/ pharse’ có thể chia ra làm 3 loại: so khớp dài nhất (longest match), so khớp ngắn nhất (shortest match) và so khớp kết hợp (overlap). Trong so khớp kết hợp mỗi chuỗi được phát sinh từ văn bản có thể chồng lấp lên chuỗi khác nếu chuỗi đó có trong từ điển.• Hiện nay thì hướng tiếp cận so khớp dài nhất được xem là phương pháp quan trọng và có hiệu quả nhất trong hướng tiếp cận dựa trên từ điển. • Hướng tiếp cận hybrid:Với mục đích kết hợp các hướng tiếp cận khác nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận khác nhau nhằm nâng cao kết qủa. Hướng tiếp cận này thường kết hợp giữa hướng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các phương pháp này. Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý, không gian đĩa và đòi hỏi nhiều chi phí. d. Hướng tiếp cận dựa trên kí tựTrong tiếng việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự trong bảng chữ cái. Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định các tiếng trong văn bản như rút trích từ 1 ký tự (unigram) hay nhiều ký tự (n-gram) và cũng mang lại một số kết qủa nhất định được minh chứng thông qua một số công trình nghiên cứu đã được công bố, như của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB bằng cách sử dụng phương pháp qui hoạch động để cực đại hóa xác suất xuất hiện của các ngữ. Rồi công trình nghiên cứu của H. Nguyễn[2005] làm theo hướng tiếp cận là thay vì sử dụng ngữ liệu thô, công trình tiếp cận theo hướng xem Internet như một kho ngữ liệu khổng lồ, sau đó tiến hành thống kê và sử dụng thuật giải di truyền để tìm cách tách từ tối ưu nhất, và một số công trình của một số tác giả khác. Khi so sánh kết qủa của tác giả Lê An Hà và H. Nguyễn thì thấy công trình của H. Nguyễn cho được kết quả tốt hơn khi tiến hành tách từ, tuy nhiên thời gian xử lý lâu hơn. Ưu điểm nổi bật của hướng tiếp cận dựa trên nhiều ký tự là tính đơn giản, dễ ứng dụng, ngoài ra còn có thuận lợi là ít tốn chi phí cho thao tác tạo chỉ mục và xử lý nhiều câu truy vấn. Qua nhiều công trình nghiên cứu của các tác giả đã được công bố, hướng tiếp cận tách từ dựa trên nhiều ký tự, cụ thể là cách tách từ hai ký tự được cho là sự lựa chọn thích hợp. 3. Một số phương pháp tách từ tiếng Việt hiện naya. So khớp từ dài nhất (Longest Matching)Longest Matching là thuật toán dựa trên tử tưởng tham lam. Nó xét các tiếng từ trái qua phải, các tiếng đầu tiên dài nhất có thể mà xuất hiện trong từ điển sẽ được tách ra làm một từ. Thuật toán sẽ dừng khi xét hết các tiếng. Thuật toán chỉ đúng khi không có sự nhập nhằng những tiếng đầu của tù sau có thể ghép với từ trước tạo thành một từ có trong từ điển.Giải thuật:V là danh sách các tiếng chưa xét.T là bộ từ điển. While V≠⍉ do Begin Wmax= từ đầu danh sách V; // từ dài nhấtForeach (v thuộc từ gồm các tiếng bắt đầu trong V)If(length(v)> length(Wmax) and v thuộc T) then Wmax= v; Trang 6Loại đi các tiếng trong Wmax ở đầu danh sách V;End. Ví dụ : Tôi là công dân nước Việt Nam.Bước Từ dài nhất có thể Các tiếng còn lại1 Tôi là công dân nước Việt Nam2 Là công dân nước Việt Nam3 công dân nước Việt Nam4 nước Việt Nam5 Việt NamƯu điểm:• Tách từ nhanh đơn giản chỉ cần dựa vào từ điển.• Độ chính xác tương đối cao.Hạn chế:• Độ chính xác phụ thuộc vào hoàn toàn vào tính đầy đủ và chính xác của từ điển.Phương pháp này sẽ không đạt được kết quả nếu cuối từ trước có liên hệ với các từ sau. Ví dụ : một ông quan tài giỏi => một ||ông|| quan tài|| giỏi. b. Học dựa trên sự cải biến (Transformation-based Learning -TBL)Đây là cách tiếp cận dựa trên ngữ liệu đã đánh dấu. Theo cách tiếp cận này, để huấn luyện cho máy tính biết cách nhận diện ranh giới từ tiếng Việt, ta có thể cho máy “học” trên ngữ liệu hàng vạn câu tiếng Việt đã được đánh dấu ranh giới từ đúng.Sau khi học xong, máy sẽ xác định được các tham số (các xác suất) cần thiết cho mô hình nhận diện từ. Ưu điểm:• Đặc điểm của phương pháp này là khả năng tự rút ra quy luật của ngôn ngữ. • Nó có những ưu điểm của cách tiếp cận dựa trên luật nhưng nó khác phục được khuyết điểm của việc xây dựng các luật một cách thủ công bởi các chuyên gia. • Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu của luật (dựa trên ngữ liệu huấn luyện). • Có khả năng khử một số nhập nhằng của các mô hình ngôn ngữ theo kiểu thống kê. Hạn chế: • Phương pháp này “dùng ngữ liệu có gán nhãn ngôn ngữ để học tự động các quy luật đó”. Mà việc xây dựng một tập ngữ liệu đạt được đầy đủ các tiêu chí của tập ngữ liệu trong tiếng Việt là điểu rất khó, tốn kém nhiều về mặt thời gian và công sức. • Hệ phải trải qua một thời gian huấn luyện khá lâu để có thể rút ra các luật tương đối đầy đủ. • Cài đặt phức tạp.c. Chuyển đổi trạng thái trọng số hữu hạn (Weighted- Finite State Transducer- WFST) Trang 7Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST đã được đề xuất năm 1996. Ý tưởng cơ bản là áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu. Dùng WFST để duyệt qua câu cần xét. Cách duyệt có trọng số lớn nhất sẽ là cách tách từ được chọn. Phương pháp này cũng đã được sử dụng trong công trình đã được công bố của tác giả Đinh Điền [2001], tác giả đã sử dụng WFST kèm với mạng Neural để khử nhập nhằng khi tách từ, trong công trình tác giả đã xây dựng hệ thống tách từ gồm tầng WFST để tách từ và xử lý các vấn đề liên quan đến một số đặc thù riêng của ngôn ngữ tiếng Việt như từ láy, tên riêng, và tầng mạng Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã tách từ (nếu có). Sơ đồ các bước sử lý của WFST Tầng WFST: gồm 3 bước Xây dựng từ điển trọng số: theo mô hình WFST, việc phân tách từ được xem như một sự chuyển dịch trạng thái có xác suất (Stochastic Transduction). Chúng ta miêu tả từ điển D là một đồ thị biên độ trạng thái hữu hạn có trọng số. Giả sử:- H: là tập các từ chính tả tiếng Viêt (còn gọi là “tiếng”)- P: là từ loại của từ (POS: part - Of – Speech). Mỗi cung của D có thể là:- Từ một phần từ của H tới một phần từ của H, hoặc- Từ З (ký hiệu kết thúc từ) tới một phần từ của PCác nhãn trong D biểu thị một chi phí ước lượng (estimated cost) bằng công thức:Cost = - log(f/N)- Với f: tần số của từ, N: kích thước tập mẫuĐối với các trường hợp từ mới chưa gặp, tác giả áp dụng xác suất có điều kiện Goog – Turning (Baayen) để tính toán trọng số.  Xây dụng khả năng phân đoạn từ: để giảm bớt sự bùng nổ tổ hợp khi sinh ra các dãy các từ có thể từ một dãy các tiếng trong câu, tác giả đề xuất một phương pháp mới là kết hợp dùng từ điển để hạn chế sinh ra các bùng nổ tổ hợp. Khi phát hiện thấy một cách phân đoạn từ nào đó không phù hợp (không có trong từ điển, không phải là từ láy, không phải là danh từ riêng…) thì tác giả loại bỏ các nhánh xuất phát từ cách phân đoạn từ đó.  Lựa chọn khả năng phân đoạn từ tối ưu: Sau khi được một danh sách các cách phân đoạn từ có thể có của câu, tác giả chọn trường hợp phân đoạn có trọng số bé nhất như sau:- Ví dụ: input = “Tốc độ truyền thông tin sẽ cao” Dictionary “tốc độ” 8. 68“truyền” 12. 31“truyền thông” 12. 31 Trang 8Bắt đầuBắt đầuTiền xử lýTiền xử lýTiền xử lýTiền xử lýTiền xử lýTiền xử lýt<T0t<T0“thông tin” 7. 24“tin” 7. 33“sẽ” 6. 09“tăng” 7. 43“cao” 6. 95Id(D)*D* = “Tốc độ # truyền thông # tin # sẽ # tăng # cao” 48. 79(8. 68 + 12. 31 +7. 33 +6. 09 + 7. 43 + 6. 95 = 48. 79)Id(D)*D* = “ Tốc độ # truyền # thông tin # sẽ # tăng# cao. ” 48. 70(8. 68 + 12. 31 +7. 24 +6. 09 + 7. 43 + 6. 95 = 48. 70)Do đó, ta có được phân đoạn tối ưu là “Tốc độ # truyền # thông tin # sẽ # tăng # cao. ” Tầng mạng neural: mô hình mạng neural mà tác giả đề xuất được dùng để lượng giá 3 dãy từ loại: NNV, NVN, VNN (N: Noun, V: Verb). Mô hình này được học bằng chính các câu mà cách phân đoạn từ vẫn còn nhập nhằng sau khi qua mô hình thứ nhấtƯu điểm• Độ chính xác trên 97% [Đinh Điền et al, 2001]• Mô hình cho kết quả phân đoạn từ với độ tin cậy (xác suất) kèm theo• Nhờ có tầng mạng neural nên mô hình có thể khử nhập nhằng các trường hợp tần WFST cho ra nhiều ứng viên có kết quả ngang nhau• Phương pháp này cho kết quả với độ chính xác khá cao vì mục đích của tác giả muốn nhắm đến việc tách từ thật chính xác để là nền tảng cho việc dịch máyHạn chế• Cũng tương tự như phương pháp TBL, việc xây dụng tập ngữ liệu là rất công phu, nhưng thật sự cần rất cần thiết để phục vụ cho mục đích dịch máy sau này.d. Phương pháp tách từ dựa trên thống kê từ trên Internet và giải thuật di truyền (Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese - IGATEC)Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền – IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập ngữ liệu học nào. Trong hướng tiếp cận này, tác giả kết hợp giữa thuật toán di truyền với dữ liệu thống kê được lấy từ Internet. Trang 9segmentationsegmentationOnline ExtractorOnline ExtractorsegmentationsegmentationsegmentationsegmentationOnline ExtractorOnline ExtractorOnline ExtractorOnline ExtractorOnline ExtractorOnline ExtractorsegmentationsegmentationsegmentationsegmentationHệ thống bao gồm :2 phần - Online Extractor : Thành phần này có tác dụng lấy thông tin về tần số xuất hiện của các từ trong văn bản bằng cách sử dụng một search engine nổi tiếng như Google hay Yahoo chẳng hạn. Sau đó, tác giả sử dụng các công thức dưới đây để tính toán mức độ phụ thuộc lẫn nhau (mutual information) để làm cơ sở tính fitness cho GA engine. • Tính xác suất các từ xuất hiện trên Internet :( )MAX)w2&w1count()w2&w1p(MAXcount(w)wp==Trong đó MAX = 4 * 109count(w) số lượng văn bản trên Internet được tìm thấy có chứa từ w hoặc cùng chứa w1 và w2 đối với count(w1&w2). • Tính xác suất độ phụ thuộc của một từ lên một từ khác :( )w1p)w2&w1p()w2|w1p( = Thông tin phụ thuộc lẫn nhau (mutual information) của các từ ghép được cấu tạo bởi n tiếng ( cw = w1w2…wn)( )∑=−=n1j)wn& &w2&w1p(wjp)wn& &w2&w1p(MI(cw)- GA Engine for Text Segmentation : mỗi cá thể trong quan thể được biểu diễn bởi chuỗi các bit 0, 1, trong đó, mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhóm bit cùng loại đại diện cho cho một segment. Các cá thể trong quần thể được khởi tạo ngẫu nhiên, trong đó mỗi segment được giới hạn trong khoảng 5. GA engine sau đó thực hiện các bước đột biến và lai ghép nhằm mục đích làm tăng Trang 10giá trị fitness của các cá thể để đạt được cách tách từ tốt nhất có thể. Ưu điểm:• Không cần sử dụng bất cứ tập huấn luyện hoặc từ điển nào.• Phương pháp tương đối đơn giản.• Không tốn thời gian huấn luyện.Hạn chế:• So với các phương pháp trước, IGATEC có độ chính xác thấp hơn LRMM và WFST nhưng vẫn được chấp nhận đối với mục đích tách từ dành cho phân loại văn bản.• Thời gian chạy ban đầu khá chậm do phải lấy thông tin từ internet mà đường truyền ở Việt Nam còn hạn chế.• Chưa có thử nghiệm trên các tập dữ liệu đủ lớn.4. Kết luận Sau khi xem xét một số hướng tiếp cận trong tách từ văn bản tiếng Việt, các nghiên cứu đã được công bố đều chỉ ra rằng phương pháp tách từ dựa trên từ mang lại kết quả có độ chính xác khá cao, điều này có được nhờ vào tập huấn luyện lớn, được đánh dấu ranh giới giữa các từ chính xác giúp cho việc học rút ra các luật để tách từ cho các văn bản khác được tốt đẹp, tuy nhiên chúng ta cũng dễ nhận thấy hiệu suất của phương pháp hoàn toàn phụ thuộc vào tập ngữ liệu huấn luyện. Do đó để khắc phục sự phụ thuộc của từ điển, chúng ta đề nghị sử dụng hướng tiếp cận của H. Nguyễn (sẽ được trình bày chi tiết trong phần sau ) để tách từ. Hướng tiếp cận dựa trên ký tự có ưu điểm là dễ thực hiện, thời gian thực hiện tương đối nhanh, tuy nhiên lại cho kết qủa không chính xác bằng hướng tiếp cận dựa trên từ. Hướng tiếp cận này nói chung phù hợp cho các ứng dụng không cần độ chính xác tuyệt đối trong tách từ văn bản như ứng dụng lọc spam mail, firewall, …Nhìn chung với hướng tiếp cận này nếu chúng ta có thể cải tiến để nâng cao độ chính xác trong tách từ thì hướng tiếp cận này là hoàn toàn khả thi và có khả năng thay thế hướng tiếp cận tách từ dựa trên từ vì đã không phải xây dựng kho ngữ liệu, một công việc đòi hỏi nhiều công sức, thời gian và sự hỗ trợ của các chuyên gia trong các lĩnh vực khác nhau. Trang 11III. Demo chương trình tách từ trong văn bản tiếng việt. 1. Giới thiệu chương trìnhTokenizer là chương trình tách từ tiếng việt tự động, được xây dựng thêm phần giao diện đồ hoạ từ chương trình VnTokenizer, đây là chương trình mã nguồn mở được nghiên cứu phát triển bởi một nhóm giáo viên trẻ thuộc khoa toán cơ tin học, Trường đại học khoa học từ nhiên, đại học Quốc gia Hà Nội thực hiện. 2. Hướng dẫn chạy chương trìnhChương trình được viết bằng ngôn ngữ lập trình Java, sử dụng bộ công cụ phát triển J2SDK 1. 6 để chạy được chương trình, máy tính cần cài đặt JRE từ phiên bản 1. 6, có thể tải về từ trang web Java của Sun MicroSystem: http//java. sun. com và cài đặt. Chú ý là để chạy chương trình chỉ cần cài JRE, không cần cài JDK 3. Chạy chương trìnhTừ thư mục chứa chương trình, kích hoạt file Tokenizer.jarSau khi kích hoạt sẽ hiển thị hôp thoại như sau:a. Chuyển đổi từ một file:Chuyển đổi từ một file ta làm như sau nhấn nút chọn file sẽ xuất hiện hộp thoại cho phép chọn file cần chuyển đổi ( file văn bản dạng text). Trang 12sau chi chọn xong nhấn Open, tiếp đó chọn lưu file để chọn nơi lưu kết quảSau khi chọn xong nhấn Save, sẽ trở lại màn hình chính như sau: Trang 13Nhấn Ok để tiến hành tách từ. Khi quá trình kết thúc thành công sẽ hiện thị bảng thông báo.b. Chuyển đổi nhiều file trong cùng một thư mục:Có thể chuyển đổi nhiều file trong cùng một thư mục một cách nhanh chóng bằng cách chọn thư mục ở đầu vào thay cho tập tin, khi đó sẽ xuất hiện ô cho phép nhập loại tập tin muốn chọn (mặc định là txt khi để trống).Đồng thời đầu ra của chương trình cũng chọn một thư mục để lưu nội dung. Tên tập tin ở thư mục đầu ra giống tên tương ứng ở đầu vào.Sau cùng chọn Ok để tiến hành tách từ.Lưu ý: trong chương trình có 2 tuỳ chọn• Sử dụng dấu cách để phân tách từ: mỗi từ đơn sẽ nằm trong dấu ngoặc vuông.Vd: nước rơi tí tách -> [nước] [rơi] [tí tách]• Xuất dưới dạng XML: định dạng văn bản chuẩn XML. Trang 14Kết quả chương trình thực hiện được ứng với đoạn văn bản: Trang 15Châu Âu và Nga hợp tác chinh phục sao HỏaCác quốc gia thành viên của Cơ quan vũ trụ châu Âu (ESA) đã thông qua thỏa thuận coi Nga là một đối tác quan trọng trong sứ mệnh thám hiểm sao Hỏa vào năm 2016 và 2018.Sau khi Mỹ từ chối tham gia dự án thăm dò sao Hỏa ExoMars của ESA, Nga đã được được lựa chọn làm đối tác thay thế. Dự án ExoMars bao gồm phóng một vệ tinh tìm kiếm khí mê tan và các khi khác trong bầu khí quyển sao Hỏa vào năm 2016 và sau đó phóng tàu thăm dò lên bề mặt hành tinh đỏ vào năm 2018.Hôm 19/11 vừa qua, các quốc gia thành viên của ESA đã thông qua một thỏa thuận hợp tác với Nga trong các sứ mệnh thăm dò sao Hỏa sắp tới, dự định sẽ được 2 bên ký kết vào cuối năm nay. Sự hợp tác này sẽ giúp dự án ExoMars của ESA triển khai đúng tiến độ như dư kiến.“Chúng tôi cũng có cơ hội khác để xem xét hợp tác, như các sứ mệnh thăm dò sao Mộc. ESA đang phát triển tàu thăm dò Juice để khám phá sao Mộc, trong khi, Nga có kế hoạch phát triển tàu vũ trụ Ganymede để thăm dò hành tinh này”, ông Frederic Nordlund, giám đốc quan hệ quốc tế của ESA, cho biết trên BBC.Ngoài ra, ông Frederic Nordlund cho biết châu Âu và Nga có thể hợp tác cùng nhau trong các sứ mệnh thăm dò Mặt trăng. Bởi vì Nga đã từng phóng 2 tàu thăm dò Mặt trăng là Luna-Glob và Luna-Resurs.Theo thỏa thuận hợp tác giữa Nga và châu Âu, Nga có thể sẽ là đối tác cung cấp tên lửa Proton cho 2 sứ mệnh của dự án ExoMars. Nga cũng sẽ cung cấp thiết bị cho vệ tinh và tàu thăm dò của ESA. Ngoài ra, các nhà khoa học của 2 bên sẽ cùng tiến hành khai thác dữ liệu từ những sứ mệnh này.Châu_Âu và Nga hợp_tác chinh_phục sao HỏaCác quốc_gia thành_viên của Cơ_quan vũ_trụ châu Âu ( ESA ) đã thông_qua thỏa_thuận coi Nga là một đối_tác quan_trọng trong sứ_mệnh thám_hiểm sao Hỏa vào năm 2016 và 2018 .Sau khi Mỹ từ_chối tham_gia dự_án thăm_dò sao Hỏa_Exo Mars của ESA , Nga đã được được lựa_chọn làm đối_tác thay_thế . Dự_án ExoMars bao_gồm phóng một vệ_tinh tìm_kiếm khí mê tan và các khi khác trong bầu khí_quyển sao Hỏa vào năm 2016 và sau đó phóng tàu thăm_dò lên bề_mặt hành_tinh đỏ vào năm 2018 .Hôm 19/11 vừa_qua , các quốc_gia thành_viên của ESA đã thông_qua một thỏa_thuận hợp_tác với Nga trong các sứ_mệnh thăm_dò sao Hỏa sắp tới , dự_định sẽ được 2 bên ký_kết vào cuối năm nay . Sự hợp_tác này sẽ giúp dự_án ExoMars của ESA triển_khai đúng tiến_độ như dư kiến .“ Chúng_tôi cũng có cơ_hội khác để xem_xét hợp_tác , như các sứ_mệnh thăm_dò sao Mộc . ESA đang phát_triển tàu thăm_dò Juice để khám_phá sao Mộc , trong khi , Nga có kế_hoạch phát_triển tàu_vũ_trụ Ganymede để thăm_dò hành_tinh này ” , ông Frederic_Nordlund , giám_đốc quan_hệ quốc_tế của ESA , cho_biết trên BBC .Ngoài_ra , ông Frederic_Nordlund cho_biết châu Âu và Nga có_thể hợp_tác cùng nhau trong các sứ_mệnh thăm_dò Mặt_trăng . Bởi_vì Nga đã từng phóng 2 tàu thăm_dò Mặt_trăng là Luna-Glob và Luna-Resurs .Theo thỏa_thuận hợp_tác giữa Nga và châu Âu , Nga có_thể sẽ là đối_tác cung_cấp tên_lửa Proton cho 2 sứ_mệnh của dự_án ExoMars . Nga cũng sẽ cung_cấp thiết_bị cho vệ_tinh và tàu thăm_dò của ESA . Ngoài_ra , các nhà_khoa_học của 2 bên sẽ cùng tiến_hành khai_thác dữ_liệu từ những sứ_mệnh này .

Tài liệu liên quan

  • TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP DÒ TÌM, PHÁT HIỆN SỰ GIẢ MẠO TRONG ẢNH SỐ TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP DÒ TÌM, PHÁT HIỆN SỰ GIẢ MẠO TRONG ẢNH SỐ
    • 27
    • 691
    • 0
  • Tài liệu Đồ án tốt nghiệp Tìm hiểu một số phương pháp nén ảnh docx Tài liệu Đồ án tốt nghiệp Tìm hiểu một số phương pháp nén ảnh docx
    • 72
    • 777
    • 1
  •  MÂU THÔNG TIN VỀ LUẬN VĂN THẠC SĨ - TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP LUẬN XÂY DỰNGKIẾN TRÚC TỔNG THỂ VÀ PHƯƠNG PHÁP XÂY DỰNG KHUNG KIẾNTRÚC TỔNG THỂ FEA CHO HAWAII MÂU THÔNG TIN VỀ LUẬN VĂN THẠC SĨ - TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP LUẬN XÂY DỰNGKIẾN TRÚC TỔNG THỂ VÀ PHƯƠNG PHÁP XÂY DỰNG KHUNG KIẾNTRÚC TỔNG THỂ FEA CHO HAWAII
    • 4
    • 894
    • 1
  • Góp phần nghiên cứu một vài phương pháp ứng dụng trong tổng hợp pregnan từ phytosterol thông qua androstendion Góp phần nghiên cứu một vài phương pháp ứng dụng trong tổng hợp pregnan từ phytosterol thông qua androstendion
    • 24
    • 506
    • 0
  • Tìm hiểu một số phương pháp định tuyến tiết kiệm năng lượng trong mạng cảm nhận Tìm hiểu một số phương pháp định tuyến tiết kiệm năng lượng trong mạng cảm nhận
    • 57
    • 698
    • 1
  • Đồ án tốt nghiệp Tìm hiểu một số phương pháp nén ảnh pdf Đồ án tốt nghiệp Tìm hiểu một số phương pháp nén ảnh pdf
    • 72
    • 633
    • 0
  • BÁO CÁO BÁO CÁO "TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP XÂY DỰNG MÔ HÌNH MỜ DỰA TRÊN TẬP DỮ LIỆU VÀO - RA VÀ VIỆC SỬ DỤNG TẬP MỜ LOẠI 2 RỜI RẠC " ppt
    • 11
    • 731
    • 0
  • tìm hiểu một số phương pháp phát hiện đối tượng đột nhập tìm hiểu một số phương pháp phát hiện đối tượng đột nhập
    • 56
    • 631
    • 2
  • tìm hiểu một số phương pháp nhẩm nhanh kết quả bài toán hóa học trong trắc nghiệm khách quan tìm hiểu một số phương pháp nhẩm nhanh kết quả bài toán hóa học trong trắc nghiệm khách quan
    • 54
    • 918
    • 2
  • LUẬN VĂN: Tìm hiểu một số phương pháp cơ bản trong việc nghiên cứu ngôn ngữ Hồ Chí Minh docx LUẬN VĂN: Tìm hiểu một số phương pháp cơ bản trong việc nghiên cứu ngôn ngữ Hồ Chí Minh docx
    • 18
    • 632
    • 0

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

(657 KB - 15 trang) - Tìm hiểu một vài phương pháp tách từ trong văn bản tiếng việt Tải bản đầy đủ ngay ×

Từ khóa » Tách Từ