Nghiên Cứu Xây Dựng Và Hoàn Chỉnh Bộ Phần Mềm Hán Nôm độc Lập

Nghiên cứu Hán Nôm >> Tác giả >> D >> Phan Anh Dũng
16. Nghiên cứu xây dựng và hoàn chỉnh bộ phần mềm Hán Nôm độc lập (TBHNH 2003)

Cập nhật lúc 22h18, ngày 24/04/2007

NGHIÊN CỨU XÂY DỰNG VÀ HOÀN CHỈNH BỘ PHẦN MỀM HÁN NÔM ĐỘC LẬP

PHAN ANH DŨNG

Công ty Sách - Thiết bị trường học tỉnh Thừa Thiên Huế

1. Tổng quan tình hình nghiên cứu trong và ngoài nước

1.1. Tình hình chung

Việc phát triển quan hệ kinh tế với Trung Quốc, Đài Loan, Hồng Kông, Singapore đã thúc đẩy phong trào học tiếng Hoa trong nước, đặc biệt từ cuối những năm 1990. Việc chế bản vi tính tiếng Hán du nhập vào nước ta từ khoảng đầu những năm 1990 với các phần mềm tiếng Hoa như Windows 3.1 tiếng Hoa, TwinBrigde (Song Kiều), Chinese Star hay ET v.v… Chủ yếu khai thác khả năng của phần mềm Song Kiều cho phép đăng ký thâu nhập pháp tự biên soạn để đánh chữ Hán theo âm Hán Việt, và khả năng của Song Kiều cho phép vẽ bổ sung nhiều chữ mới để chế bản sách chữ Nôm, chính nhóm chúng tôi cũng tận dụng khả năng này của Song Kiều để chế bản được một số tác phẩm chữ Nôm kinh điển có giá trị.

Đồng thời trong những năm đó, nhóm Nomfoudation (Hội bảo tồn di sản chữ Nôm, trụ sở ở Mỹ) cũng quan tâm để bảo tồn và khôi phục nền văn hóa Hán Nôm, họ đã phối hợp với trong nước (Viện Nghiên cứu Hán Nôm) để đưa chữ Nôm vào chuẩn Unicode quốc tế, là nơi có thẩm quyền chọn lựa đề xuất các chữ biểu ý đưa vào Unicode. Cùng với việc đưa chữ Nôm vào chuẩn Unicode, nhóm NômFoundation đang xúc tiến việc vẽ font chữ, làm các công cụ tra cứu trên mạng Internet và đang bắt tay xây dựng phần mềm xử lý chữ Nôm có bài bản…

Nhóm chúng tôi ở Huế cụ thể là Phan Anh Dũng, Nguyễn Thế với sự cố vấn của Nhà giáo ưu tú Nguyễn Đình Thảng, chọn đường thực nghiệm, bắt đầu từ việc vẽ font chữ Nôm để biên khảo và chế bản in một số sách chữ Nôm, đặc biệt đi sâu nghiên cứu về tuồng chữ Nôm cổ, tiến tới viết các chương trình tiện ích đơn giản để xử lý chữ Nôm, làm các tự điển tra cứu chữ Hán và chữ Nôm… dần dà đã có một căn bản Hán Nôm tương đối và thu nhập được nhiều kinh nghiệm thực tế rất bổ ích trong lĩnh vực ứng dụng vi tính vào Hán Nôm. Và cũng từ đó yêu cầu xây dựng một phần mềm Hán Nôm độc lập hoàn chỉnh chúng tôi ngày càng nhận thấy rõ ràng trước mắt. Phần mềm đó phải có khả năng chạy trực tiếp trên các hệ điều hành Windows tiếng Anh cũng như Hoa hay Việt, không cần tới một trình hộ trợ tiếng Hoa nào, với những chức năng cơ bản là: có một hệ thống font chữ Nôm Unicode tương đối đầy đủ, có thâu nhập pháp (IME) để có thể đánh được chữ Nôm (tất nhiên cả chữ Hán) vào văn bản, có khả năng tra cứu ý nghĩa cả chữ Hán và Nôm dưới dạng từ điển vi tính, và một số chức năng phụ trợ khác như phiên âm, vẽ chữ bổ sung, hiệu chỉnh IME…

1.2. Vấn đề mã hóa Unicode chữ Nôm và đăng ký quốc tế

Ban đầu đây là công việc của một số nhà nghiên cứu là Việt kiều ở nước ngoài, cụ thể các TS. Ngô Thanh Nhàn và Đỗ Bá Phước ở Mỹ. Họ đã chủ động liên hệ và tham dự các kỳ họp của “IRG” từ những năm đầu thập niên 1990, “IRG” là tổ chức thành viên của hiệp hội Unicode và ISO/IEC quốc tế có trách nhiệm trong việc duyệt xét đưa các chữ biểu ý (tượng hình) vào chuẩn Unicode quốc tế. Sau đó đã có liên hệ với trong nước (Viện Nghiên cứu Hán Nôm - GS.TSKH Nguyễn Quang Hồng, Viện Công nghệ thông tin - TS. Ngô Trung Việt), để lựa chọn, vẽ font và đề xuất đưa chữ Nôm vào chuẩn Unicode quốc tế. Qua nhiều đợt tuyển chọn và đăng ký, hiện tại đã đưa được 9299 chữ Nôm căn bản nhất vào chuẩn Unicode 3.1, đã đệ trình thêm khoảng 2500 chữ nữa và sẽ còn tiếp tục bổ sung nhiều chữ mới. Đây là một công trình lớn và hết sức giá trị, việc phát triển phần mềm Hán Nôm sắp tới sẽ dựa hoàn toàn vào các kết quả trên.

Giới thiệu sơ lược kiến trúc của Unicode và vị trí dành cho chữ Nôm:

- Ngay giai đoạn đầu phát triển Công nghệ thông tin người ta đã thấy hệ thống mã hoá ký tự 1 byte (mã hóa được 256 ký tự) đã không đủ để thể hiện các ký tự trong các ngôn ngữ ghi âm chứ chưa nói tới các chữ biểu ý, nên sau đó đã có sự mở rộng lên Unicode 2 byte để có thể biểu diễn các ký tự biểu ý. Nhưng ngay sau đó người ta nhận thấy vẫn chưa đủ cho các hệ thống ký tự trên thế giới nên phải có sự mở rộng lên quá 2 byte, hiện tại mở rộng tới 2 byte rưỡi (chính xác là 21 bits).

- Sau khi mở rộng tới 21 bits hệ thống mã Unicode hiện nay gồm 17 mặt phẳng mã hóa, mỗi mặt phẳng có kích thước 256 * 256, tính ra có hơn một triệu vị trí mã. Quan trọng nhất chính là mặt phẳng đa ngữ cơ sở chữa các ký tự ASCII và các ký tự 2 byte “cũ”.

- Các khu vực mã sau quan trọng cần để ý khi làm phần mềm Nôm (số hexa).

· 4E00 - 9FAF, có 20902 vị trí mã: Khu vực CJK cơ bản chứa các kí tự trong bộ mã BIG5, GB và nhiều chữ Hán được dùng ở Hàn, Nhật… Khu vực này không có chữ thuần Nôm nhưng có một số lượng chữ khá lớn chữ Hán mượn dùng làm chữ Nôm hay trùng dạng ngẫu nhiên với các chữ thuần Nôm.

· 3400 - 4DBF có 6582 vị trí mã: Khu vực chữ Hán mở rộng A, chứa các chữ Hán vẫn dùng khá phổ biến nhưng chưa đưa vào CJK, chữ thuần Nôm đã bắt đầu có ở khu vực này khoảng vài trăm chữ.

· D800 - DBEF: Khu vực mã thay thế Surrogate để truy cập các ký tự ở các mặt phẳng cao, gồm 2 đoạn liền nhau, mỗi đoạn 1024 mã. Mỗi cặp kí tự Surrogate dùng để biểu diễn một kí tự ở các mặt phẳng cao, nên có thể mã hoá tất cả (1024 * 1024) kí tự ở 16 mặt phẳng bổ sung.

· E000 - F8B0, có 6320 mã: Khu vực mã cho phép người dùng tự định nghĩa (tự do). Khu vực này khá quan trọng trong dự án phần mềm của chúng tôi, sẽ nói sau:

· U + 20000 tới 2FFFF: Mặt phẳng bổ sung 2 chứa các ký tự biểu ý mở rộng B, có cả chữ Nôm của Việt Nam nên gọi là CJKL, hầu hết chữ thuần Nôm của ta (4200 chữ trong Unicode 3.1) được đặt ở mặt phẳng này, việc sử dụng chúng phải cần tới cơ chế surrogate.

1.3. Vấn đề làm Font cho chữ Nôm

Đồng thời với việc tuyển chọn chữ và đăng ký mã Unicode cho chữ Nôm là vấn đề tạo font TTF cho chữ Nôm dùng trong máy tính, để có thể ứng dụng thực tiễn trong các công việc nghiên cứu, phổ biến và chế bản các sách chữ Nôm. Đã có nhiều tổ chức và các cá nhân thực hiện vấn đề này, cụ thể:

- Hội Văn tự kính ở Tokyo - Nhật, có vẽ giúp cho Việt Nam một bộ font chữ Nôm.

- Công ty Dynalap ở Đài Loan cũng có vẽ cho Việt Nam một bộ font chữ Nôm TTF lấy cơ sở trên 9299 chữ Unicode 3.1 đã có. Tiếc là bộ font này không những không theo chuẩn Unicode mà còn để chữ Nôm xâm phạm mã các chữ Hán quan trọng trong khu vực chữ Hán CJK căn bản, nên khó khăn khi ứng dụng vào thực tiễn.

- Nhóm Đỗ Quốc Bảo cùng với các ni cô ở Thiền Viện Chiếu (Vũng Tàu) có thể vẽ một bộ font chữ Unicode 3.1 lớn, có đủ cả 9229 chữ Nôm, và đã có sử dụng có nhiều chùa tại Tp HCM. Thế mạnh của nó là có tới hơn 6 vạn chữ, trong đó có nhiều chữ trong sách Phật học, nhưng cũng chính thế mạnh này lại gây ra những nhược điểm (tuy được giải thích là tạm thời trước mắt, nhưng đối với ứng dụng thực tiễn thì lại khá quan trọng) đó là: bộ font này quá lớn, các chương trình vẽ font chúng tôi hiện có không xử lý được, do quá lớn không tạo được “Hin” nên hiển thị với co chữ nhỏ bị mất nét, cũng do quá lớn phải cắt ra thành 3 file font nhỏ nên sẽ khó khăn khi soạn thảo và trao đổi văn bản.

- Nhóm Nôm Na của TS Ngô Việt Trung ở Hà Nội đang thực hiện việc vẽ font chữ Nôm có bài bản, bắt đầu từ khâu chọn kiểu chữ (đó là kiểu chữ khắc trong Thiền Tông bản hạnh) tới khâu phân tích các thành phần chữ tạo thành cơ sở dữ liệu về cấu tạo chữ, rồi chuẩn bị vẽ trước font chứa các nhóm nét bút cơ bản để tổng hợp thành chữ phức tạp.v.v…

- Các bộ font trên đều dựa trên dạng font ”minh thể” là kiểu chữ in trên báo chí, có đặc điểm vuông vức, đều nét, dễ đọc, và đặc biệt là dễ vẽ, tuy nhiên tính mỹ thuật không cao bằng kiểu chữ Khải.

- Nhóm chúng tôi cũng đã thực hiện việc vẽ font TTF với hai dạng chữ Khải và chữ Minh, và đã có liên hệ với Viện Nghiên cứu Hán Nôm và tổ chức Nomfoundation để thống nhất mã chữ Nôm trong đề án của chúng tôi theo chuẩn Unicode, tiếc là các dữ liệu về mã Unicode chữ Nôm chúng tôi nhận được khá muộn (tháng 5/2003) nên chưa kịp chuẩn hóa các chữ Nôm trong version 1.0 của phần mềm Hán Nôm theo chuẩn Unicode, ngoài ra còn do lý do khó khăn trong cơ chế hiển thị chữ Nôm “surrogate” sẽ trình bày sau.

1.4. Việc làm phần mềm chữ Nôm và các tiện ích đi kèm

- Việc đưa chữ Nôm vào Unicode đã xong phần chủ yếu, nên công việc quan trọng tiếp theo là làm phần mềm chữ Nôm có khả năng đánh được các chữ Nôm Unicode đó vào văn bản, với tối thiểu hai font chữ Khải và chữ Minh, và tra cứu được ý nghĩa của chúng.

- Tổ chức Nomfoundation đã tập hợp nhiều chuyên gia trình độ cao cả trong nước và thế giới, và phác thảo một kế hoạch làm phần mềm Nôm rất quy mô và có bài bản:

1/ Làm font cho chữ Hán Nôm

2/ Bàn phím cho chữ Nôm

3/ Cơ sở dữ liệu về chữ Nôm

4/ Cơ sở dữ liệu chữ Nôm dựa trên XML/UNICODE

5/ WEB SITE về chữ Nôm

6/ Động cơ tìm kiếm cho Quốc ngữ và chữ Nôm

7/ Chương trình phiên chuyển thông minh Nôm - Quốc ngữ.

Đây cũng chính là định hướng cơ bản của phần mềm Hán Nôm của chúng tôi đã và đang làm.

Khâu kỹ thuật quan trọng nhất khi làm phần mềm Hán Nôm có lẽ là tạo bàn phím (thâu nhập pháp tức IME), ngoài nhóm chúng tôi cũng đang có một số tổ chức và cá nhân bắt đầu tham gia vào lĩnh vực này, chúng tôi có nhận được một phần mềm nhỏ nhưng khá hay để đánh chữ Hán, của một bạn trẻ ở Tp Hồ Chí Minh, do anh Lê Anh Minh gửi (HANOKEY)…

2. Kết quả nghiên cứu

2.1. Phân tích nghiên yêu cầu và thiết kế hệ thống

2.1.1. Những yêu cầu căn bản:

Về phía người sử dụng:

1/ Trước hết phải xác định đối tượng phục vụ của phần mềm là quảng đại quần chúng hay một số ít nhà nghiên cứu Hán Nôm ? Phiên bản hiện tại là nhằm tới quảng đại quần chúng trước.

2/ Còn với đối tượng là các nhà chuyên môn Hán Nôm thì cần có phần mềm nâng cao hơn, dự định sẽ làm ở các phiên bản tiếp sau. Chúng tôi nghĩ là phải bổ sung những công cụ tiện ích hay làm hẳn một phần mềm có những tính chất “chuyên dụng” và “đặc thù” để phục vụ riêng cho đối tượng này.

3/ Với quảng đại quần chúng thì yêu cầu đối với phần mềm đầu tiên là các khả năng tra cứu, phiên dịch và học tập tức là các từ điển và bảng tra vi tính cùng với các bộ văn tuyển chọn lọc đi kèm.

4/ Chức năng đánh chữ Nôm và soạn thảo văn bản Hán Nôm là mức cao hơn chủ yếu dành cho chuyên gia và những người đã có quá trình nghiên cứu học tập Hán Nôm tương đối lâu.

5/ Khả năng vẽ thêm chữ Nôm mới và đưa nó vào văn bản (để chế bản sách Nôm) ở mức cao hơn nữa, mức chuyên gia. Phần mềm hiện tại chưa cung cấp tiện ích vẽ font TTF, do chúng tôi phải tôn trọng vấn đề bản quyền

6/ Phần mềm chữ Nôm phải gắn bó với phần mềm chữ Hán, trên lý thuyết thì có thể học ngay chữ Nôm mà không cần học trước chữ Hán, nhưng ai cũng thừa nhận chúng có quan hệ rất gắn bó, và thực tế nếu có căn bản chữ Hán trước thì học chữ Nôm mới dễ. Các văn bản chữ Nôm của ta thường chen rất nhiều chữ Hán, hầu như không có văn bản nào là thuần Nôm cả, cho nên thâu nhập pháp để đánh chữ Nôm cũng phải đánh được những chữ Hán phổ thông thường dùng. Ngoài ra cần phải có các thâu nhập pháp đánh chữ Hán theo âm Hán Việt và âm phổ thông Trung Quốc (Pin Yin), phục vụ Hoa Kiều và những người học tiếng Hoa hiện đại.

7/ Phần mềm phải chạy được trên WIN98 là hệ điều hành chưa hỗ trợ Unicode, với những nhà chuyên môn về CNTT thì đây là một bước thụt lùi có vẻ vô lý, tại sao không đặt cơ sở trên Win 2000 hay WinXP là các hệ điều hành hiện đại hơn có hỗ trợ Unicode? Để hiểu được yêu cầu này phải đứng ở vị trí các nhà nghiên cứu Hán Nôm trong nước. Có hai lý do, thứ nhất hệ điều hành Win 98 vẫn còn dùng phổ biến trong các máy tính để bàn ở Việt Nam, nhưng quan trọng hơn là do trong một thời gian dài phần mềm Song Kiều (phiên bản 4.0, 4.5 và 4.98) và Chinese Star được các nhà nghiên cứu Hán Nôm trong nước dùng phổ biến, (chúng dùng font FNT và không chạy trên các hệ điều hành Win2000/XP), các văn bản làm trên Song Kiều rất nhiều, không dễ một sớm chiều chuyển đổi và dùng Unicode ngay được. Máy của chúng tôi hiện vẫn còn cài và dùng Song Kiều 4.98. Hơn nữa, nếu chúng tôi không lầm thì mã nguồn các trang Web của Trung Quốc, Đài Loan đa số vẫn dùng các hệ mã GB, BIG5 cũ chứ không phải đã chuyển qua Unicode toàn diện.

Về mặt kỹ thuật (với người lập trình):

- Phải tuân thủ đúng chuẩn Unicode cho chữ Nôm.

- Chương trình phải chạy ổn định, tránh xung đột với các chương trình tiếng Việt như ViệtKey, Unikey.

- Giao diện đơn giản, thân thiện.

- Phần mềm nên có tính mở, dễ tu sửa bảo trì.

- Phải xây dựng cơ sở dữ liệu cho chữ Hán, Nôm có thể dễ dàng sử dụng và bổ sung về sau.

- Phải tận dụng các khả năng multimedia (âm thanh, hình ảnh) của thế giới CNTT hiện đại. (Tiếc là do hạn chế cá nhân nên chúng tôi còn chưa làm tốt khâu này).

- Yêu cầu phần mềm vẫn chạy được trên Win98 nên cần một số giải pháp kỹ thuật khá đặc biệt trong khâu hiển thị và đánh chữ Hán, Nôm Unicode vào văn bản, vì Win98 là hệ điều hành chưa hỗ trợ Unicode.

- Giải quyết được vấn đề sử dụng các chữ Nôm ở mặt phẳng đa ngữ bổ sung 2 theo cơ chế surrogate, một vấn đề khó khăn sẽ nói rõ hơn trong phần các giải pháp…

2.1.2. Phác thảo cơ bản của phần mềm:

Chúng tôi đã gộp nhóm các yêu cầu đối với phần mềm và phác thảo thành mô hình “ba chân” như sau:

Ảnh minh họa

Ba chân đó là:

1/ Font chữ Nôm

2/ Thâu nhập pháp (IME)

3/ Các tiện ích bổ trợ

Trong đó thâu nhập pháp là trung tâm, quyết định tính chất độc lập của phần mềm. Thực ra không phải chúng tôi coi nhẹ phần các tiện ích hỗ trợ bổ sung, nhưng phần này có thể bổ sung hoàn chỉnh sau hoặc tạo hẳn phần mềm tra cứu riêng, hai mục đầu mới là quyết định cho việc hình thành phần mềm Hán Nôm.

2.1.3. Thảo luận riêng về thâu nhập pháp đánh chữ Nôm

1/ Nhiều nhà chuyên môn nhấn mạnh yêu cầu là thâu nhập pháp (IME, hay gọi nôm na là bộ gõ) cần có phần hiển thị ý nghĩa ngữ cảnh của từng chữ Nôm để người mới học có thể đánh được chữ Nôm. Nhưng trong phần (A) chúng tôi đã phân tích đối tượng sử dụng thì những người cần đánh chữ Nôm vào văn bản thuộc mức trung bình (đã có học ít nhiều Hán Nôm) và cao (chuyên gia Hán Nôm), chứ chưa quảng đại quần chúng. Mức quảng đại thì đành phải mở tự điển tra từng chữ trước khi đánh vào văn bản. Bộ gõ chúng tôi làm đã tính tới trường hợp này nên tích hợp gắn bó với phần tự điển tra cứu chứ không phải bắt trước giống y như IME của người Trung Quốc là IME chỉ có mỗi việc đánh chữ, thực tế tự điển gắn với IME đã là một dạng hiển thị ngữ cảnh.

2/ IME trong các chương trình tiếng Hoa thường có chức năng “gợi ý” và tự động hoàn thành từ tổ theo một tự điển có sẵn, đó cùng là một hình thức hiển thị ngữ cảnh. Hiện tại phần mềm Hán Nôm chưa có kiểu “gợi ý” ngữ cảnh hay chức năng đoán và tự điền từ tổ. Về kỹ thuật thì có thể làm được, nhưng phải làm một từ điển chữ Nôm thông dụng, bao gồm các ngữ cảnh của từng chữ trong từ hay câu, việc này khá tốn thì giờ cần có thêm các chuyên gia Hán Nôm tham gia.

3/ Vấn đề bộ gõ theo tự dạng, chúng tôi quyết định làm thâu nhập pháp Thương Hiệp giản cho cả chữ Hán và chữ Nôm. Nhân đây nên bàn kĩ thêm về kiểu gõ Thương Hiệt, nó rất lợi hại khi dùng để tra tự điển, tra nghĩa chữ chưa biết, vì nó là kiểu gõ theo phân tích tự dạng, khá gần với kiểu phân loại theo bộ thủ, dùng lúc không biết âm đọc và ý nghĩa… Nhằm giúp người dùng tìm và phân tích mã Thương Hiệt, nên các tự điển trong phần mềm của chúng tôi có cung cấp mã Thương Hiệt giản cho cả chữ Hán và Nôm.

4/ Về kỹ thuật quản lý bàn phím trong IME, vấn đề lớn là tính ổn định, tránh xung đột với các bộ tiếng Việt như Vietkey, Unikey.

2.2. Các vấn đề khó khăn và các giải pháp kỹ thuật quyết định nhất

2.2.1. Giải pháp quan trọng nhất là sử dụng Internet Explorer để hiển thị chữ Hán, chữ Nôm

2.2.1.1. Các vấn đề khó khăn khi lập trình hiển thị và xử lý Unicode:

Nền Win98 chưa hỗ trợ Unicode. Nhưng một số chương trình chạy trên Win98 vẫn có thể hiển thị và soạn thảo với font TTF Unicode, do chúng tự quản lý lấy việc truy cập và hiển thị, điển hình là Internet Explorer từ 4.0 trở lên và Office từ 97 trở lên. Trong Win 98 chương trình sẽ phải tự quản lý thông tin về con chữ Unicode và việc đánh chữ Unicode vào văn bản chứ không thể nhờ vào hệ điều hành.

2.2.1.2. Giải pháp

Qua hàng loạt thử nghiệm thực tế với vấn đề hiển thị chữ Nôm trong MS Word và các phần mềm khác, chúng tôi đã đi đến giải pháp sử dụng IE (Internet Explorer của MS) để hiển thị chữ Hán và Nôm trên nền Win98, chuyển dần cơ sở dữ liệu chữ Hán, chữ Nôm (tức là các tự điển và bảng tra) chúng tôi đã có sang dạng văn bản HTML để browse bằng IE. Sử dụng HTML hợp với xu thế thời đại đó là sự phổ biến của các văn bản và chương trình dùng trên mạng Internet, nó cũng gần với XML trong kế hoạch làm phần mềm của Nomfoundation. Khi dùng HTML với các bộ browser để hiển thị chữ Hán, Nôm sẽ rất đẹp mắt và tha hồ đưa các hiệu ứng âm thanh hình ảnh mà chúng ta vẫn thấy trên Internet vào phần mềm. Đây là sự khác biệt lớn của phần mềm Hán Nôm với các phần mềm tra cứu tự điển thông dụng hiện nay như EVA300, English Study…

2.2.2. Giải pháp để dùng chữ Nôm ở mặt phẳng bổ sung 2.

2.2.2.1 Các vấn đề khó khăn liên quan tới kỹ thuật Surrogate

Các chữ Unicode ở các mặt phẳng cao hơn mặt phẳng đa ngữ cơ sở phải dùng kỹ thuật surrogate (thay thế): thay thế chúng bằng 2 ký tự trong khu vực surrogate của mặt phẳng đa ngữ cơ sở (2 byte). Ví dụ chữ Nôm “ba” Ăb mã số hexa = 20027, thập phân = 131111. Cặp thay thế: 55360 và 56359.

Theo tài liệu của các chuyên gia như TS. Ngô Trung Việt, TS. Trần Lưu Chương, Đỗ Bá Phước thì số lượng các phần mềm hỗ trợ kỹ thuật Surrogate hiện còn khá hạn chế:

- Windows XP, Office XP, và các phần mềm khác dựa trên công nghệ UniScribe của Microsoft.

- Mac OS X, và các phần mềm khác dựa trên công nghệ ATSUI của Apple.

Như vậy việc dùng các chữ Nôm ở mặt phẳng 2 trong điều kiện ở nước ta hiện nay là có nhiều cái khó khăn. Nhất là vấn đề đưa chữ Nôm lên mạng Internet, nếu theo đúng chuẩn Unicode thì vấp phải một số vấn đề kĩ thuật khá rắc rối.

2.2.2.2. Giải pháp sử dụng chữ Nôm surrogate

Thực tế chúng tôi đã giải quyết được bài toán kĩ thuật lớn là hiển thị và đánh được các chữ Nôm ở mặt phẳng đa ngữ bổ sung 2 theo cơ chế surrogate, và vẽ được một font TTF đúng chuẩn Unicode 3.1. Tuy nhiên do thời hạn hoàn thành đề tài đã cận kề mà các file cơ sở dữ liệu Unicode 3.1 chúng tôi mới nhận được tháng 5/2003 nên đã không kịp thực hiện giải pháp này trong phiên bản chương trình hiện tại. Tức là phiên bản hiện tại đã chưa hoàn toàn theo đúng chuẩn Unicode, trước mắt chỉ gồm các chữ Nôm do chúng tôi tuyển chọn, trùng khoảng 80% với các chữ trong chuẩn Unicode 3.1, và mã đã được áp vào khu cực CJK cơ sở.

Tuy chiếm dụng mã CJK cơ sở, nhưng chương trình không chiếm dụng mã các chữ Hán có trong BIG5 và GB tức là các chữ phồn thể và giản thể đã được nhà nước Trung Quốc tiêu chuẩn hoá, chỉ chiếm các mã bổ sung mới của CJK. Do đó khi dùng bộ font TTF chữ Nôm có cả chữ Hán trong chương trình để xem trang WEB của Trung Quốc cũng như Đài Loan thấy vẫn hiển thị đầy đủ, hầu như không thấy lỗi. Việc đưa các chữ Nôm này lên mạng Internet, hay sao chép giữa các chương trình Windows rất dễ dàng, thông suốt, không có trục trặc gì cả.

2.2.3. Các giải pháp khác:

- Trong tác vụ tra chữ sẽ gặp bài toán khá phức tạp là phải nhận diện các hệ mã BIG5, GB, Unicode… trong các dạng văn bản khác nhau TXT, RTF, DOC, HTML… Do không có các tài liệu về cấu trúc dữ liệu của các hãng phần mềm như Microsoft nên chúng tôi phải tự bố trí thí nghiệm phân tích tổng hợp để tìm ra các quy luật cho phép nhận diện mã.

- Chương trình có sử dụng một số giải pháp kỹ thuật “phi chuẩn” hoặc “hơi lạ” khác, nhưng còn ở mức mẹo mực chứ chưa có ý nghĩa quyết định, nên chúng tôi thấy không cần trình bày, nhất là với các chuyên gia Hán Nôm.

2.3. Các kết quả cụ thể đạt được (giới thiệu cụ thể các khả năng của phần mềm)

2.3.1. Số liệu kỹ thuật cơ bản

- Về tên gọi phần mềm, do chưa phát hành nên thực ra cũng chưa có tên chính thức. Tạm gọi là “Han Nom 2002”.

- Độ lớn file cài đặt: 24,4 MB

- Độ lớn sau khi bung ra 38,4 MB, dung lượng chiếm đĩa khoảng 30Mb tuỳ hệ điều hành.

- Yêu cầu cấu hình máy tối thiểu là Pentium 200 MHZ, dung lượng đĩa trống 50MB, chạy hệ điều hành Win98, W2000, WinXP.

- Gồm có hai font TTF chữ Hán - Nôm dạng Khải thể và Minh thể, độ lớn mỗi file font hơn 2,1 vạn chữ (khoảng 10 - 11 MB), tổ chức như sau:

13.000 chữ Hán phồn thể BIG5.

3.000 chữ Hán giản thể GB, không trùng dạng chữ phồn thể.

4.500 chữ Nôm không trùng với BIG5 và GB. Không kể 5.000 chữ vốn mượn chữ Hán.

Còn lại là các ký tự La tinh, Nga, Nhật, Arập, Thái , Việt (quốc ngữ), dấu chấm câu là các kí hiệu toán như ở các font chữ Unicode thông thường…

- Chương trình chứa 5 thâu nhập pháp cơ bản là: đánh telex âm Hán Việt, đánh telex âm chữ Nôm, đánh âm Pin Yin Hán, đánh mã Thương Hiệt giản chữ Hán, đánh mã Thương Hiệt giản chữ Nôm.

2.3.2. Giao diện chính của Hán Nôm 2002

Như đã nói ở trên, bản chất cũng như hình thức của chương trình chính là một bộ brower. Cơ chế hiển thị của các tự điển trong phần mềm này là cơ chế brower, đây là điểm khác biệt lớn với các phần mềm từ điển hiện có như EVA300…

2.3.3. Các chức năng chính của phần mềm Hán Nôm 2002

2.3.3.1- Tra nghĩa chữ Hán, Nôm:

Có nhiều cách tra:

Tra theo mã nhập: Với chữ Hán có thể tra theo mã Pinyin (tiếng Quan thoại), mã telex phiên âm Hán Việt hay mã Thương Việt giản (Simpe Cangjie, là kiểu gõ theo tự hình chữ) với chữ Nôm có hai cách tra là gõ telex theo âm quốc ngữ hay gõ mã Thượng Hiệt giản chữ Nôm…Các chữ đồng mã sẽ hiển thị trong một khung nhỏ có đánh số để người dùng chọn, chọn từng chữ bằng cách nhấn con số tương ứng trên bàn phím. Tùy lúc đó nút chọn Hán hay Nôm trên thanh công cụ đang nhấn xuống mà nghĩa Hán hay nghĩa Nôm của chữ sẽ hiển thị trong cửa sổ Browser ở dưới.

Tra chữ trong ứng dụng khác: Nếu người dùng có sẵn có văn bản dạng *. DOC mở trong MS Word, chỉ việc tô đen chữ rồi nhấn vào biểu tượng kính lúp ở khay hệ thống, chương trình mở một cửa sổ Quick View nhỏ hiển thị nghĩa chữ. Cái hay của chương tình là có khả năng tự động nhận diện mã phồn thể BIG5, mã giản thể BG hay mã Unicode trong văn bản và hiển thị đúng chữ cần tra.

Tra theo bộ thủ (dàn trang theo bộ thủ): Toàn bộ các chữ Hán trong bộ font BIG5 được dàn trang theo từng bộ thủ, chỉ việc nhấn các liên kết lần tìm theo số nét bộ thủ tới từng bộ rồi tìm tới khu vực nét cần tra và nhấn vào con chữ cần tra. Các chữ giản thể mã GB và chữ Nôm cũng có thể tra theo bộ nhưng phiên bản đemo chưa cung cấp khả năng này…

Chú ý: phần tra chữ Hán đặt cơ sở trên Tự điển Hán Việt Thiền Chửu (1942) có tăng bổ, thêm vào tất cả các chữ trong bộ mã phồn thể BIG5, giản thể GB và cung cấp nhiều dữ liệu vi tính của từng chữ; phần tra chữ Nôm lấy cơ sở là cuốn Bảng tra chữ Nôm của UBKHXH (1976).

2.3.3.2. Hỗ trợ phiên âm chữ Hán

Phiên bản hiện tại có một chức năng khá độc đáo là hỗ trợ phiên âm Hán Việt cho chữ Hán, nhận diện được cả văn bản mã giản thể lẫn phồn thể và mã Unicode. Tiện ích này còn khá thô sơ, với các chữ có nhiều âm đọc, chương trình chỉ chọn âm đọc “có vẻ” thường dùng nhất nên đôi khi phiên âm sai.

2.3.3.3. Browse mạng và xem, sửa văn bản trên đĩa

Chương trình chính là một bộ Browser nên tự nhiên nó cũng có thể dùng để lướt trên mạng hay mở xem các văn bản DOC, TXT, HTML trên đĩa.

2.3.3.4. Đánh chữ Hán, Nôm bằng “Việt Hán Nôm thâu nhập pháp”:

Đây là chức năng quan trọng giúp phần mềm Hán Nôm 2002 có tính độc lập cao, không bị phụ thuộc vào các phần mềm tiếng Hoa hay tiếng Việt nào cả.

Chọn thâu nhập pháp: Nhấn vào biểu tượng hình thái cực để mở menu popup và chọn thâu nhập pháp trong đó, số lượng các thâu nhập pháp cũng giống như trong tác vụ tra chữ.

Nhập mã: để điểm nháy tại văn bản cần đánh và nhập mã, các gõ phím của người dùng sẽ được bắt giữ (hook) và hiển thị thành mã nhập trong ô nhập mã. Các chữ đồng âm (đồng mã) sẽ hiển thị trong ô chọn chữ. Nhấn nút mũi tên DOWN/UP để lật xuống/lên từng trang nếu có nhiều hơn 10 chữ đồng mã, hoặc nhấn chuột vào các nút ”<” / “>” để lật trang.

Xem nghĩa chữ trước khi đánh: nhấn chuột vào dãy nút đánh số 1,2…9,0 để xem nghĩa chữ tương ứng, giải thích Hán hay Nôm sẽ hiển thị trong cửa sổ popup nhỏ như trong tác vụ tra nghĩa chữ ở giao diện chính. Đây là chức năng đặc biệt khiến thâu nhập pháp của Han Nom 2002 khác hẳn với các IME của các bộ chữ Hán Song Kiều, Windows tiếng Hoa… các IME đó chỉ làm mỗi nhiệm vụ đánh chữ mà không gắn liền với các tự điển tra cứu như Han Nom 2002.

Nhập chữ Hán, Nôm vào văn bản: nhấn các phím số trong dãy phím số để chọn chữ tương ứng trên thanh thâu nhập pháp, nó sẽ được chèn vào văn bản, nhớ kiểm tra điểm chèn (con nhảy) đã nằm trên văn bản chưa.

Nhập chữ Việt vào văn bản: chữ Việt chính là mã nhập đang hiển thị trong ô nhập mã cũng có thể đánh thẳng vào văn bản bằng cách nhấn thanh space. Mã của tiếng Việt nhập vào văn bản có thể chọn trong menu popup, phần mềm hiện chỉ hỗ trợ 4 mã là Unicode đựng sẵn, VNI, TCVN3 và VietWareX.

Khi cực tiểu thanh thâu nhập pháp thì sẽ trả bàn phím về tiếng Anh khi đó mới có thể đánh tiếng Việt bằng VietKey hay Unkey, hoặc đánh chữ Hán bằng Song Kiều… tuy nhiên để tránh xung đột bàn phím, chắc ăn nhất là “ unload” xoá hẳn cửa sổ của thanh thâu nhập pháp (nhấn vào nút “X” ở góc trên bên phải cửa sổ) khi không dùng tới.

3. Các tiện ích bổ trợ

Phần phụ trợ gồm:

3.1. Tiện ích biên tập lại thâu nhập pháp:

Chức năng này để tu sửa lại thâu nhập pháp theo ý người dùng, ví dụ đưa vào một chữ mới hay định nghĩa tốc ký cho một chữ thường dùng. Chẳng hạn chữ trường hay trưởng mã telex là trwowngf thuộc loại “ trường” nhất, có thể thay bằng tốc ký “tgf” hay “tf” vừa gọn vừa không bị lẫn với các chữ trường đồng âm khác.

Cách dùng xem trong help của phần mềm

3.2. Tiện ích đổi mã văn bản ra mã Unicode

Tiện ích này chỉ đổi văn bản dạng HTML, hiển thị luôn cả văn bản đã đổi mã để có thể sửa lại, nhưng còn chưa hoàn chỉnh lắm.

Cách dùng xem trong help của phần mềm

3- Tiện ích sửa phiên âm chữ Hán:

Do các chữ nhiều âm đọc chương trình phiên âm đã chọn trước một âm cho là thường dùng nhất, nên muốn có các âm khác chương trình phải có khâu hiệu chỉnh phiên âm, dựa trên một tự điển dạng văn bản “*.TXT” mà người dùng có thể tự tu sửa theo ý mình.

Cách dùng xem trong help của phần mềm.

3.4. Bản đồ font (Unicode Character Map)

Để xem mã font và copy các ký tự đặc biệt không có sẵn trong thâu nhập pháp. Tiện ích này tương tự Character Map của Windows, sở dĩ cần có là vì Character Map của Win98 chưa có khả năng hiển thị chữ Unicode, chứ Win2000/XP thì không cần tiện ích này lắm.

Cách dùng xem trong help của phần mềm.

Nói thêm:

- Phần mềm có đã được thừa nhận trong nước, cụ thể đã được một số chuyên gia ở Viện Nghiên cứu Hán Nôm và Nomfoundation dùng thử. Đã đăng giới thiệu trên Tạp chí Thế giới vi tính Việt Nam (PC World Việt Nam số 6.2003) và Echip số 27.

- Phần mềm còn tiềm ẩn nhiều khả năng phát triển: ví dụ làm tự điển tra ngược Việt - Hán, có thể thêm các tự điển khác như Hoa Anh, biên soạn trang WEB, giới thiệu các tác phẩm Hán Nôm kinh điển và đưa tự điển lên mạng (tự điển online).

- Cần liên hệ với Viện Hán Nôm và Nomfoundation để phối hợp công việc, dùng lại các kết quả của Viện nếu được phép để tránh trùng lặp lãng phí. Cần tổ chức một nhóm tiếp tục bảo trì và phát triển phần mềm.

Các tài liệu tham khảo làm phần mềm

1. Đoạn trường tân thanh, Thành Thái Nhâm Dần trung thu vọng (1902), Giá Sơn Kiều Oánh Mậu chú thích, nguyên bản chữ Nôm sao chụp in trong Tổng tập Văn học Việt Nam, tập 12, Nxb. KHXH, H. 1996.

2. Một số bản Truyện Kiều Nôm khác: Truyện Kiều bản Chiêm Vân Thị,Bộ Quốc Gia Giáo dục Sài gòn cũ (1967), hai bản Truyện Kiều 1870 và 1871 (Nguyễn Quảng Tuân), Truyện Kiều bản của Trần Bích San (theo Truyện Kiều tập chú…).

3. Chinh phụ Ngâm (Nôm), hai bản của Nguyễn Văn Xuân, Tôn Thất Lương sưu tầm và một bản in Liễu Văn đường (1919).

4. Quốc Âm Thi tập - Nguyễn Trãi toàn tập tân biên, Nxb. Văn học, 2001.

5. Thơ văn Lý - Trần, Nxb. KHXH, H. 1989.

6. Bản chụp các vở tuồng chữ Nôm ở thư viện Anh Quốc. Và một số vở tuồng chữ Nôm sưu tập từ nhiều nguồn khác.

7. Một số văn bản Hán Nôm lãng xã TT - Huế thu thập qua đi diền dã.

8. Bảng tra chữ Nôm, Nxb. KHXH, H. 1976.

9. Vũ Văn Khánh: Tự điển chữ Nôm, Nxb. Đã Nẵng, 1996.

10. Vũ Văn Kính: Đại tự điển chữ Nôm, Nxb. Văn Nghệ, Tp. HCM 1999.

11. Thiều Chửu: Hán Việt tự điển, Nxb Tp. HCM in lại 1993.

12. Đào Duy Anh: Hán Việt tự điển, Trường Thi, 1957.

13. Từ điển Trung Việt, Nxb. KHXH, H. 1994.

14. Huỳnh - Tịnh Paulus Của: Đại Nam quốc âm tự vị, Sài gòn 1895 (bản in lại).

15. Từ điển Nôm của Schneider (Pháp). Tài liệu cá nhân, do TS. Nguyễn Văn Thịnh - ĐHQG Hà Nội cung cấp.

16. Các bài báo của TS. Ngô Trung Việt, Trần Lưu Chương, Ngô Thanh Nhàn, Đỗ Bá Phước.

17.Bảng mã Nôm Unicode 3.1 và các tài liệu liên quan (do TS. Ngô Trung Việt, Viện CNTT, cung cấp).

18. Một số file font Nôm mẫu của nhóm Nôm Na (TS. Ngô Trung Việt cung cấp).

Thông báo Hán Nôm học 2003, tr. 109-129

In
Lượt truy cập:

Từ khóa » Gõ Chữ Nôm Online