Thứ Hai, 30 tháng 12, 2013

Nghiên cứu các công cụ phát triển của UNL và khả năng ứng dụng cho tiếng việt

-5-
6. Cấu trúc của luận văn
Báo cáo luận văn ñược tổ chức thành ba chương. Chương ñầu
chúng tôi giới thiệu phần nghiên cứu tổng quan về UNL và các bộ công
cụ của nó. Chương hai là giới thiệu trình bày tổng quan về về các nghiên
cứu và giải pháp ñã thực hiện ñể ứng dụng UNL cho tiếng Việt. Chương
ba là tiến hành thử nghiệm trên một công cụ hỗ trợ UNL, ñánh giá và ñề
xuất một số ứng dụng UNL cho Tiếng Việt, triển vọng của ñề tài. Cuối
cùng là kết luận và nêu hướng phát triển của ñề tài.
CHƯƠNG 1
TỔNG QUAN VỀ UNL VÀ CÁC NGHIÊN CỨU
ĐỂ ÁP DỤNG UNL CHO TIẾNG VIỆT

Trong chương này, chúng tôi trình bày tổng quan về ngôn ngữ của
UNL, hệ thống UNL và giới thiệu một số công cụ phát triển của UNL
1.1. Tổng quan về ngôn ngữ UNL
1.1.1. Khái niệm
UNL là từ viết tắt của “Universal Networking Language”. Nó là ngôn
ngữ máy tính cho phép máy tính có thể truy cập thông tin và tri thức mà
không bị rào cản ngôn ngữ. Nó là một ngôn ngữ giả có khả năng mô
phỏng thế giới ngôn ngữ tự nhiên của con người trong giao tiếp. Kết quả là
nó cho phép mọi người có thể biểu diễn tất cả các tri thức từ ngôn ngữ tự
nhiên. Nó cũng cho phép máy tính giao tiếp, vì thế cung cấp cho mọi
người các cấu trúc ngôn ngữ ñể phân bố, nhận và hiểu thông tin ña ngôn
ngữ.
UNL bi
ểu diễn thông tin hoặc tri thức dưới dạng mạng ngữ nghĩa với
cấu trúc ña ñồ thị. Khác với ngôn ngữ tự nhiên, sự biểu diễn của UNL là
-6-
không nhập nhằng. Trong mạng ña ngữ nghĩa của UNL, các nút biễu diễn
các khái niệm và các cạnh biểu diễn mối quan hệ giữa các khái niệm.
Từ khi UNL là ngôn ngữ của máy tính, nó có tất cả các thành phần của
ngôn ngữ tự nhiên. UNL bao gồm UW - Từ vựng, Relation - Quan hệ,
Attributes - Thuộc tính, and UNL Knowledge Base - Kiến thức cơ bản. Nó
tạo ra các từ biểu diễn các khái niệm gọi là “Universal Word” gọi tắt là
UW, UW chứa các từ vựng của UNL. Nó liên kết nội với các từ vựng khác
tạo thành câu. Những liên kết này gọi là “relation” - mối quan hệ, nó chỉ
ñịnh vai trò của mỗi từ trong câu. Những ngụ ý của người nói có thể ñược
diễn tả thông qua “Attribute” - Thuộc tính.
“UNLKB” cung cấp những ñịnh nghĩa ngữ nghĩa của từ vựng.
UNLKB ñịnh nghĩa mỗi quan hệ có thể có giữa các khái niệm bao gồm
các quan hệ phân cấp và các kỹ thuật tham chiếu dựa trên các quan hệ bao
gồm lẫn nhau giữa các khái niệm. Vì thế UNLKB cung cấp nền tảng ngữ
nghĩa của UNL ñể chắc chắn nghĩa của biểu thức UNL là không nhập
nhằng.
1.1.2. Biểu thức UNL
1.1.3. Các quan hệ
1.1.4. Từ vựng UNL
1.1.5. Phân loại từ vựng UNL
1.1.6. Thuộc tính UNL
1.1.7. Bi
ểu thức UNL
1.2. Tổng quan về hệ thống UNL
1.2.1. Quá trình EnConvertor
-7-
1.2.2. Quá trình DeConvertor
1.2.3. Dictionary - Từ ñiển
1.3. Các nghiên cứu ñể áp dụng cho UNL-tiếng Việt
1.3.1. Giải pháp dịch tiếng Việt thông qua hệ thống trung gian hỗ
trợ UNL
Giới thiệu
Dựa vào việc tìm hiểu một cách có hệ thống về khái niệm UNL, hệ
thống hoạt ñộng của UNL. Nghiên cứu ñã ñề xuất ứng dụng UNL cho
tiếng Việt thông qua hai mô hình như sau:
Mô hình 1: Chuyển ñổi thủ công văn bản Tiếng Việt sang ngôn ngữ
UNL và từ ñó sử dụng các công cụ hỗ trợ dịch từ UNL sang các ngôn ngữ
khác như Tiếng Anh, Tiếng Nga, Tiếng Tây Ban Nha, Tiếng Ý.
Ví dụ: từ một câu tiếng Việt: “Tôi có thể giúp gì cho ông không ?”, ta
sẽ chuyển nó sang dạng UNL:
agt(help(icl>do).@polity.@interrogative.@entry, I)
obj(help(icl>do).@entry.@polity.@interrogative, you)
Và từ ñây ta có thể dịch nó sang những ngôn ngữ (hiện nay là 15 ngôn
ngữ) ñã ñược hỗ trợ bởi UNL như tiếng Anh, tiếng Pháp, tiếng Nhật,…
Phương pháp thực hiện
Cách 1: Xây dựng kho dữ liệu các câu Tiếng Việt - Tiếng Anh - UNL
(ứng dụng hệ thống ETAP3 ñể chuyển từ tiếng Anh sang UNL). Sau ñó sử
dụng các trang web dịch trực tuyến ñể dịch các câu UNL sang ngôn ngữ
c
ần. ( Ví dụ Tiếng Nga, Nhật).
-8-
Cách 2: Chuyển ñổi thủ công văn bản Tiếng Việt sang ngôn ngữ
UNL.
Mô hình 2: Phát triển các công cụ hỗ trợ như :
+ Xây dựng công cụ hỗ trợ quá trình Mã hóa - EnConverter :
- Xây dựng từ ñiển các từ, các luật văn phạm, từ ñiển ñịnh nghĩa các
khái niệm cơ bản của Tiếng Việt.
- Xây dựng các luật mã hóa, các luật phân tích từ trong câu.
- Khi chuỗi ñầu vào ñược nạp thì EnConverter sẽ tiến hành phân tích
các từ trong câu, mỗi từ ñược xem như là một nút, nạp luật mã hóa và tiến
hành kiểm tra luật. Áp dụng luật mã hóa cho danh sách các nút. Quá trình
xử lý của ứng dụng luật là ñể tìm ra luật thích hợp và áp dụng trên danh
sách nút ñể tạo chức năng cú pháp và mạng UNL sử dụng các nút trong
cửa sổ phân tích. Nếu một chuỗi xuất hiện trong cửa sổ, hệ thống sẽ xây
dựng từ ñiển từ và áp dụng luật lên các phần tử từ. Trong trường hợp, nếu
một từ ñáp ứng ñủ các ñiều kiện yêu cầu cho cửa sổ của luật, từ này sẽ
ñược lựa chọn và ứng dụng luật tiếp tục. Quá trình xử lý này sẽ tiếp tục
cho ñến khi chức năng cú pháp và mạng UNL ñược hoàn thành và chỉ còn
lại các phần tử nút trong danh sách nút.
- Cuối cùng EnConverter hiển thị mạng UNL thành file dữ liệu ñầu ra
là quan hệ nhị phân theo ñịnh dạng của biểu thức UNL.
+ Xây dựng công cụ hỗ trợ quá trình Giải mã - DeConverter : Gồm 3
thành phần
- Thành ph
ần ñầu tiên dùng ñể chuyển biểu thức UNL thành ñồ thị.
- Thành phần thứ hai chuyển ñồ thị thành một số cây
-9-
- Thành phần thứ ba dùng phương pháp ñệ quy duyệt từ trên xuống
qua các ñỉnh ñể dịch mỗi cây con và kết quả là một câu hoàn chỉnh.
Nhận xét
Đối với mô hình 1, theo cách 1 thì ưu ñiểm là nhanh chóng ứng dụng
UNL mà không cần phải phát triển bất cứ công cụ bổ sung nào. Nó phù
hợp với việc phổ biến nhanh những dữ liệu cơ bản và thiết yếu (hướng dẫn
du lịch, các mẫu hội thoại ñơn giản, quảng cáo…) ra nhiều thứ tiếng ñã hỗ
trợ bởi UNL. Hạn chế là phải có ñội ngũ am hiểu ngôn ngữ UNL ñể
chuyển những dữ liệu ñang có sang UNL. Đối với cách 2, do UNL ñược
xây dựng dựa trên từ ñiển các từ của tiếng Anh nên chỉ có một số ít các từ
Tiếng Việt có thể ñịnh nghĩa thành từ Tiếng Anh ñể máy chủ có thể hiểu
từ ñấy và chọn từ Tiếng Nga thích hợp. Do ñó, ñể có thể thực hiện ñược
công cụ có thể mã hóa từ Tiếng Việt sang các ngôn ngữ khác thì ta cần xây
dựng bổ sung các ñịnh nghĩa của các khái niệm tương ứng giữa Tiếng Việt
– Tiếng Anh.
Đối với mô hình 2: Đối với mô hình ứng dụng 2, ưu ñiểm là tạo ra một
hệ thống dịch tự ñộng ña ngữ hoàn chỉnh cho tiếng Việt; ñó là phát triển
các mô-ñun dịch tiếng Việt - UNL và UNL - tiếng Việt. Tuy nhiên, với mô
hình này thì cần phải bỏ ra nhiều công sức ñể nghiên cứu, phát triển dữ
liệu từ ñiển, ngữ pháp và các mô-ñun dịch trên cơ sở nền tảng ñã có của
UNL
1.3.2. Giải pháp xây dựng từ ñiển UNL-tiếng Việt
Giới thiệu
Để ứng dụng nhanh chóng hệ thống UNL phục vụ dịch ña ngữ cho
tiếng Việt; nhiệm vụ quan trọng nhất là tích hợp ñược tiếng Việt vào UNL.
-10-
Để làm ñược việc này, chúng ta cần phát triển mô-ñun dịch xuôi (tiếng
Việt - UNL) và dịch ngược (UNL - tiếng Việt). Mỗi mô-ñun bao gồm
nhiều công ñoạn nhỏ khác nhau, trong ñó một phần quan trọng phục vụ
cho dịch từ ñộng ñể ñưa ra những bản dịch chính xác vẫn là cơ sở dữ liệu
từ ñiển.
Giải pháp này ñưa ra dựa trên việc nghiên cứu cấu trúc từ ñiển Anh -
Việt theo ñịnh dạng Dict. Hiện nay, www.dict.org ñã xây dựng một ñịnh
dạng từ ñiển rất dễ sử dụng, ñịnh dạng này ñã ñược một số cá nhân sử
dụng ñể xây dựng những bộ từ ñiển khá lớn. Có nhiều bộ từ ñiển thông
dụng ñã ñược cộng ñồng phát triển. Nghiên cứu này sử dụng bộ từ ñiển
Anh - Việt của tác giả Hồ Ngọc Đức (http://www.informatik.uni-
leipzig.de/~duc/Dict/) ñể trích phần nội dung tiếng Việt. Về chuẩn chính tả
tiếng Việt vẫn tuân theo chuẩn chính tả như trong từ ñiển Hoàng Phê. Về
mã tiếng Việt, tác giả sử dụng bộ mã Unicode. Bên cạnh ñó, nghiên cứu
cũng ñã sử dụng từ ñiển UNL - FR (hơn 39.000 từ) do nhóm GETA
(Groupe d’Etudes pour la Traduction Automatique) xây dựng.
Phương pháp thực hiện
Qua nghiên cứu cầu trúc từ ñiển UNL-FR và từ ñiển Anh-Việt theo
chuẩn Dict của tác giả Hồ Ngọc Đức, nghiên cứu ñã ñề xuất các bước xây
dựng từ ñiển UNL - tiếng Việt như sau:
- Lấy một mục từ tiếng Pháp trong từ ñiển UNL-FR
- Lấy headword và các thuộc tính từ loại ñi cùng như CATV, CATN,
CATADJ…c
ủa mục từ tiếng Pháp ñó.
- Lấy một mục từ trong từ ñiển Anh – Việt
-11-
- Lấy headword mục từ ñó và các thuộc tính ñi cùng với như ñộng từ,
danh từ, tính từ,…
- So sánh 2 headword vừa lấy từ 2 từ ñiển, nếu giống nhau thì tùy theo
từ loại là danh từ, ñộng từ, tính từ,…thì gán nghĩa tiếng Việt vào nội dung
mục từ tiếng Pháp tương ứng  ñược 1 mục từ UNL - tiếng Việt  lưu
mục từ vừa tạo vào cơ sở dữ liệu từ ñiển UNL - tiếng Việt
- Quá trình sẽ lặp lại liên tục cho ñến khi khai thác hết các mục từ
trong từ ñiển UNL-FR.
Nhận xét
Việc xây dựng từ ñiển UNL - tiếng Việt bằng phương pháp so sánh
các headword dựa vào từ ñiển UNL-FR và Anh - Việt ñã tạo ñược một số
lượng khá lớn từ vựng (247.763 từ). Những headword trong từ ñiển UNL-
FR không tìm thấy trong từ ñiển Anh - Việt (bảng 1) là 36.85% có thể giải
thích bởi các nguyên nhân như sau:
- Hệ thống chưa xử lý hết cấu trúc chi tiết bên trong của mỗi mục từ
trong từ ñiển Anh - Việt. Ví dụ trong từ ñiển UNL-FR có headword là
“hurry_up”, nhưng trong từ ñiển Anh - Việt headword chỉ có “@hurry”,
còn “hurry_up” là các chi tiết bên trong của ñộng từ “hurry”.
- Từ trong Anh - Việt chưa ñầy ñủ hoặc chưa khai thác hết các thuộc
tính nằm trong các CAT của UNL-FR.
1.3.3. Giải pháp xây dựng môi trường cộng tác ñể phát triển từ
ñiển UNL-tiếng Việt
Gi
ới thiệu
-12-
Giải pháp ñưa ra là xây dựng môi trường cộng tác trao ñổi và chia sẽ
kiến thức ñể phát triển từ ñiển UNL - tiếng Việt, góp phần vào việc ñưa
ứng dụng UNL vào xử lý tiếng Việt. Nhiệm vụ chính là nghiên cứu về
dịch dự ñộng: các khái niệm, lịch sử phát triển, các phương pháp, những
hạn chế và một số ứng dụng. Nghiên cứu về sử dụng ngôn ngữ trục (Pivot
Language) trong xử lý ngôn ngữ tự nhiên, các vấn ñề liên quan ñến từ
ñiển, tìm hiểu chi tiết về UNL và từ ñiển trong UNL và nghiên cứu về môi
trường hợp tác trên mạng.
Phương pháp thực hiện
Bước 1: Thiết kế kho dữ liệu
Kho dữ liệu ñược thiết kế dựa vào file thành lập từ nhiều nguồn chỗ
chứa dữ liệu ñã ñược sắp xếp theo dạng ñiện tử của phù hợp với cấu trúc
mà tổ chức UNL thế giới sử dụng. Kho dữ liệu ñược thiết kế ñể thuận tiện
cho việc báo cáo và phân tích cũng như trích xuất ñể sử dụng góp phần
làm nền tảng cho việc phát triển các công cụ dịch tự ñộng về sau. Kho dữ
liệu ñược thiết kế mục ñích ở ñây là tập trung vào việc lưu giữ dữ liệu.
Những dữ liệu này sẽ ñược kiểm tra và ñưa vào dữ liệu từ ñiển ñể có thể
sử dụng làm nền tảng phát triển cho các hệ thống deconvertor cho Tiếng
Việt.
Nghiên cứu này ñã ñề xuất giải pháp xây dựng kho dữ liệu dựa vào từ
ñiển Anh - Việt theo ñịnh dạng Dict của tác giả Hồ Ngọc Đức
(http://www.informatik.uni-leipzig.de/~duc/Dict/) ñể trích phần nội dung
ti
ếng Việt. Về chuẩn chính tả tiếng Việt vẫn tuân theo chuẩn chính tả như
trong từ ñiển Hoàng Phê và sử dụng bộ mã Unicode. Kết hợp với từ ñiển
UNL-FR (hơn 39.000 từ) do nhóm GETA xây dựng.
-13-
Bước 2: Xây dựng môi trường cộng tác
Xây dựng một website là một môi trường cộng tác ñể phát triển từ
ñiển UNL-Tiếng Việt có ñầy ñủ các yêu cầu như một môi trường cộng tác
thực. Bên cạnh ñó hệ thống còn phải ñảm bảo tính dễ quản lý và trao ñổi
giữa các thành viên, tính chia sẻ và dễ sử dụng.
Nhận xét
Hệ thống xây dựng từ ñiển trên mạng cộng tác giúp nhiều người có thể
chung sức ñể nhanh chóng xây dựng nên một cơ sở dữ liệu từ ñiển UNL-
Tiếng Việt có giá trị. Nó là một từ ñiển mở nên mang tính chất dân chủ
giúp nhiều tác giả thuộc nhiều lĩnh vực chuyên môn khác nhau có thể cộng
tác với nhau và ñưa ra nhiều bình luận hữu ích hỗ trợ trong việc lựa chọn
cập nhật nội dung của từ ñiển sao cho chính xác.
Tuy nhiên, việc xây dựng từ ñiển UNL-Tiếng Việt trên mạng cộng tác
cũng gặp một số vấn ñề hạn chế như việc kiểm soát bài viết là rất khó,
cũng như tính chuyên môn trong số cộng tác viên sẽ không ñồng ñều, sự
khách quan sẽ tùy thuộc rất nhiều vào người quản lý chính, và công tác
quản lý xét duyệt trong môi trường cộng tác mạng thì rất khó khăn.
CHƯƠNG 2
CÁC CÔNG CỤ VÀ HỆ THỐNG HỖ TRỢ UNL
Trong chương này, chúng tôi sẽ trình bày một số công cụ và hệ thống
hỗ trợ UNL. Ở mỗi công cụ chúng tôi sẽ trình bày tổng quát và nhận xét
khả năng áp dụng cho tiếng Việt.
2.1. H
ệ thống ETAP- 3
-14-
2.1.1. Giới thiệu
ETAP-3 là môi trường NLP ña tiện ích mà nó ñược ñược hình thành
vào năm 1980 và là sản phẩm của Institute for Information Transmission
Problems, Russian Academy of Sciences (Apresjan et al. 1992a, b,
Boguslavsky 1995). ETAP-3 ñược trên lý thuyết Ngữ nghĩa - Văn bản
(Meaning - Text) của Igor' Mel'čuk và the Integral Theory of Language
của Jurij Apresjan. ETAP-3 là phần mềm chủ yếu ñể phục vụ cho môi
trường nghiên cứu ña ngữ hơn là phần mềm có tính thương mại. Trọng
tâm chính của việc nghiên cứu với ETAP-3 là mô hình tính toán của ngôn
ngữ tự nhiên. Tất cả các ứng dụng của NLP trong ETAP-3 phần lớn dựa
trên ba giá trị logic và sử dụng ngôn ngữ chuẩn cho miêu tả ña ngữ,
FORET.
ETAP-3 có tổ chức các kiến thức ngôn ngữ học. Nghĩa là dữ liệu ngôn
ngữ (văn phạm và từ ñiển) ñược dựa trên khái niệm từ phần mềm sử dụng
ñể xử lý chúng. Theo ñó, kiến thức ngôn ngữ không bị phân tán trong mã
phần mềm và vì thế dễ hiểu, dễ sử dụng và sửa chữa.
2.1.2. Các chức năng của ETAP-3
Các module chính NLP của ETAP-3 như sau :
 Hệ thống dịch máy (Machine Translation System)
 Giao diện ngôn ngữ tự nhiên ñể truy vấn dữ liệu
 Hệ thống diễn giải các câu tương ñương.
 Công cụ sửa lỗi cú pháp
 Công cụ hỗ trợ máy tính học ngôn ngữ.
 UNL Deconverter và Enconverter

Không có nhận xét nào:

Đăng nhận xét