ĐÀO HỒNG THU

Welcome to my blog

CHƯƠNG TRÌNH THIẾT KẾ THỬ NGHIỆM TỪ ĐIỂN ẢO SONG NGỮ (Tạp chí Từ điển học và BKT, số 4 (12), 07-2011)

Posted by daothu09 on July 15, 2011

V.A. SHIROKOV, N.N. SIDORCHUK[1]

Đào Hồng Thu (dịch) 

 Lời BBT: Đây là bài báo khoa học của 2 tác giả N. N. Shirokov và N. N. Sidorchuk (từ Ukraina), do chị Victorja Musjuchuk, cán bộ của Viện Hàn lâm Khoa học Quốc gia Ucraina (đang thực hiện các chương trình hợp tác với Viện Khoa học xã hội Việt Nam) gửi cho tạp chí Từ điển học & Bách khoa thư. Bài viết đề cập tới vấn đề thiết kế thử nghiệm biên soạn từ điển song ngữ (trên cứ liệu tiếng Nga và tiếng Ucraina) dựa trên những thành tựu mới nhất của từ điển học ứng dụng công nghệ tin học. Đó là những vấn đề mới, mang tính thời sự, rất đáng tham khảo trong việc biên soạn từ điển ở Việt Nam hiện nay. Xin trân trọng giới thiệu cùng bạn đọc. 

1. Từ điển song ngữ như là cơ sở của từ điển đa ngữ

Trong hệ thống thông tin hiện nay đã thể hiện rất rõ xu hướng đưa công cụ hỗ trợ ngôn ngữ vào việc xử lí các dữ liệu và thông tin kiến thức trên máy tính. Điều này dẫn tới việc cần thiết phải nghiên cứu xây dựng và hoàn thiện các hệ thống trí tuệ nhân tạo để xử lí thông tin bằng ngôn ngữ tự nhiên. Nói riêng, trong bối cảnh hội nhập toàn cầu hiện nay và xu hướng phát triển công nghệ ngôn ngữ chung trên toàn thế giới, đã nẩy sinh vấn đề cấp thiết về việc xây dựng các hệ thống từ điển đa ngữ (L-hệ thống) có khả năng tích hợp được với mạch xử lí tự động hóa văn bản.

Lợi thế của từ điển số hóa là không hạn chế trên thực tế tiềm năng tích hợp các sự kiện ngôn ngữ khác nhau vào một thể thống nhất, khả năng thể hiện sự sống động của ngôn ngữ, hiệu quả trong chuyển dịch theo cấu trúc các hệ thống ngôn ngữ, khả năng tiến hành các thử nghiệm kĩ thuật số và hàng loạt các khả năng khác. Điều này đặc biệt quan trọng đối với các từ điển có dung lượng lớn, được trình bày dưới dạng ấn phẩm in nhiều tập, cũng như đối với các bộ từ điển song ngữ. Không kém phần quan trọng trong việc làm tăng tiến độ từ điển số hóa bằng công nghệ máy tính là khả năng thể hiện trong môi trường số hóa việc sử dụng nhiều lần các cấu trúc và các thành phần của từ điển được tạo nên một lần bởi các nhà chuyên môn như nhà ngôn ngữ, nhà công nghệ ngôn ngữ, chuyên gia khoa học nhận thức, lập trình viên và người làm xuất bản. Khả năng này đặc biệt có ý nghĩa trong mối tương quan với phát triển truyền thông trên cơ sở máy tính và hình thành xã hội đa ngôn ngữ.

Như vậy, nghiên cứu xây dựng các nguyên tắc và công cụ từ điển số hóa đa ngôn ngữ được xác định bởi sự cần thiết phải đảm bảo các chức năng ngôn ngữ dịch, so sánh, đồng bộ, thích ứng giữa các ngôn ngữ và v.v. cho các hệ thống thông tin. Các xu hướng chủ yếu trong lĩnh vực này là tăng số lượng các trường phái dịch thuật, cải thiện chất lượng định dạng thông tin cung cấp cho người sử dụng, tích hợp thông tin của từ điển từ các nguồn khác nhau. Đồng thời, khi xây dựng trực tiếp cấu trúc từ điển của L-hệ thống đa ngôn ngữ như vậy, nếu số ngôn ngữ ≥ 3, sẽ xuất hiện một số vấn đề mang tính tổ hợp. Vấn đề là như sau.

Một trong những yêu cầu cơ bản đối với từ điển đa ngữ số hóa (cũng như đối với dạng khái quát kiểu L-hệ thống của nó) là tính đối xứng. Điều này có nghĩa là nếu theo phần tử đầu vào X bằng ngôn ngữ q ta nhận được phần tử đầu ra Y bằng ngôn ngữ j thì, sau khi chọn phần tử đã nêu Y làm đầu ra, nghĩa là sau khi thực hiện xử lý hệ thống, bắt buộc cần phải chính xác tiến tới phần tử X.

Đối với trường hợp nhiều ngôn ngữ hơn, dĩ nhiên là còn phức tạp hơn. Tóm lại, trên thực tế chỉ có thể tồn tại sơ đồ tương tác cặp đôi các ngôn ngữ. Như vậy, từ điển song ngữ được xác định vị trí một cách tự nhiên là cơ sở đối với việc xây dựng L-hệ thống đa ngữ. Trong trường hợp này, đòi hỏi cả xây dựng các công cụ máy tính tương ứng để đảm bảo giải quyết có hiệu quả các vấn đề nẩy sinh đối với từ điển song ngữ. Như vậy, vai trò của các hệ thống từ điển song ngữ số hóa và các phương pháp tích hợp chúng không ngừng lớn mạnh.    

2. Khái niệm cơ bản về Lhệ thống

Ở đây, các hệ thống từ điển thuộc nhóm công cụ, nghĩa là dùng để xây dựng các nguồn tài nguyên của từ điển, đóng vai trò đặc biệt quan trọng. Để giải quyết vấn đề một cách hiệu quả, nhiệm vụ này đòi hỏi hệ thống khái niệm chính thức đồng nhất, trong đó bao gồm toàn bộ các thành phần cơ bản mô hình hóa ngôn ngữ trong từ điển bằng một số cách trình bày thống nhất.

Chúng ta dừng lại ở phần trình bày cơ sở khái niệm về công cụ hỗ trợ các hệ thống từ điển song ngữ đã và đang được nghiên cứu xây dựng tại Ban lưu trữ Thông tin và ngôn ngữ Ucraina, Viện Hàn lâm Khoa học Quốc gia Ucraina. Việc thực hiện nguyên tắc mô hình hóa khái niệm đã được chúng tôi sử dụng khi nghiên cứu xây dựng toàn bộ các hệ thống theo phân loại như vậy dẫn đến tất yếu phải sử dụng các cấu trúc L-hệ thống trong kiến trúc ANSI/X3/SPARK hoặc đơn giản là ANSI/SPARK. Chúng tôi sử dụng các thành phần kiến trúc cơ bản ANSI/SPARK trong giải trình sau đây:

Chúng ta dừng lại ở việc giải thích các phần tử kiến trúc.

Mô hình khái niệm chuyên ngành (mức độ khái niệm trình bày) là mô hình ngữ nghĩa, semiotic (hiện tượng – ND), trong đó những trình bày của các chuyên gia khác nhau theo một chuyên ngành được tích hợp dưới dạng nhất quán, hữu hạn và đơn nghĩa.

Mô hình trong (mức độ trình bày bên trong) xác định thể loại, cấu trúc và định dạng cách trình bày, lưu trữ và xử lí dữ liệu, khung thuật toán và môi trường lập trình có chứa mô hình khái niệm khi thao tác máy tính.

Mô hình ngoài (mức độ trình bày bên ngoài) phản ánh quan điểm của người sử dụng đầu cuối, và do đó, của lập trình viên ứng dụng đối với hệ thống thông tin.

Các lược đồ được xây dựng sao cho biểu đồ:

giao hoán: ξ ° ψ  = φ. Yêu cầu giao hoán biểu đồ là đáng kể, bởi vì nó đảm bảo sự phối hợp chặt chẽ của toàn bộ các mức độ kiến trúc.3. Các hệ thống từ điển chính thứcChúng tôi giả định rằng toàn bộ công cụ hỗ trợ L-hệ thống đòi hỏi truy cập từ xa, đồng bộ hóa dữ liệu và phân bổ công việc cho những người sử dụng được thiết kế và nghiên cứu xây dựng theo nguyên tắc chương trình thiết kế thử nghiệm từ điển ảo trong môi trường số[2].
Đặc điểm của chương trình thiết kế thử nghiệm từ điển ảo trong môi trường số như vậy là:
  • lưu trữ tập trung và quản lí hành chính các dữ liệu từ điển;
  • tương tác giữa các chủ thể và khách thể của chương trình thiết kế thử nghiệm từ điển ảo trong môi trường số bằng chế độ thời gian thực;
  • cô lập đối với những người sử dụng đầu cuối một vài chức năng cho phép, một mặt, chuyển đến được cho người sử dụng thông tin cần thiết mới nhất, mặt khác, loại bỏ được khả năng truy cập trái phép và những tấn công mạng độc hại nào đó.

 Thực tế của vấn đề là tạo điều kiện cho các nhà ngôn ngữ hiện đang làm việc tại các cơ quan, thành phố và thậm chí các nước khác nhau có thể truy cập được các hệ thống máy tính với mục đích thực hiện một cách tập thể các dự án lớn về ngôn ngữ. Hơn nữa, xu hướng phát triển truyền thông hiện nay trên cơ sở máy tính, và trước hết, qua internet đã kích thích tăng cường hoạt động và trao đổi đối thoại về các quá trình từ điển học trên mạng.

Tổ chức hỗ trợ

Trong quá trình nghiên cứu xây dựng các hệ thống từ điển ảo, chúng tôi đã sử dụng các nguyên tắc cơ bản của cái gọi là phương pháp tiếp cận hướng hỗ trợ.

 

Hình 1. Phương pháp tiếp cận hướng hỗ trợ đối với việc xây dựng chương trình thiết kế thử nghiệm từ điển ảo trong môi trường số

 Sự phức tạp trong tương tác giữa các hệ thống từ điển là ở hai yêu cầu đối lập. Một mặt, API (giao thức kết nối từ các ngôn ngữ lập trình để sử dụng – ĐHT) biểu thị các chức năng hệ thống cần có khả năng đạt được mức độ độc lập cao và không phụ thuộc vào môi trường thực hiện. Mặt khác, lại cần duy trì khả năng tích hợp các công cụ này, tổ chức tương tác giữa chúng, đồng thời bảo tồn được tính tự chủ của chúng. Hình 1 biểu thị sơ đồ tổ chức tương tác bằng ví dụ về hỗ trợ của hai hệ thống từ điển.

L-hệ thống có kho lưu trữ dữ liệu tách biệt. Phần hỗ trợ biểu thị API, cần thiết cho việc thao tác bằng các dữ liệu này, xử lí, lọc, cải biến chúng và v.v. Đồng thời, cùng một kho lưu trữ dữ liệu có thể tồn tại một vài giao thức hỗ trợ.

Cơ sở kiến trúc của công cụ hỗ trợ là tổ chức lưu trữ của chúng mà chức năng cơ bản của tổ chức này là lọc các yêu cầu hỗ trợ, xác lập các quyền hạn dựa vào vai trò của người sử dụng. Và trực tiếp là phụ trương khách hàng cung cấp giao thức biểu đồ đối với công việc của người sử dụng. Một phụ trương khách hàng có thể xác lập liên kết với vài công cụ hỗ trợ, hơn nữa, đồng thời tích hợp chức năng của một số hệ thống từ điển.

Phương pháp tiếp cận chung đối với việc xây dựng hệ thống song ngữ

Sơ đồ khái niệm chung về xây dựng L-hệ thống song ngữ ảo tích hợp được biểu thị ở hình 2.

Ví dụ về L-hệ thống song ngữ

Việc phân tích hàng loạt từ điển song ngữ đã xác định được, theo quan điểm chúng tôi, cấu trúc bên trong tối ưu lưu trữ nguồn dữ liệu của từ điển.
Tương ứng với các thời kì cơ bản của tiểu thiết kế hệ thống, quá trình phân loại và xác định đối tượng của L-hệ thống song ngữ đã được thiết lập, thủ tục chuẩn hóa các khái niệm cơ bản và trừu tượng đã được tiến hành. Cấu trúc bên trong được biểu thị ở hình 3.

Hình 3. Cấu trúc bên trong mục từ của từ điển

Cấu trúc của hệ thống từ điển bao gồm hàng loạt các phần tử tùy ý có thể phủ đầy nội dung trình bày bên trong phần phổ biến nhất của L-hệ thống song ngữ. Vì vậy, cấu trúc nêu trên được sử dụng như cấu trúc nền. Chúng ta dừng lại ở phần các giao diện bên ngoài của hệ thống song ngữ.

Chương trình thiết kế thử nghiệm từ điển ảo không hạn chế số lượng ngôn ngữ và có thể mở rộng nhằm bổ sung các ngôn ngữ mới cho hệ thống. 

Ngôn ngữ giao thức là chức năng trong từ điển song ngữ, khác với trong từ điển đơn ngữ, chuyển đổi từ chức năng hỗ trợ tùy ý sang dạng bắt buộc và có nhiệm vụ đảm bảo thay đổi giao diện tối thiểu bằng hai ngôn ngữ.

Xác nhận đúng là thủ tục bắt buộc, bởi vì chúng ta làm việc với hệ thống đầy đủ chức năng, cho phép hiệu chỉnh và loại bỏ thông tin từ điển.

Hình 4. Đăng kí người sử dụng

 Sau khi đăng kí sử dụng thành công, chúng ta vào cửa sổ chính chương trình của hệ thống từ điển song ngữ tương ứng.

Hình 5. Giao diện bên ngoài của hệ thống từ điển song ngữ

 Người sử dụng có thể tải vài hệ thống song ngữ trên cùng một cửa sổ giao diện.

Phía bên trái cửa sổ chính là mục từ của hệ thống. Lựa chọn đơn vị cụ thể của mục từ cho phép xem lướt các mục từ trong từ điển ở dạng bình thường, gần với mục từ của từ điển in trên giấy.

Đặc điểm của hệ thống song ngữ này là trong khoảng thời gian thực, từ cơ sở các dữ liệu hình thành thêm ba mục từ, cụ thể là: mục tập hợp từ, mục các từ dịch tương đương và mục tập hợp từ dịch tương đương. Điều này đảm bảo cho việc bổ sung các mục từ của từ điển và tạo thuận lợi bằng cách thay đổi tự động hướng dịch trong phạm vi một từ điển. Ví dụ, từ tiếng Nga «Ячейка» có trong thành phần của ba mục từ của từ điển là «комірка» (ô, ngăn), «осередок» (cơ sở, chi bộ), «чарунка» (lỗ, mắt), từ tiếng Nga «хлопотать» có trong thành phần của 10 mục từ của từ điển (hình 6). 

Hình 6. Mục các từ dịch tương đương

Do vậy, khi lựa chọn tập hợp từ, người sử dụng nhận được mục từ của từ điển có chứa tập hợp từ này.

Trong mục từ có các chức năng tìm kiếm, chức năng phân loại theo trật tự thuận nghịch và chức năng lọc.

Bộ lọc cho phép tách phần mục từ “mở đầu”, “chứa đựng”, “kết thúc” hoặc “không chứa” văn bản nào đó.

Mục từ của từ điển được thể hiện dưới dạng đánh dấu nền và thay đổi dấu nền khi chọn mục từ khác. Chúng tôi có tính đến nhu cầu của người sử dụng là mong muốn thấy được đồng thời vài mục từ trong từ điển. Để thực hiện được điều này, cần phải định hình dấu nền và nó sẽ hiển thị trên màn hình, không phụ thuộc vào mục từ khác đang được hiển thị, cho đến khi người sử dụng đóng nó lại.

Hiển nhiên là có các chức năng thay đổi cỡ chữ, tìm kiếm bên trong mục từ, thay đổi dạng nền mục từ, in văn bản và, tất nhiên, hiệu chỉnh mục từ. Khi hiệu chỉnh, mục từ được biểu thị dưới dạng cây bằng truy cập trực tiếp tới phần tử cấu trúc bất kỳ (hình 7).

Hình 7. Cửa sổ hiệu chỉnh mục từ

Phương pháp tiếp cận hiệu chỉnh như vậy cho phép giám sát thông tin đầu vào, phong chống kịp thời sự hủy hoại cấu trúc và khả năng quan sát mục từ từ vị trí khác.

Việc mở rộng hệ thống chương trình thiết kế thử nghiệm từ điển ảo được thực hiện qua trình duyệt internet bằng cách sử dụng cái gọi là công nghệ ClickOnce.

Sau khi nhận được các dữ liệu xác thực cần thiết, người sử dụng làm việc với chương trình thiết kế thử nghiệm từ điển ảo từ xa với đầy đủ các chức năng được thực hiện trong điều kiện môi trường địa phương. Hơn nữa, để điều khiển phiên bản chương trình khách hàng trong trường hợp chương trình lỗi thời, có chương trình hỗ trợ tự động cập nhật.

Toàn bộ hoạt động của người sử dụng được cung cấp tài liệu qua máy chủ. Vì vậy, tại bất kì thời điểm nào cũng đều hiện thị rõ khung cảnh phát triển thực của sản phẩm từ điển, của dung lượng công việc đã được thực hiện và các sự kiện tác giả về thay đổi dữ liệu trong từ điển.

Tích hợp với các công cụ hỗ trợ khác của hệ thống từ điển

Sử dụng phương pháp tiếp cận hướng công cụ hỗ trợ đã cho phép tích hợp với các công cụ hỗ trợ từ điển khác. Trong sản phẩm của chương trình này, đã thực hiện liên kết với các công cụ hỗ trợ là từ điển giải thích nghĩa (tiếng Ucraina và tiếng Nga), từ điển ngữ pháp (tiếng Ucraina), khối liệu ngôn ngữ quốc gia Ucraina.

Khi sử dụng menu chu cảnh đối với các đơn vị đăng kí, chúng ta có thể nhận được mục từ từ từ điển ngữ pháp biểu thị hình thái từ, mục từ của từ điển giải thích nghĩa và chu cảnh của từ (ví dụ như đối với từ «добро», hình 8). Lưu ý rằng các công cụ hỗ trợ của từ điển giải thích nghĩa, từ điển ngữ pháp và khối liệu ngôn ngữ, về nguyên tắc, không nhất thiết cần cho các chức năng của từ điển song ngữ.

Đối với mỗi công cụ hỗ trợ trong số đã nêu đều có thực hiện chương trình khách hàng truy cập, cung cấp các chức năng mở rộng.

Đặc điểm như vậy cho phép nhận dạng các sơ đồ giao diện với tập hợp bất kì các chức năng của công cụ hỗ trợ.

Phiên bản thử nghiệm chương trình ảo song ngữ được xây dựng tại Ban Lưu trữ Thông tin và Ngôn ngữ Ucraina, Viện Hàn lâm Khoa học Ucraina và có thể được sử dụng làm công cụ thiết thực để phân bố khi tiến hành thực hiện các dự án quốc tế về từ điển song ngữ và đa ngữ.

 

Hình 8. Tích hợp công cụ hỗ trợ của các hệ thống từ điển khác nhau

 ĐÀO HỒNG THU dịch từ nguyên bản tiếng Nga:  Двуязычные виртуальные лексикографические лаборатории, авторы: В.А. Широков, Н.Н. Сидорчук (Украинский языково-информационный фонд Национальной академии наук Украины)

THÔNG TIN VỀ TÁC GIẢ

Giáo sư Tiến sĩ Khoa học Vladimir Anatol’evich Shirokov (Владимир Анатольевич Широков), Viện sĩ thông tấn Viện Hàn lâm Khoa học Ukraina, Giám đốc Ban Lưu trữ Thông tin – Ngôn ngữ Ukraina. Ông là nhà khoa học nghiên cứu ngôn ngữ toán và ứng dụng, từ điển học, người đặt nền móng trường phái Công nghệ Ngôn ngữ tại Ukraina; Giải thưởng Nhà nước về Khoa học và Kĩ thuật; Tác giả lí thuyết thông tin về các hệ thống từ điển. Ông là người sáng lập và quản lí chương trình điện tử “Từ điển Ukraina” đã được đề xướng do sắc lệnh của Tổng thống Ukraina năm 1999.

Tiến sĩ Nadezhda Nikolaeva Sidorchuk (Надежда Николаевна Сидорчук), cán bộ khoa học Ban Lưu trữ Thông tin – Ngôn ngữ Ukraina thuộc Viện Hàn lâm Khoa học Ukraina.

Ban Lưu trữ Thông tin – Ngôn ngữ Ukraina Viện Hàn lâm Khoa học Ukraina thành lập 21 – 5 – 1991. Xu hướng nghiên cứu khoa học chủ yếu của Ban là:

– nghiên cứu cấu trúc ngôn ngữ tự nhiên;

– thành lập và bổ sung lưu trữ cơ bản tiếng Ukraina và những thứ tiếng khác cũng như các cơ sở tri thức ngôn ngữ;

– khai thác và sáng tạo hệ thống thông tin ngôn ngữ (từ điển và sách giáo khoa truyền thống và điện tử, hệ thống giảng dạy và chuyên gia, hệ thống khai thác tự động ngôn ngữ tự nhiên);

– phối hợp tại Ukraina tất cả các nghiên cứu trong ngành ngôn ngữ học máy tính và tri nhận, từ điển học, liên hệ với các tổ chức chuyên ngành trên thế giới;

– giữ gìn và đảm bảo hoạt động đối tượng khoa học là di sản nhà nước “Cơ sở ngữ liệu từ điển nhà nước của Ban Lưu trữ Thông tin – Ngôn ngữ”. 

     ИНФОРМАЦИЯ ОБ АВТОРЕ

Владимир Анатольевич Широков, член-корреспондент НАН Украины, доктор технических наук, профессор, директор Украинского языково-информационного фонда НАН Украины. Ученый в области математической и прикладной лингвистики и лексикографии, фундатор отечественной научной школы лингвистической технологии, лауреат Государственной премии Украины в области науки и техники, автор информационной теории лексикографических систем. Он является автором и координатором электронной программы «Словари Украины», инициированной Указом Президента Украины в 1999 г.

Надежда Николаевна Сидорчук, кандидат технических наук, научный сотрудник Украинского языково-информационного фонда Национальной академии наук Украины.

Украинский языково-информационный фонд Национальной академии наук Украины основан 21.05.1991 г. Основные научные направления Украинского языково-информационного фонда:

– исследование системной структуры естественного языка;

– создание и ведение фундаментального архива украинского языка и других языков и лингвистических баз знаний;

– разработка и создание информационно-лингвистических систем (традиционных и компьютерных словарей, учебников, учебных, экспертных систем, систем автоматизированной обработки естественного языка);

– координация в Украине исследований в отрасли компьютерной и когнитивной лингвистики и лексикографии, установление связей со специализированными организациями мира в указанной отрасли;

– сохранение и обеспечение функционирования научного объекта, который является национальным достоянием: «Национальная словарная база Украинского языково-информационного фонда».

SUMMARY

This article by the two Ukrainian authors touches upon a test design of the compilation of bilingual dictionaries (based on Russian and Ukrainian language data), with the latest achievements of lexicography applying information technology. These are novelties, topical questions , though rather complex yet very necessary and worth referring to in compiling dictionaries in Vietnam today.


[1]GS TSKH В. А. Широков, TS Н. Н. Сидорчук, Ban lưu trữ Thông tin và Ngôn ngữ Ukraina, Viện Hàn lâm Khoa học Quốc gia Ukraina. 
[2] Khái niệm chương trình thiết kế thử nghiệm từ điển ảo trong môi trường số lần đầu tiên được V.A. Shirokov sử dụng trong chuyên luận “Lí thuyết thông tin về hệ thống từ điển” [Kiev, Dovira, 1998, 331 tr.].

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: