ĐÀO HỒNG THU

Welcome to my blog

Archive for the ‘Dịch máy (tự động)’ Category

3.2. Mức độ thực hiện liệu trình khi dịch máy

Posted by daothu09 on August 19, 2018

Advertisements

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Công trình khoa học, Dịch máy (tự động) | Leave a Comment »

3. HỆ THỐNG DỊCH MÁY NHƯ BỘ PHẬN ĐẶC THÙ CỦA APTOMAT NGÔN NGỮ

Posted by daothu09 on August 7, 2018

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Công trình khoa học, Dịch máy (tự động) | Leave a Comment »

2.9. Bộ (Tiểu hệ thống) hỗ trợ dạy/học tiếng mẹ đẻ (ngoại ngữ)

Posted by daothu09 on July 30, 2018

2.9. Chuc nang NN - Ho tro day hoc_Page_12.9. Chuc nang NN - Ho tro day hoc_Page_22.9. Chuc nang NN - Ho tro day hoc_Page_32.9. Chuc nang NN - Ho tro day hoc_Page_42.9. Chuc nang NN - Ho tro day hoc_Page_5

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Công trình khoa học, Dịch máy (tự động) | Leave a Comment »

2.8. Bộ (Tiểu hệ thống) tạo lập tư liệu tự động hóa

Posted by daothu09 on July 17, 2018

2.8. Chuc nang NN - tu lieu TDH

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Công trình khoa học, Dịch máy (tự động) | Leave a Comment »

2.7. Bộ (Tiểu hệ thống) lập từ điển tự động hóa

Posted by daothu09 on July 14, 2018

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Công nghệ rượu và vi sinh, Công trình khoa học, Dịch máy (tự động) | Leave a Comment »

2.6. Bộ (Tiểu hệ thống) nhận dạng và tổng hợp lời nói

Posted by daothu09 on June 24, 2018

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Công trình khoa học, Dịch máy (tự động) | Leave a Comment »

2.5. Bộ (Tiểu hệ thống) dịch máy

Posted by daothu09 on May 29, 2018

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Công trình khoa học, Dịch máy (tự động) | Leave a Comment »

2.4. Bộ (Tiểu hệ thống) tóm tắt (chú giải) văn bản

Posted by daothu09 on May 18, 2018

2.4 Chuc nang NN - Bo chu giai van ban_Page_12.4 Chuc nang NN - Bo chu giai van ban_Page_22.4 Chuc nang NN - Bo chu giai van ban_Page_32.4 Chuc nang NN - Bo chu giai van ban_Page_42.4 Chuc nang NN - Bo chu giai van ban_Page_52.4 Chuc nang NN - Bo chu giai van ban_Page_62.4 Chuc nang NN - Bo chu giai van ban_Page_7

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Dịch máy (tự động), NGÔN NGỮ HỌC KHỐI LIỆU (Corpus Linguistics) | Leave a Comment »

2.3. Bộ (Tiểu hệ thống) tìm kiếm thông tin

Posted by daothu09 on April 26, 2018

2.3 Chuc nang NN - Bo tim kiem TT_Page_12.3 Chuc nang NN - Bo tim kiem TT_Page_22.3 Chuc nang NN - Bo tim kiem TT_Page_32.3 Chuc nang NN - Bo tim kiem TT_Page_42.3 Chuc nang NN - Bo tim kiem TT_Page_5

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Dịch máy (tự động) | Leave a Comment »

2. Chức năng cơ bản của aptomat ngôn ngữ

Posted by daothu09 on December 4, 2017

2. Chuc nang co ban cua apnn_Page_12. Chuc nang co ban cua apnn_Page_22. Chuc nang co ban cua apnn_Page_32. Chuc nang co ban cua apnn_Page_42. Chuc nang co ban cua apnn_Page_52. Chuc nang co ban cua apnn_Page_62. Chuc nang co ban cua apnn_Page_7


 

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Dịch máy (tự động) | Leave a Comment »

1.Khái niệm aptomat ngôn ngữ

Posted by daothu09 on November 21, 2017

1.Khai niem aptomat ngon ngu_Page_1

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Dịch máy (tự động) | Leave a Comment »

Aptomat ngôn ngữ trong CNTT hiện đại – Mục lục

Posted by daothu09 on November 16, 2017

Dich sach Belaeva_Page_3Dich sach Belaeva_Page_4

Posted in CÔNG NGHỆ NGÔN NGỮ (Language Technology), Dịch máy (tự động) | Leave a Comment »

VẤN ĐỀ PHÂN TÍCH TỰ ĐỘNG THUẬT NGỮ TRONG KHỐI LIỆU NGÔN NGỮ TIẾNG VIỆT – T/c Từ điển học và BKT, số 4 (12) tháng 7 – 2011

Posted by daothu09 on July 27, 2011

Dr. Dao Hong Thu

Posted in Công trình khoa học, Dịch máy (tự động), Hậu ĐHBK Hà Nội | Leave a Comment »

Dịch tự động – quá trình hình thành và phát triển

Posted by daothu09 on September 4, 2009

Dr. Đào Hồng Thu

Trong bài “Xây dựng hệ thống dịch tự động”[1], chúng tôi đã đề cập đến tính cấp thiết và cần thiết xây dựng hệ thống dịch tự động tiếng nước ngoài – tiếng Việt – tiếng nước ngoài. Trong khuôn khổ bài báo này, chúng tôi giới thiệu một số “điểm nhấn” của quá trình hình thành và phát triển xu hướng mới – dịch tự động.

1. Sự xuất hiện của dịch tự động

Dịch tự động được hình thành như một xu hướng khoa học ứng dụng vào đầu những năm 50 thế kỉ XX, nếu không tính đến phát minh của các nhà nghiên cứu người Pháp Georges Artsrouni về thiết bị hoạt động như một từ điển cơ học và người Nga P.P.Smirnov-Trojanski đã dựa trên nguyên tắc cơ bản về từ điển cơ học, tiếp tục mã hóa và dịch văn bản bằng việc sử dụng các kí hiệu đặc trưng trong thiết bị dịch theo nguyên tắc cơ học vào năm 1933. Sự xuất hiện của dịch tự động trên máy tính được đánh dấu bằng việc vào tháng 3 năm 1947, Warren Weaver, Giám đốc Quỹ Rockefeller, lần đầu tiên đã đưa ra khái niệm về dịch tự động trong bức thư trao đổi chuyên môn với các đồng nghiệp của mình là Andrew D.Booth và Norbert Wiener. Năm 1948, Andrew D.Booth và Richard Richens đã tiến hành một vài thử nghiệm đầu tiên.

Năm 1949, Warren Weaver tiếp tục phát triển khái niệm dịch tự động trong trình thư Quỹ Rockefeller. Các ý tưởng của Warren Weaver về hệ thống dịch tự động dựa trên cơ sở khái niệm interlingva, theo đó, quá trình truyền tin được chia thành hai giai đoạn: 1) câu của ngôn ngữ đầu vào được dịch sang ngôn ngữ trung gian (được xây dựng trên cơ sở đơn giản hóa tiếng Anh), 2) kết quả dịch ở giai đoạn đầu được chuyển dịch tiếp tục sang ngôn ngữ đầu ra.

Dịch tự động được coi như là một xu hướng khoa học độc lập trên cơ sở đan xen của một số ngành khoa học như toán học, điều khiển học, ngôn ngữ học và lập trình hóa[2] sau khi Warren Weaver cho lưu truyền bản ghi nhớ “Bản dịch” đối với các chuyên gia thuộc các lĩnh vực kiến thức khác nhau[3].

2. Các thử nghiệm ban đầu

Trình thư của Warren Weaver đã gây được sự chú ý mạnh mẽ của các nhà chuyên môn về vấn đề dịch tự động. Dịch tự động được thực hiện trên máy tính. Thiết bị này lúc bấy giờ khác xa với thiết bị ngày nay. Đó là những cỗ máy khổng lồ, đắt tiền và đòi hỏi sự phục vụ của lực lượng đông đảo các kĩ sư, kĩ thuật viên và lập trình viên. Các máy tính này chủ yếu được sử dụng trong các cơ quan quân sự hoặc các khoa toán, lí của các trường đại học có liên quan đến quân sự. Vì vậy, trong thời kì đầu, dịch tự động rất được giới quân sự chú ý: ở Hoa Kì, được quan tâm chủ yếu là hướng dịch tự động văn bản Nga – Anh, còn ở Nga, các nhà chuyên môn quan tâm nhiều đến hướng dịch tự động Anh – Nga.

Năm 1952, Hội thảo lần thứ nhất về dịch tự động đã được tổ chức tại trường Đại học Công nghệ Massachusetts, Hoa Kì. Năm 1954, tại New York, công ti IBM kết hợp với trường Đại học Georgetown thử nghiệm hệ thống dịch tự động văn bản Nga – Anh đầu tiên IBM Mark I với từ điển chỉ bao gồm 250 đơn vị và 06 qui tắc ngữ pháp. Thiết bị dịch tự động Mark I bắt đầu hoạt động vào năm 1959. Tháng 10 năm 1963, Mark II được cài đặt và có thể dịch được văn bản Nga – Anh theo nguyên tắc từ – từ với tốc độ khoảng 5000 từ/giờ.     

Vào đầu những năm 50 thế kỉ XX, hàng loạt các nhóm nghiên cứu ở Hoa Kì và Châu Âu đã tập trung vào lĩnh vực dịch tự động dưới sự bảo trợ của chính phủ và các nhà đầu tư. Tuy nhiên, các kết quả nghiên cứu đã làm nản lòng các nhà đầu tư. Nguyên nhân chủ yếu của việc dịch tự động không đạt hiệu quả là do khả năng hạn chế của các phương tiện máy tính như dung lượng nhỏ, tốc độ chậm, xử lí thông tin kém, không có khả năng sử dụng ngôn ngữ lập trình ở cấp độ cao v.v. Nguyên nhân khác là do chưa có cơ sở lí luận cần thiết để giải quyết các vấn đề về ngôn ngữ cho thực hành dịch tự động, dẫn tới hệ thống dịch không thể dịch được câu trong một tổng thể nhất định. Mặc dù vậy, thời kì này cũng đã có ít nhất ba hệ thống dịch tự động được nhiều tổ chức khoa học và quân sự thường xuyên sử dụng, trong số đó có thể kể đến Ủy ban về Năng lượng hạt nhân Hoa Kì, Trung tâm Nguyên tử Châu Âu tại Itali v.v.

Trong những năm 60 thế kỉ XX, dịch tự động đã được nghiên cứu và thực hiện ở Hoa Kì, Canada và Châu Âu như Đại học Brigham Young (Hoa Kì) dưới sự tài trợ của nhà thờ đã tiến hành nghiên cứu dịch tự động Kinh Thánh, nhóm TAUM (Canada) với hệ thống METEO, các nhóm GENA và SUSY (Châu Âu).

Dịch tự động đã tiến thêm một bước đáng kể trong thời kì đầu phát triển với sự ra đời bộ xử lí ngôn ngữ ETAP của nhóm các nhà nghiên cứu Moscow (Liên Xô) I.A.Meltruc và Iu.D.Apresian. Năm 1960, tại Viện Toán Cơ Leningrad (Liên Xô) đã thành lập Phòng thử nghiệm dịch tự động, sau chuyển thành Phòng thử nghiệm ngôn ngữ toán của Đại học Tổng hợp Leningrad.

3. Giai đoạn phát triển mới

Cuối những năm 70 thế kỉ XX, cùng với sự phát triển của kĩ thuật số, dịch tự động chuyển sang giai đoạn phát triển mới: dịch tự động được nghiên cứu và thực hiện với sự tham gia của con người vào các quá trình dịch của máy. Như vậy, hệ thống dịch tự  động được xây dựng là để trợ giúp cho biên phiên dịch viên trong dịch thuật nhằm tiết kiệm thời gian và nguồn nhân lực, bởi vì “người dịch chuyên nghiệp cần phải biết vô vàn các thuật ngữ của nhiều chuyên ngành và cần phải thuộc rất nhiều tên gọi chính xác các chủng loại chi tiết, linh kiện, dụng cụ, cơ cấu, các chất v.v. khác nhau”[4]. Trong thời kì này có thể kể đến các sự kiện đánh dấu sự phát triển mới của dịch tự động như Ủy ban Cộng đồng Châu Âu (CEC) đã mua phiên bản Anh – Pháp Systran và phiên bản Nga – Anh, đặt hàng các phiên bản Pháp – Anh và Ý – Anh. Đồng thời, CEC đã tài trợ cho dự án EUROTRA trên cơ sở nghiên cứu của các nhóm SUSY và GETA. Cũng trong giai đoạn này, việc xây dựng các hệ thống dịch tự động được phát triển nhanh chóng ở Nhật Bản, Canada.

Những năm 90 thế kỉ XX đã đánh dấu sự phát triển mạnh mẽ của công nghệ thông tin và kĩ thuật số trong nhiều lĩnh vực kinh tế và xã hội. Điều này đã ảnh hưởng trực tiếp đến phát triển dịch tự động. Nhiều hệ thống dịch tự động được đưa vào sử dụng và nhanh chóng phát huy vai trò trợ thủ đắc lực trong nhiều lĩnh vực hoạt động xã hội, đặc biệt trong các lĩnh vực như dịch thuật, giao lưu quốc tế, chuyển giao công nghệ v.v.

Hiện nay, nhiều sản phẩm dịch tự động đã và đang được nhiều công ty, tổ chức trên thế giới đưa vào sử dụng như các hệ thống dịch tự động Systran, IBM, L&H (Lernout&Hauspie), Ata Software, Etap-2, Prompt v.v. với tốc độ dịch rất nhanh và độ chính xác khá cao. Từ những hệ thống đơn giản ban đầu, chủ yếu là dịch tự động Anh – Nga và Nga – Anh, nhiều hệ thống dịch tự động đã được xây dựng và dịch được văn bản với nhiều ngôn ngữ khác nhau trên thế giới.

Trong những năm gần đây, dịch tự động được tiếp tục phát triển với những nghiên cứu mới về phát triển các lôgarit để tạo tiếng nói khi dịch tự động văn bản. Tiếp theo là dịch tự động trên Internet được phát triển ở mức độ ngày càng cao. Ngày nay, nhiều trang web bằng các tiếng Anh, Đức, Nga, Nhật, Trung, Hàn đều có thể dịch trực tuyến sang các ngôn ngữ khác đang được sử dụng phổ biến trên thế giới. 

4. Logos I – phiên bản dịch tự động văn bản Anh–Việt đầu tiên

Như đã trình bày, phiên bản dịch tự động văn bản Anh – Việt đầu tiên là Logos I. Theo tài liệu nước ngoài, khi bắt đầu các trận tấn công trong chiến tranh chống Việt Nam, năm 1969 không lực Hoa Kì đã hỗ trợ Bernard E. Scott thành lập công ti Logos với mục đích tiếp tục nghiên cứu xây dựng hệ thống dịch tự động từ tiếng Anh kĩ thuật sang tiếng Việt trên cơ sở phiên bản dịch tự động Anh – Pháp. Đây cũng là phiên bản dịch tự động văn bản kĩ thuật đầu tiên từ tiếng nước ngoài sang tiếng Việt. Bernard E.Scott bắt đầu công việc chuẩn bị xây dựng hệ thống dịch tự động vào mùa xuân năm 1965 tại Viện Công nghệ máy tính, Hoa Kì. Năm 1970, Logos I được trình diễn với từ điển tự động chỉ bao gồm 1300 đơn vị từ, nhưng cũng đã đủ làm hài lòng quan chức không lực Hoa Kì để bắt đầu tiến hành dịch cho các cuộc tập sử dụng vũ khí và để tiếp tục phát triển.

Tuy nhiên, các nhà trình diễn  đã mô tả Logos I như là một hệ thống ban đầu, chưa thể phát triển thành hệ thống dịch tự động văn bản kĩ thuật và nhấn mạnh rằng văn bản đầu ra đòi hỏi hiệu đính đáng kể (Byrne et al. 1970). Một điều dễ hiểu, Logos I là phiên bản dịch tự động Anh – Việt đã được thiết kế lại từ hệ thống dịch tự động Anh – Pháp nên việc xây dựng phiên bản dịch tự động Anh – Việt không thể hoàn thiện về phân tích cấu trúc cụm từ và đạt được đủ lượng thông tin để chuyển các cấu trúc tiếng Anh sang các dạng cú pháp tiếng Việt có thể được chấp nhận.

Các nhà trình diễn cho rằng thời trong tiếng Việt rất đơn giản. Các cấu trúc tiếng Anh biến đổi sang tiếng Việt theo mô hình chuyển hóa khá đơn giản, ví dụ cấu trúc tính từ – danh từ tiếng Anh được biến đổi sang tiếng Việt thành danh từ – tính từ, dạng cụm từ có sở hữu của danh từ được biến đổi thành dạng cụm từ có of, cấu trúc bị động chuyển thành cấu trúc chủ động (vì lúc đó trong tiếng Việt chưa sử dụng cấu trúc bị động). Sự hạn chế của phiên bản dịch tự động Anh – Việt được thừa nhận là cần thiết phải có hiệu đính lại toàn bộ văn bản do có nhiều lỗi sai trong quá trình phân tích hoặc chú giải ngữ nghĩa câu.

Năm 1971, RADC (Air Force Rome Air Development Center) phát triển thiết kế hệ thống này trên máy tính IBM 360/67 với tốc độ dịch là 80 đến 100 ngàn từ /giờ.

Năm 1973, Logos I dừng hoạt động.          

Tài liệu tham khảo

  1. Apresjan Ju.D., Boguslavskij I.M., Iomdin L.L., Lazurskij A.V., Sannikov V.Z. and Tsinman L.L. (1992) The Linguistics of a Machine Translation System. Meta, 37 (1): 97-112;
  2. Hutchins W.J. (1993) An Introduction to Machine Translation. // Computational Linguistics – 1993 – N2 – Pp.383-400;
  3. Леонтьева Н.Н., Шаляпина З.М. (1990) Современное состояние машинного перевода // Искусственный интеллект. Справочник. Кн.1. Системы общения и экспертные системы. – М.;
  4. Staples, C.O. (1983) The Logos Intelligent Translation System. Waltham, Mass.: Logos Corporation. Presented at Joint Conference on Artificial Intelligence, Karlsruhe, West Germany, August 10, 1983;
  5. Byrne, C.E., Scott, B.E. and Binh, T.N. (1970) Demonstration of Logos I system for English-Vietnamese machine translation. Final technical report, Aug 1970 (RADC-TR-70-170). Griffiss AFB: RADC. (AD874612);
  6. Slocum, J. (1984) Machine translation: its history, current status, and future prospects. In: COLING 84: proceedings of the Tenth International Conference on Computational Linguistics (Stanford University), 546-561;
  7. Straub, J.R. & Rogers, C.A. (1979) Computer analysis of Basic English as a first step in machine translation. Progress in Cybernetics 5, 491-494;
  8. Tucker, A.B. & Nirenburg, S. (1984): Machine translation: a contemporary view. Annual Review of Information Science and Technology 19, 129-160;
  9. Reprinted: Whitelock, P. and Kilby, K. Linguistic and computational techniques in machine translation system design. 2nd ed. London: UCL Press, 1995.
  10. Tsujii J. Machine Translation: Productivity and Conventionality of Language // Current Issues in Linguistic Theory. Benjamins Publ. Co., Amsterdam/Philadelphia, 1997, pp. 377-392.
  11. Kozerenko, E.B. Cognitive Approach to Language Structure Segmentation for Machine Translation Algorithms // Proceedings of the International Conference on Machine Learning, Models, Technologies and Applications, June, 23-26, 2003, Las Vegas, USA.// CSREA Press, pp. 49-55, 2003.
  12. Захарова Н.А. Английский в сфере информационных технологий. English for computing: учеб. пособие / Н.А. Захарова. – М.: Флинта: Наука, 2005.
  13. Дао Хонг Тху. (2006) Проблема создания систем машинного перевода с вьетнамского/на вьетнамский язык // Прикладная лингвистика в науке и образовании. Третья международная научная конференция, 16-17 марта 2006, С-Петербург, с.49-54;
  14. Дао Хонг Тху. (2006) Машинный перевод с вьетнамского языка и на вьетнамский язык (вьетнамско-английский и англо-вьетнамский машинный перевод)// Труды международной конференции “Корпусная лингвистика-2006” 10–14 октября 2006 г., С-Петербург, изд. С-Петербургского университета, с.99-105;
  15. Đào Hồng Thu. (2008) Xây dựng hệ thống dịch tự động tiếng Việt. T/c Ngôn ngữ & Đời sống, số 11 (157) 2008, tr.17-20.

[1] T/c Ngôn ngữ & Đời sống, số 11 (157) 2008.

[2] Кулагина О.С. (1979). Исследования по машинному переводу. – М.:Наука; Hutchins W.J. (1986). Machine Translation: Past, Present, Future. Chichester, Ellis Horwood, N.Y. etc., pp.382.

[3] Loomis, W.F. (1951): Memorandum to Warren Weaver on Mechanical translation, summarizing results of letters of inquiry sent in November 1950. (Rockefeller Foundation Archives).

[4] Беляева Л.Н. Теория и практика перевода. Санкт-Петербург, 2003, с.19.

Posted in Dịch máy (tự động) | 2 Comments »

Xây dựng hệ thống dịch tự động tiếng Việt

Posted by daothu09 on September 2, 2009

41. Bai bao 11-08 (VN)    41. Bai bao 11-08 (1)

Đào Hồng Thu, Ph.D.

Đại học Bách khoa Hà Nội

1. Mở đầu 

Hơn nửa thế kỉ đã trôi qua kể từ thời điểm dịch tự động được hình thành như một xu hướng khoa học độc lập[1]. Trong toàn bộ lịch sử tồn tại của mình, dịch tự động đã trải qua nhiều thăng trầm nhất định.[2] Và mặc dù còn tồn tại không ít hạn chế về các khả năng hoạt động của hệ thống dịch tự động, vấn đề về xây dựng các hệ thống dịch bằng máy vẫn đang ngày càng thu hút sự chú ý của các nhà nghiên cứu chúng.[3]  

Hệ thống dịch tự động được phát triển liên tục từ các chương trình đơn giản nhất với việc sử dụng nguồn máy tính hạn chế, đến các hệ thống hiện đại với nguồn máy tính dồi dào và hiện đại nhất để trợ giúp cho biên phiên dịch viên. Lượng thông tin khổng lồ trong tiến trình khu vực hóa và toàn cầu hóa ngày nay đòi hỏi tự động hóa việc giải quyết một loạt vấn đề nhất định ở các phạm vi hoạt động xã hội khác nhau. Dịch tự động (dịch bằng máy) hiện nay được coi là mấu chốt trong các vấn đề kinh tế và xã hội của các quốc gia thời đại giao tiếp thông tin quốc tế, mặc dù khả năng sử dụng các hệ thống dịch trên cơ sở máy tính còn tồn tại những hạn chế nhất định.

2. Tính cấp thiết của việc xây dựng các hệ thống dịch tự động từ tiếng nước ngoài ra tiếng Việt và ngược lại 

Vấn đề dịch tự động từ tiếng nước ngoài ra tiếng Việt được bắt đầu nghiên cứu vào những năm 60 thế kỉ XX. Theo các tài liệu nước ngoài[4], dưới sự bảo trợ của không lực Hoa Kì, năm 1969 công ty Logos đã được thành lập bởi Bernard E. Scott với mục đích tiếp tục nghiên cứu việc tổ chức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt. Scott bắt đầu chuẩn bị cho việc tổ chức hệ thống dịch tự động này vào mùa xuân năm 1965 tại Viện công nghệ máy tính tại New York, USA. Tháng 6 năm 1970 hệ thống dịch tự động Logos I ra đời với từ điển tự động hóa hỗ trợ chỉ bao gồm hơn 1000 từ tiếng Việt. Việc nghiên cứu hệ thống dịch tự động này chấm dứt vào năm 1973.

Gần như đồng thời, vào đầu những năm 70 thế kỉ XX, một dự án khác về xây dựng hệ thống dịch tự động từ tiếng Anh ra tiếng Việt đã được tiến hành tại Tập đoàn viễn thông Xyzyx, California. Hệ thống này đầu tiên được xây dựng để dịch văn bản Anh – Pháp về vũ trụ học trên máy IBМ 360 theo nguyên tắc hoạt động, về cơ bản, tương tự như của hệ thống Logos và của phiên bản Systran những năm 70 thế kỉ XX.[5]

Có thể nói rằng, cùng với sự phát triển của các thế hệ máy tính, dịch tự động từ tiếng nước ngoài (chủ yếu là tiếng Anh) ra tiếng Việt được bắt đầu nghiên cứu ở Việt Nam từ cuối những năm 80 thế kỉ XX. Trong những năm gần đây, việc sử dụng được ngoại ngữ trong giao lưu quốc tế đóng vai trò ngày càng quan trọng. Nhiều loại từ điển điện tử, các loại sách song ngữ đã và đang được hình thành nhằm phục vụ cho việc dạy và học ngoại ngữ. Một số nhóm gồm các lập trình viên đã bắt đầu nghiên cứu tổ chức hệ thống dịch tự động từ tiếng Anh ra tiếng Việt (ví dụ, EVTrans, nhóm nghiên cứu về tổ chức dịch tự động của Trường Khoa học Tự nhiên – Đại học Quốc gia, Thành phố Hồ Chí Minh).

Trong khi các nhà ngôn ngữ chưa hoàn toàn sẵn sàng cho việc tổ chức phần mềm dịch tự động thì có quan niệm cho rằng nhà ngôn ngữ chỉ cần mô tả các hiện tượng ngôn ngữ, còn thành lập lôgarit dịch là phần việc của lập trình viên. Tuy nhiên, thực tế đã cho thấy rằng quan niệm trên không phải là đã chính xác. Điều này thể hiện ở chỗ, cho đến nay Việt Nam vẫn chưa có một hệ thống dịch tự động Tiếng nước ngoài – Tiếng Việt – Tiếng nước ngoài nào có độ chuẩn xác cao như ETAP, PROMT, SILOD v.v.

Dịch tự động là dạng đặc biệt trong hoạt động dịch thuật của biên phiên dịch viên. Đồng thời, dịch tự động là phương tiện đặc biệt trong giao tiếp giữa các ngôn ngữ và cung cấp thông tin kinh tế, xã hội hiện đại cần thiết không những chỉ đối với các quốc gia trên toàn thế giới, mà còn cần thiết đối với cá nhân mỗi con người trong hoạt động đời sống xã hội của mình. 

Là một nước đang phát triển, Việt Nam cần sử dụng nhiều công nghệ tiên tiến của thế giới. Trong số các công nghệ tiên tiến đang được các nước trên thế giới sử dụng nhiều nhất hiện nay có công nghệ dịch tự động. Việc cần thiết sử dụng các hệ thống dịch tự động tiếng Việt Nam bắt nguồn từ hàng loạt các nguyên nhân khách quan. Thứ nhất, ở Việt Nam hiện nay, tăng mạnh nhu cầu đọc nhanh để lấy được nhiều thông tin mới, bổ ích, đặc biệt là các thông tin về khoa học, công nghệ và kĩ thuật mới trong các nước tiên tiến trên thế giới. Thứ hai, trong tất cả các trường học và công sở của Việt Nam ngày càng đòi hỏi sự nắm vững tiếng Anh như một phương tiện cần thiết trong giao tiếp giữa các ngôn ngữ. Thứ ba, nhu cầu giao lưu bằng nhiều ngoại ngữ về chuyên ngành khoa học ngày càng tăng. Thứ tư, sự phát triển của công nghệ máy tính và Internet đã thúc đẩy nhu cầu khai thác thông tin trên nhiều trang web, bằng nhiều ngôn ngữ khác nhau.

Cần thừa nhận rằng dịch tự động không thể thay thế hoàn toàn việc dịch thuật được thực hiện bởi con người. Tuy nhiên, nhờ hệ thống tự động trong chương trình dịch bằng máy, có thể nâng cao đáng kể hiệu quả lao động của người dịch và chất lượng của cán bộ chuyên ngành. Ngày nay, dịch tự động đã phát triển đến mức có thể thực hiện dịch trực tiếp trên mạng. Tuy vậy, trong số các ngôn ngữ có thể dịch tự động trực tuyến, chưa có tiếng Việt.

Rõ ràng rằng trong các điều kiện hiện nay, khi “người dịch chuyên nghiệp cần phải biết vô vàn các thuật ngữ của nhiều chuyên ngành và cần phải thuộc rất nhiều tên gọi chính xác các chủng loại chi tiết, linh kiện, dụng cụ, cơ cấu, các chất v.v. khác nhau[6]“, thì một phiên dịch viên dù giỏi đến đâu cũng không thể cập nhật hết được một lượng thông tin khổng lồ trong nền kinh tế toàn cầu phát triển như vũ bão. Lúc này, việc sử dụng dịch tự động để trợ giúp cho quá trình dịch thuật là tất yếu và cần thiết.

3. Lời cuối

Hiện nay, việc xây dựng hệ thống dịch tự động bằng tiếng Việt là rất cần thiết để đáp ứng nhu cầu to lớn của sự phát triển kinh tế và xã hội mang tính chất toàn cầu.

Trên thực tế còn chưa có các số liệu về khả năng xây dựng được hệ thống dịch tự động hóa hoàn toàn có thể đảm bảo chất lượng dịch cao mà không đòi hỏi bất cứ sự hiệu đính nào. Vì vậy, khi xây dựng hệ thống dịch tự động cần phải tính đến các yêu cầu thực tế của người sử dụng hệ thống và khả năng mô hình hóa quá trình tư duy lời nói của chương trình hỗ trợ dịch tự động[7].

TÀI LIỆU THAM KHẢO 

  1. Байрамова Л.К. Вопросы машинного перевода. Казань, 1973.- 96 с.
  2. Бельская И.К. Язык человека и машина. М., 1969. – 410 с.
  3. Беляева Л.Н.Теория и практика перевода. Санкт-Петербург, 2003. – 84c.
  4. Зубов А.В., Зубова И.И. Информационные технологии в лингвистике. М., 2004. – 204 с. 
  5. Кулагина О. С. Машинный перевод: современное состояние.// В сб.: Семиотика и информатика. Вып. 29. // М., ВИНИТИ, 1989.
  6.   Дорот В., Новиков Ф. Толковый словарь современной компьютерной лексики. БХВ – Пет., 2001. – 512 с.
  7. Марчук Ю.Н. Проблемы машинного перевода. М., 1983. – 233с.
  8. Microsoft Press. Толковый словарь по вычислительной технике. М., Русская редакция, 1995. – 496 с. 
  9. Нелюбин Л.Л. Компьютерная лингвистика и машинный перевод. М., 1991, 151 стр.
  10. Стеблин-Каменский М. И. Значение машинного перевода для языкознания. // В сб.: Материалы по машинному переводу. Сб. 1. // Л., Изд. ЛГУ, 1958.
  11. Федоров А.В. Основы общей теории перевода. М., 1983.
  12.  Холзнер С. – Perl : Специальный справочник. СПб: Питер, 2001. – 496с.
  13. Grover, C., Carroll, J. and Briscoe, T. The Alvey Natural Language Tools Grammar (4-th Release). University of Cambridge, 1993.
  14.  Kay M. The Proper Place of Men and Machines in Language Translation. Working paper CSL – 80 – 11. Xerox PARC, 1980
  15.  Machine Translation – Theoretical and methodological issues. Ed. by Sergei Nirenburg. Cambridge, 1987. – 350 c.
  16.  Hutchins W.J. Machine Translation: past, present, future // Ellis Horwood Series in Computers and their Applications – Wiley, Halsted Press, 1986. – 382pp.
  17. Дао Хонг Тху. Проблема создания систем машинного перевода с вьетнамского / на вьетнамский язык – Прикладная лингвистика в науке и образовании. Третья международная научная конференция, 16-17 марта 2006, С-Петербург, с.49-54;
  18. Дао Хонг Тху. Машинный перевод с вьетнамского языка и на вьетнамский язык (вьетнамско-английский и англо-вьетнамский машинный перевод) – Труды международной конференции “Корпусная лингвистика – 2006” 10–14 октября 2006 г., С-Петербург, изд. С-Петербургского университета, 2006, с.99-105.

[1] Dịch tự động được coi như là một xu hướng khoa học độc lập từ đầu những năm 50 thế kỉ XX trên cơ sở đan xen của một số ngành khoa học như toán học, điều khiển học, ngôn ngữ học và lập trình hóa sau khi Warren Weaver cho lưu truyền bản ghi nhớ “Bản dịch” đối với các chuyên gia thuộc các lĩnh vực kiến thức khác nhau. [Hutchins W.J., 1986; Кулагина О. С., 1979].

[2] Hutchins W.J. Machine Translation: past, present, future // Ellis Horwood Series in Computers and their Applications – Wiley, Halsted Press, 1986. – 382 pp.

[3] Беляева Л.Н. Теория и практика перевода. – Санкт – Петербург, 2003. – стр.4-7

[4] Hutchins W.J. Machine Translation: past, present, future // Ellis Horwood Series in Computers and their Applications – Wiley, Halsted Press, 1986. – 382 pp. – §12.2.Logos Development Corporation (1969-78)

[5] Дао Хонг Тху. Проблема создания систем машинного перевода с вьетнамского / на вьетнамский язык – Прикладная лингвистика в науке и образовании. Третья международная научная конференция, 16-17 марта 2006, С-Петербург, с.49-54;

[6] Беляева Л.Н. Теория и практика перевода. Санкт-Петербург, 2003, с.19.

[7] Беляева Л.Н. Лингвистические автоматы в современных информационных технологиях. – Санкт – Петербург, 2001. – cтр.50

Posted in Dịch máy (tự động) | Leave a Comment »