ĐÀO HỒNG THU

Welcome to my blog

Dịch tự động – quá trình hình thành và phát triển

Posted by daothu09 on September 4, 2009

Dr. Đào Hồng Thu

Trong bài “Xây dựng hệ thống dịch tự động”[1], chúng tôi đã đề cập đến tính cấp thiết và cần thiết xây dựng hệ thống dịch tự động tiếng nước ngoài – tiếng Việt – tiếng nước ngoài. Trong khuôn khổ bài báo này, chúng tôi giới thiệu một số “điểm nhấn” của quá trình hình thành và phát triển xu hướng mới – dịch tự động.

1. Sự xuất hiện của dịch tự động

Dịch tự động được hình thành như một xu hướng khoa học ứng dụng vào đầu những năm 50 thế kỉ XX, nếu không tính đến phát minh của các nhà nghiên cứu người Pháp Georges Artsrouni về thiết bị hoạt động như một từ điển cơ học và người Nga P.P.Smirnov-Trojanski đã dựa trên nguyên tắc cơ bản về từ điển cơ học, tiếp tục mã hóa và dịch văn bản bằng việc sử dụng các kí hiệu đặc trưng trong thiết bị dịch theo nguyên tắc cơ học vào năm 1933. Sự xuất hiện của dịch tự động trên máy tính được đánh dấu bằng việc vào tháng 3 năm 1947, Warren Weaver, Giám đốc Quỹ Rockefeller, lần đầu tiên đã đưa ra khái niệm về dịch tự động trong bức thư trao đổi chuyên môn với các đồng nghiệp của mình là Andrew D.Booth và Norbert Wiener. Năm 1948, Andrew D.Booth và Richard Richens đã tiến hành một vài thử nghiệm đầu tiên.

Năm 1949, Warren Weaver tiếp tục phát triển khái niệm dịch tự động trong trình thư Quỹ Rockefeller. Các ý tưởng của Warren Weaver về hệ thống dịch tự động dựa trên cơ sở khái niệm interlingva, theo đó, quá trình truyền tin được chia thành hai giai đoạn: 1) câu của ngôn ngữ đầu vào được dịch sang ngôn ngữ trung gian (được xây dựng trên cơ sở đơn giản hóa tiếng Anh), 2) kết quả dịch ở giai đoạn đầu được chuyển dịch tiếp tục sang ngôn ngữ đầu ra.

Dịch tự động được coi như là một xu hướng khoa học độc lập trên cơ sở đan xen của một số ngành khoa học như toán học, điều khiển học, ngôn ngữ học và lập trình hóa[2] sau khi Warren Weaver cho lưu truyền bản ghi nhớ “Bản dịch” đối với các chuyên gia thuộc các lĩnh vực kiến thức khác nhau[3].

2. Các thử nghiệm ban đầu

Trình thư của Warren Weaver đã gây được sự chú ý mạnh mẽ của các nhà chuyên môn về vấn đề dịch tự động. Dịch tự động được thực hiện trên máy tính. Thiết bị này lúc bấy giờ khác xa với thiết bị ngày nay. Đó là những cỗ máy khổng lồ, đắt tiền và đòi hỏi sự phục vụ của lực lượng đông đảo các kĩ sư, kĩ thuật viên và lập trình viên. Các máy tính này chủ yếu được sử dụng trong các cơ quan quân sự hoặc các khoa toán, lí của các trường đại học có liên quan đến quân sự. Vì vậy, trong thời kì đầu, dịch tự động rất được giới quân sự chú ý: ở Hoa Kì, được quan tâm chủ yếu là hướng dịch tự động văn bản Nga – Anh, còn ở Nga, các nhà chuyên môn quan tâm nhiều đến hướng dịch tự động Anh – Nga.

Năm 1952, Hội thảo lần thứ nhất về dịch tự động đã được tổ chức tại trường Đại học Công nghệ Massachusetts, Hoa Kì. Năm 1954, tại New York, công ti IBM kết hợp với trường Đại học Georgetown thử nghiệm hệ thống dịch tự động văn bản Nga – Anh đầu tiên IBM Mark I với từ điển chỉ bao gồm 250 đơn vị và 06 qui tắc ngữ pháp. Thiết bị dịch tự động Mark I bắt đầu hoạt động vào năm 1959. Tháng 10 năm 1963, Mark II được cài đặt và có thể dịch được văn bản Nga – Anh theo nguyên tắc từ – từ với tốc độ khoảng 5000 từ/giờ.     

Vào đầu những năm 50 thế kỉ XX, hàng loạt các nhóm nghiên cứu ở Hoa Kì và Châu Âu đã tập trung vào lĩnh vực dịch tự động dưới sự bảo trợ của chính phủ và các nhà đầu tư. Tuy nhiên, các kết quả nghiên cứu đã làm nản lòng các nhà đầu tư. Nguyên nhân chủ yếu của việc dịch tự động không đạt hiệu quả là do khả năng hạn chế của các phương tiện máy tính như dung lượng nhỏ, tốc độ chậm, xử lí thông tin kém, không có khả năng sử dụng ngôn ngữ lập trình ở cấp độ cao v.v. Nguyên nhân khác là do chưa có cơ sở lí luận cần thiết để giải quyết các vấn đề về ngôn ngữ cho thực hành dịch tự động, dẫn tới hệ thống dịch không thể dịch được câu trong một tổng thể nhất định. Mặc dù vậy, thời kì này cũng đã có ít nhất ba hệ thống dịch tự động được nhiều tổ chức khoa học và quân sự thường xuyên sử dụng, trong số đó có thể kể đến Ủy ban về Năng lượng hạt nhân Hoa Kì, Trung tâm Nguyên tử Châu Âu tại Itali v.v.

Trong những năm 60 thế kỉ XX, dịch tự động đã được nghiên cứu và thực hiện ở Hoa Kì, Canada và Châu Âu như Đại học Brigham Young (Hoa Kì) dưới sự tài trợ của nhà thờ đã tiến hành nghiên cứu dịch tự động Kinh Thánh, nhóm TAUM (Canada) với hệ thống METEO, các nhóm GENA và SUSY (Châu Âu).

Dịch tự động đã tiến thêm một bước đáng kể trong thời kì đầu phát triển với sự ra đời bộ xử lí ngôn ngữ ETAP của nhóm các nhà nghiên cứu Moscow (Liên Xô) I.A.Meltruc và Iu.D.Apresian. Năm 1960, tại Viện Toán Cơ Leningrad (Liên Xô) đã thành lập Phòng thử nghiệm dịch tự động, sau chuyển thành Phòng thử nghiệm ngôn ngữ toán của Đại học Tổng hợp Leningrad.

3. Giai đoạn phát triển mới

Cuối những năm 70 thế kỉ XX, cùng với sự phát triển của kĩ thuật số, dịch tự động chuyển sang giai đoạn phát triển mới: dịch tự động được nghiên cứu và thực hiện với sự tham gia của con người vào các quá trình dịch của máy. Như vậy, hệ thống dịch tự  động được xây dựng là để trợ giúp cho biên phiên dịch viên trong dịch thuật nhằm tiết kiệm thời gian và nguồn nhân lực, bởi vì “người dịch chuyên nghiệp cần phải biết vô vàn các thuật ngữ của nhiều chuyên ngành và cần phải thuộc rất nhiều tên gọi chính xác các chủng loại chi tiết, linh kiện, dụng cụ, cơ cấu, các chất v.v. khác nhau”[4]. Trong thời kì này có thể kể đến các sự kiện đánh dấu sự phát triển mới của dịch tự động như Ủy ban Cộng đồng Châu Âu (CEC) đã mua phiên bản Anh – Pháp Systran và phiên bản Nga – Anh, đặt hàng các phiên bản Pháp – Anh và Ý – Anh. Đồng thời, CEC đã tài trợ cho dự án EUROTRA trên cơ sở nghiên cứu của các nhóm SUSY và GETA. Cũng trong giai đoạn này, việc xây dựng các hệ thống dịch tự động được phát triển nhanh chóng ở Nhật Bản, Canada.

Những năm 90 thế kỉ XX đã đánh dấu sự phát triển mạnh mẽ của công nghệ thông tin và kĩ thuật số trong nhiều lĩnh vực kinh tế và xã hội. Điều này đã ảnh hưởng trực tiếp đến phát triển dịch tự động. Nhiều hệ thống dịch tự động được đưa vào sử dụng và nhanh chóng phát huy vai trò trợ thủ đắc lực trong nhiều lĩnh vực hoạt động xã hội, đặc biệt trong các lĩnh vực như dịch thuật, giao lưu quốc tế, chuyển giao công nghệ v.v.

Hiện nay, nhiều sản phẩm dịch tự động đã và đang được nhiều công ty, tổ chức trên thế giới đưa vào sử dụng như các hệ thống dịch tự động Systran, IBM, L&H (Lernout&Hauspie), Ata Software, Etap-2, Prompt v.v. với tốc độ dịch rất nhanh và độ chính xác khá cao. Từ những hệ thống đơn giản ban đầu, chủ yếu là dịch tự động Anh – Nga và Nga – Anh, nhiều hệ thống dịch tự động đã được xây dựng và dịch được văn bản với nhiều ngôn ngữ khác nhau trên thế giới.

Trong những năm gần đây, dịch tự động được tiếp tục phát triển với những nghiên cứu mới về phát triển các lôgarit để tạo tiếng nói khi dịch tự động văn bản. Tiếp theo là dịch tự động trên Internet được phát triển ở mức độ ngày càng cao. Ngày nay, nhiều trang web bằng các tiếng Anh, Đức, Nga, Nhật, Trung, Hàn đều có thể dịch trực tuyến sang các ngôn ngữ khác đang được sử dụng phổ biến trên thế giới. 

4. Logos I – phiên bản dịch tự động văn bản Anh–Việt đầu tiên

Như đã trình bày, phiên bản dịch tự động văn bản Anh – Việt đầu tiên là Logos I. Theo tài liệu nước ngoài, khi bắt đầu các trận tấn công trong chiến tranh chống Việt Nam, năm 1969 không lực Hoa Kì đã hỗ trợ Bernard E. Scott thành lập công ti Logos với mục đích tiếp tục nghiên cứu xây dựng hệ thống dịch tự động từ tiếng Anh kĩ thuật sang tiếng Việt trên cơ sở phiên bản dịch tự động Anh – Pháp. Đây cũng là phiên bản dịch tự động văn bản kĩ thuật đầu tiên từ tiếng nước ngoài sang tiếng Việt. Bernard E.Scott bắt đầu công việc chuẩn bị xây dựng hệ thống dịch tự động vào mùa xuân năm 1965 tại Viện Công nghệ máy tính, Hoa Kì. Năm 1970, Logos I được trình diễn với từ điển tự động chỉ bao gồm 1300 đơn vị từ, nhưng cũng đã đủ làm hài lòng quan chức không lực Hoa Kì để bắt đầu tiến hành dịch cho các cuộc tập sử dụng vũ khí và để tiếp tục phát triển.

Tuy nhiên, các nhà trình diễn  đã mô tả Logos I như là một hệ thống ban đầu, chưa thể phát triển thành hệ thống dịch tự động văn bản kĩ thuật và nhấn mạnh rằng văn bản đầu ra đòi hỏi hiệu đính đáng kể (Byrne et al. 1970). Một điều dễ hiểu, Logos I là phiên bản dịch tự động Anh – Việt đã được thiết kế lại từ hệ thống dịch tự động Anh – Pháp nên việc xây dựng phiên bản dịch tự động Anh – Việt không thể hoàn thiện về phân tích cấu trúc cụm từ và đạt được đủ lượng thông tin để chuyển các cấu trúc tiếng Anh sang các dạng cú pháp tiếng Việt có thể được chấp nhận.

Các nhà trình diễn cho rằng thời trong tiếng Việt rất đơn giản. Các cấu trúc tiếng Anh biến đổi sang tiếng Việt theo mô hình chuyển hóa khá đơn giản, ví dụ cấu trúc tính từ – danh từ tiếng Anh được biến đổi sang tiếng Việt thành danh từ – tính từ, dạng cụm từ có sở hữu của danh từ được biến đổi thành dạng cụm từ có of, cấu trúc bị động chuyển thành cấu trúc chủ động (vì lúc đó trong tiếng Việt chưa sử dụng cấu trúc bị động). Sự hạn chế của phiên bản dịch tự động Anh – Việt được thừa nhận là cần thiết phải có hiệu đính lại toàn bộ văn bản do có nhiều lỗi sai trong quá trình phân tích hoặc chú giải ngữ nghĩa câu.

Năm 1971, RADC (Air Force Rome Air Development Center) phát triển thiết kế hệ thống này trên máy tính IBM 360/67 với tốc độ dịch là 80 đến 100 ngàn từ /giờ.

Năm 1973, Logos I dừng hoạt động.          

Tài liệu tham khảo

  1. Apresjan Ju.D., Boguslavskij I.M., Iomdin L.L., Lazurskij A.V., Sannikov V.Z. and Tsinman L.L. (1992) The Linguistics of a Machine Translation System. Meta, 37 (1): 97-112;
  2. Hutchins W.J. (1993) An Introduction to Machine Translation. // Computational Linguistics – 1993 – N2 – Pp.383-400;
  3. Леонтьева Н.Н., Шаляпина З.М. (1990) Современное состояние машинного перевода // Искусственный интеллект. Справочник. Кн.1. Системы общения и экспертные системы. – М.;
  4. Staples, C.O. (1983) The Logos Intelligent Translation System. Waltham, Mass.: Logos Corporation. Presented at Joint Conference on Artificial Intelligence, Karlsruhe, West Germany, August 10, 1983;
  5. Byrne, C.E., Scott, B.E. and Binh, T.N. (1970) Demonstration of Logos I system for English-Vietnamese machine translation. Final technical report, Aug 1970 (RADC-TR-70-170). Griffiss AFB: RADC. (AD874612);
  6. Slocum, J. (1984) Machine translation: its history, current status, and future prospects. In: COLING 84: proceedings of the Tenth International Conference on Computational Linguistics (Stanford University), 546-561;
  7. Straub, J.R. & Rogers, C.A. (1979) Computer analysis of Basic English as a first step in machine translation. Progress in Cybernetics 5, 491-494;
  8. Tucker, A.B. & Nirenburg, S. (1984): Machine translation: a contemporary view. Annual Review of Information Science and Technology 19, 129-160;
  9. Reprinted: Whitelock, P. and Kilby, K. Linguistic and computational techniques in machine translation system design. 2nd ed. London: UCL Press, 1995.
  10. Tsujii J. Machine Translation: Productivity and Conventionality of Language // Current Issues in Linguistic Theory. Benjamins Publ. Co., Amsterdam/Philadelphia, 1997, pp. 377-392.
  11. Kozerenko, E.B. Cognitive Approach to Language Structure Segmentation for Machine Translation Algorithms // Proceedings of the International Conference on Machine Learning, Models, Technologies and Applications, June, 23-26, 2003, Las Vegas, USA.// CSREA Press, pp. 49-55, 2003.
  12. Захарова Н.А. Английский в сфере информационных технологий. English for computing: учеб. пособие / Н.А. Захарова. – М.: Флинта: Наука, 2005.
  13. Дао Хонг Тху. (2006) Проблема создания систем машинного перевода с вьетнамского/на вьетнамский язык // Прикладная лингвистика в науке и образовании. Третья международная научная конференция, 16-17 марта 2006, С-Петербург, с.49-54;
  14. Дао Хонг Тху. (2006) Машинный перевод с вьетнамского языка и на вьетнамский язык (вьетнамско-английский и англо-вьетнамский машинный перевод)// Труды международной конференции “Корпусная лингвистика-2006” 10–14 октября 2006 г., С-Петербург, изд. С-Петербургского университета, с.99-105;
  15. Đào Hồng Thu. (2008) Xây dựng hệ thống dịch tự động tiếng Việt. T/c Ngôn ngữ & Đời sống, số 11 (157) 2008, tr.17-20.

[1] T/c Ngôn ngữ & Đời sống, số 11 (157) 2008.

[2] Кулагина О.С. (1979). Исследования по машинному переводу. – М.:Наука; Hutchins W.J. (1986). Machine Translation: Past, Present, Future. Chichester, Ellis Horwood, N.Y. etc., pp.382.

[3] Loomis, W.F. (1951): Memorandum to Warren Weaver on Mechanical translation, summarizing results of letters of inquiry sent in November 1950. (Rockefeller Foundation Archives).

[4] Беляева Л.Н. Теория и практика перевода. Санкт-Петербург, 2003, с.19.

2 Responses to “Dịch tự động – quá trình hình thành và phát triển”

  1. VietSMT said

    Em chào cô. Bài viết khá thú vị. Chỉ tiếc cô chỉ focus vào các hệ dịch = rules và tương đối out-of-dated. Cô hiện có làm gì về dịch máy thống kê không cô?

  2. daothu09 said

    Chào VietSMT,
    Về dịch theo phương pháp thống kê cần có bài riêng. Cảm ơn em đã lưu ý.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: