ĐÀO HỒNG THU

Welcome to my blog

NGÔN NGỮ HỌC KHỐI LIỆU TRONG NỀN KINH TẾ HỘI NHẬP

Posted by daothu09 on May 23, 2010

        

TS. ĐÀO HỒNG THU 

Sự ra đời và phát triển mạnh mẽ của công nghệ máy tính đã dẫn tới sự ra đời và phát triển của hàng loạt các lĩnh vực hoạt động khoa học và công nghệ khác, trong đó có lĩnh vực hoạt động của ngôn ngữ học khối liệu. Song song với sự phát triển không ngừng của các thế hệ công nghệ máy tính, trong ngôn ngữ ứng dụng hình thành xu hướng phát triển ngôn ngữ mới – ngôn ngữ khối liệu (corpus linguistics). Từ “khối liệu” lần đầu tiên được sử dụng như một thuật ngữ khoa học vào năm 1961[1] để chỉ khái niệm cơ bản của ngôn ngữ học khối liệu. Trong khuôn khổ bài báo, chúng tôi sơ bộ đề cập đến các khái niệm cơ bản về một khoa học xuất hiện vào nửa cuối thế kỉ vừa qua và tính tất yếu của nó trong nền kinh tế hội nhập của Việt Nam hiện nay.   

1.     Cơ sở khái niệm 

Về nguyên tắc, một tập hợp bất kì các văn bản đều có thể được gọi là khối liệu (corpus). Theo tiếng La tinh, corpus có nghĩa là “any body of text”[2] (khối văn bản bất kì – ĐHT dịch). Tuy nhiên, thuật ngữ corpus khi được sử dụng trong ngữ cảnh cụ thể của ngôn ngữ học hiện đại, cụ thể là trong ngôn ngữ học máy tính, sẽ có ý nghĩa đặc trưng hơn nhiều so với định nghĩa đơn giản vừa nêu trên. Nếu nhìn nhận từ góc độ corpus là cơ sở của ngôn ngữ học khối liệu – khoa học nghiên cứu các phương pháp xây dựng và sử dụng khối liệu ngôn ngữ với sự trợ giúp của công nghệ máy tính, – có thể dựa vào bốn đặc điểm cơ bản sau đây để định nghĩa khối liệu ngôn ngữ: 

  • Bao gồm các model điển hình. Nếu là khối liệu của hai ngôn ngữ thì cần bao gồm các model tương đồng điển hình;
  • Có kích cỡ xác định;
  • Ở dạng đọc được trên máy tính;
  • Có các chú giải chuẩn về mặt ngôn ngữ.

Có thể nói rằng ngôn ngữ học khối liệu xuất hiện vào đầu thập kỉ 60 của thế kỉ XX cùng với sự xuất hiện khối liệu đầu tiên tại Mĩ và bắt đầu phát triển trong vòng hai thập kỉ trở lại đây. Căn cứ vào bản chất và hoạt động ngôn ngữ của khối liệu, có thể định nghĩa khối liệu là tập hợp các dữ liệu tương đồng về mặt ngôn ngữ, được trình bày dưới dạng model văn bản điện tử, theo các cấu trúc nhất định và được sử dụng để giải quyết các vấn đề ngôn ngữ cụ thể. Khối liệu trong ngôn ngữ học máy tính bao gồm cả hệ thống điều chỉnh dữ liệu của văn bản nhằm giúp người sử dụng tìm kiếm được các thông tin cần thiết một cách nhanh chóng và dễ dàng. Đối với các nhà nghiên cứu ngôn ngữ, sử dụng khối liệu sẽ tiết kiệm được rất nhiều thời gian và công sức. 

Cho đến nay, ngôn ngữ học khối liệu ngày càng có xu hướng phát triển mạnh mẽ cùng với sự phát triển của công nghệ thông tin. Là một bộ phận của ngôn ngữ học ứng dụng, ngôn ngữ học khối liệu hiện nay đang được nâng cao hiệu quả về thực hành và hoàn thiện về lí thuyết. Ngôn ngữ học khối liệu đóng vai trò ngày càng quan trọng trong nền kinh tế hội nhập của các nước trên thế giới khi các lĩnh vực khoa học và công nghệ phát triển mạnh. Ngôn ngữ khối liệu là ngôn ngữ bất kì tham gia vào thành phần của khối liệu. Có thể nói rằng khối liệu đang được các nhà ngôn ngữ ứng dụng, các chuyên gia ngôn ngữ – lí luận, ngôn ngữ máy tính, các giảng viên và các chuyên gia thuộc nhiều lĩnh vực khoa học và đời sống khác nhau sử dụng rộng rãi.   

2.     Ngôn ngữ học khối liệu trong nền kinh tế hội nhập của Việt Nam 

Hiện nay, khi Việt Nam đã gia nhập WTO và xuất hiện sự cần thiết phải thực hiện giao lưu để trao đổi thông tin ở mức độ giao tiếp bằng các ngôn ngữ trên phạm vi toàn thế giới thì điều thiết yếu để đảm bảo cho nền kinh tế Việt Nam phát triển trong việc hội nhập kinh tế thế giới là cần có hệ thống khối liệu ngôn ngữ quốc gia nhằm phục vụ các lĩnh vực liên quan đến nghiên cứu khoa học, giảng dạy, cập nhật thông tin trong và ngoài nước v.v. 

Một vấn đề quan trọng khác là trong các điều kiện hiện nay, khi “người phiên dịch chuyên nghiệp cần phải biết vô vàn các thuật ngữ của nhiều chuyên ngành và cần phải thuộc rất nhiều tên gọi chính xác các chủng loại chi tiết, linh kiện, dụng cụ, cơ cấu, các chất v.v. khác nhau[3]“, thì một phiên dịch viên dù giỏi đến đâu cũng không thể cập nhật hết được một lượng thông tin khổng lồ trong nền kinh tế toàn cầu phát triển như vũ bão. Lúc này, việc sử dụng khối liệu ngôn ngữ để trợ giúp cho quá trình dịch thuật là tất yếu và cần thiết. 

Khối liệu là công cụ để xây dựng, điều chỉnh và bổ sung các hệ thống tự động hóa khác nhau như dịch tự động, nhận dạng lời nói, tìm kiếm thông tin. Ví dụ, tìm kiếm trong khối liệu các dữ liệu theo một từ bất kì có thể tạo ra được cả một danh mục liệt kê tất cả các trường hợp có sử dụng từ đó với đầy đủ thông tin về nguồn gốc dữ liệu. Tại nhiều nước trên thế giới như Anh, Mĩ, Nhật, Đức, Nga, Trung Quốc v.v., vấn đề nghiên cứu và sử dụng hữu hiệu các khối liệu đã và đang nhận được sự quan tâm đặc biệt từ phía các cơ quan quốc gia. Chất lượng website của các nước này là ví dụ điển hình. Một ví dụ khác là việc dạy và học tiếng Anh ngày nay đạt hiệu quả, trong đó một phần đáng kể là nhờ sự trợ giúp của công nghệ máy tính với việc sử dụng các khối liệu ngôn ngữ. Có thể kể đến các khối liệu quan trọng như Bank of English 1997 với 320 triệu đơn vị từ và cụm từ sử dụng hoặc ICLE 1997 với 200 triệu đơn vị từ và cụm từ sử dụng dưới dạng viết dành cho người nước ngoài[4].      

Trong thập kỉ vừa qua, tại nhiều quốc gia đã và đang tiến hành việc xây dựng khối liệu ngôn ngữ trên cơ sở bản ngữ. Trong đó, mạnh mẽ hơn cả là công trình xây dựng khối liệu tiếng Anh, xuất hiện lần đầu tiên vào những năm 60, thế kỉ XX, điển hình là Brown University Corpus và Lancaster/Oslo-Bergen Corpus (LOB). Mỗi khối liệu này chứa khoảng 1 triệu đơn vị từ và cụm từ sử dụng với sơ đồ hình thái học. Ngoài ra, Lancaster/Oslo-Bergen Corpus còn chứa 2 khối liệu con là Leeds-Lancaster Treebank và Lancaster Parsed Corpus với sơ đồ cú pháp học. Khối liệu ngôn ngữ Anh Quốc (BNC) chứa đến 100 triệu đơn vị từ và cụm từ sử dụng cũng được coi là một trong số cá khối liệu lớn nhất hiện nay. Khối liệu này được xây dựng vào những năm 90, thế kỉ XX trên cơ sở sơ đồ hình thái học, bao gồm khoảng 90% đơn vị từ và cụm từ sử dụng ở dạng viết, 10% số đơn vị còn lại ở dạng nói. Ngoài các khối liệu kể trên, còn tồn tại hàng loạt khối liệu tiếng Anh khác được sử dụng cho việc nghiên cứu bằng tiếng Anh, cho việc dạy và học tiếng Anh như một ngoại ngữ.[5] 

 Đối với các nước châu Âu khác, trong số các khối liệu ngôn ngữ phổ biến, cần kể đến khối liệu tiếng Đức. Đây là tập hợp lớn nhất các văn bản và ngôn bản bằng tiếng Đức, bao gồm khoảng 2 tỉ đơn vị từ và cụm từ sử dụng. Khối liệu này chứa sơ đồ hình thái-cú pháp học dựa trên cơ sở SGML (Standard Generalized Markup Language). Hệ thống tự động hóa COSMAS II của khối liệu tiếng Đức cho phép người sử dụng dễ dàng tìm kiếm thống tin chứa trong khối liệu này theo các dấu hiệu tình thái học của dạng từ. Một hệ thống khác cũng cần kể đến là khối liệu tiếng Tiệp với 100 triệu đơn vị từ và cụm từ sử dụng. Ở đây, chương trình ngôn ngữ hỗ trợ cho khối liệu là chương trình tạo lập danh mục từ và cụm từ trong khối liệu cho phép cập nhật toàn bộ các ví dụ sử dụng với đầy đủ trích dẫn, tần số xuất hiện, phân tích ngữ pháp từ hoặc cụm từ sử dụng trong khối liệu.[6] 

Đối với các nước châu Á, Trung Quốc và Nhật Bản là những nước có các khối liệu bản ngữ lớn nhất. Khối liệu tiếng Trung chứa 1 tỷ đơn vị từ và cụm từ, đang được sử dụng rất rộng rãi và hữu hiệu.[7]        

Tại Nga, ngôn ngữ học khối liệu được bắt đầu nghiên cứu mới chỉ trong vòng hơn thập kỉ trở lại đây, nhưng với tốc độ rất nhanh về thực hành, chuẩn xác về lí thuyết. Hiện nay, khoa học về khối liệu ngôn ngữ đang được giảng dạy tại các trường đại học lớn và nghiên cứu tích cực tại các viện nghiên cứu ngôn ngữ của Liên bang Nga nhằm phục vụ cho một nền kinh tế tăng trưởng. Trong vòng 5-6 năm trở lại đây, ngôn ngữ khối liệu được đặc biệt quan tâm nghiên cứu và phát triển. Các khối liệu tại Nga được sử dụng rộng rãi trong các lĩnh vực của ngôn ngữ học ứng dụng, từ vựng học, dạy và học ngoại ngữ, ngôn ngữ học máy tính và các lĩnh vực khoa học xã hội khác. Khối liệu tiếng Nga đến nay đã tăng lượng đáng kể các đơn vị từ và cụm từ sử dụng, mở rộng phạm vi sử dụng ngôn ngữ trong nhiều lĩnh vực khoa học khác nhau. 

Đối với Việt Nam, việc xây dựng khối liệu tiếng Việt (nội dung cụ thể sẽ được trình bày trong một bài báo khác) là cần thiết và cấp bách trong nền kinh tế hội nhập quốc tế hiện nay. Khối liệu tiếng Việt có quan hệ trực tiếp đến các hoạt động xã hội, do đó, sẽ đem lại hiệu quả cho các hoạt động nói trên. Khối liệu tiếng Việt sẽ phát huy vai trò và tác dụng trong lĩnh vực quảng cáo các thương hiệu của Việt Nam trên thương trường quốc tế. Xây dựng khối liệu ngôn ngữ đòi hỏi phải xác định và chuyển chính xác nghĩa của từng văn bản cụ thể vào khối liệu, giúp người sử dụng cập nhật chính xác thông tin tìm kiếm. 

Trong điều kiện thông tin quốc tế, sự cần thiết xây dựng các khối liệu tiếng Việt – tiếng nước ngoài liên quan trực tiếp đến các lĩnh vực dịch thuật và dạy-học ngoại ngữ do các nguyên nhân chủ yếu sau đây: 

  • Số lượng sách đọc bằng tiếng nước ngoài trong các thư viện rất lớn, trong khi số người vào thư viện để ngồi đọc sách là không đáng kể;
  • Phần lớn học sinh, sinh viên Việt Nam hoặc người nước ngoài học tiếng Việt có nhu cầu cần nắm vững các cấu trúc ngôn ngữ tương đương để có thể giao tiếp được bằng tiếng nước ngoài hoặc tiếng Việt khi cần thiết;
  • Phần lớn các chuyên gia có nhu cầu đọc nhanh tài liệu dưới dạng nguyên bản hoặc đã được dịch sang một ngôn ngữ khác (ví dụ, văn bản tiếng Việt và bản dịch sang tiếng Anh);
  • “Rào ngăn cách” ngôn ngữ còn đang tồn tại trong cộng đồng cản trở việc truy cập thông tin từ các website không sử dụng tiếng Việt.

3. Kết luận  

Việc Việt Nam gia nhập WTO cũng có nghĩa là tiếng Việt gia nhập “cộng đồng ngôn ngữ” của các dân tộc trên thế giới. Xây dựng và sử dụng các khối liệu cùng ngôn ngữ của nó (ngôn ngữ khối liệu) là một giải pháp để đẩy nhanh tiến độ hội nhập về kinh tế và xã hội.  

TÀI LIỆU THAM KHẢO  

  1.  McEnery T., Wilson A. Corpus Linguistics. – Edinburgh: Edinburgh University Press, 1999.
  2. Holmes-Higgin P., Ahmad K. Assembling and Viewing a Corpus of Texts: Self-organisation, Logical Deduction and Spreading Activation as Metaphors // Euralex’96 Proceedings. – Stockholm, 1996.
  3. Марчук Ю.Н. Корпус текстов и сверхбольшие базы лингвистических данных // Сборник: Труды международной конференции «Корпусная лингвистика – 2002». – Издательство Санкт-Петербургского университета, 2002.
  4. Шимкова М. Репрезентативность корпуса как лингвистическая проблема // Сборник: Труды международной конференции «Труды международной конференции «MegaLing’2005. Прикладная лингвистика в поиске новых путей» – 2005
  5. Клименко С.В., Рыков В.В. Логические индукция и дедукция как принципы отражения предметной области в корпусе текстов // Труды Международного семинара Диалог ‘2001 по компьютерной лингвистике и ее приложениям. – Аксаково, 2001 г. 
  6. Беляева Л.Н. Теория и практика перевода. Санкт-Петербург, 2003. 
  7. Лингвистический энциклопедический словарь. Главн. ред. В.Н. Ярцева. М., 1990. – 685 с.   
  8. Дао Хонг Тху. Корпус параллельных текстов в аспекте корпусной лингвистики. // Проблемы современной филологии и лингводидактики, сб. научных трудов, СПб, изд.РГПУ им. А.И.Герцена, 2006, с.23-28; 
  9. Đào Hồng Thu. Khối liệu – đặc trưng và phân loại (phần 2). Tạp chí Ngôn ngữ và Đời sống. Số 1+2 (147+148), tr.23-26, (2008). 
  10. Đào Hồng Thu. Ngôn ngữ học khối liệu (Corpus) (phần 1). Tạp chí Ngôn ngữ và Đời sống. Số 7 (141), tr.9-13, (2007).

 

[1] Thuật ngữ được sử dụng lần đầu tiên trong Brown corpus năm 1961 với gần 1 triệu từ và cụm từ Anh – Mĩ. 

[2] Лингвистический энциклопедический словарь. Главн. ред. В.Н. Ярцева. М., 1990. – 685 с. 

[3] Беляева Л.Н. Теория и практика перевода. Санкт-Петербург, 2003, с.19. 

[4] Рыков В.В. Корпус текстов как отражение состояния русского языка // Труды Международного конгресса “Русский язык: исторические судьбы и современность” . – Москва: МГУ, 2001 г. 

[5] http://www.viniti.ru 

[6] McEnery T., Wilson A. Corpus Linguistics. – Edinburgh: Edinburgh University Press, 1999. 

[7] http://ru.wikipedia.org

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: