ĐÀO HỒNG THU

Welcome to my blog

NGÔN NGỮ HỌC KHỐI LIỆU VÀ PHƯƠNG PHÁP TIẾP CẬN HIỆN NAY

Posted by daothu09 on May 26, 2010

  

ĐÀO HỒNG THU[*]                                         

I. Dẫn nhập

Bước sang thế kỉ XXI, cùng với sự ra đời và phát triển của hàng loạt chuyên ngành khoa học mới, khoa học liên ngành giữa ngôn ngữ học, khoa học máy tính và kĩ thuật số – ngôn ngữ học khối liệu (corpus linguistics) – đã đánh dấu bước phát triển mới vượt bậc trong thời đại công nghệ thông tin hiện nay.

Mới cách đây không lâu, trong thế kỉ XX, ngôn ngữ học khối liệu còn chưa được quan tâm. Bắt đầu từ những năm 60, thế kỉ XX, các nhà ngôn ngữ học chuyển hướng nghiên cứu từ phân tích các dữ liệu cụ thể sang nghiên cứu các quá trình liên quan đến hoạt động trí tuệ, thường được gọi là đặc trưng ngôn ngữ. Tuy nhiên, các thử nghiệm ứng dụng lí luận của ngôn ngữ học tri nhận vào thực tế nghiên cứu và giảng dạy ngôn ngữ không đem lại hiệu quả và để lại hệ quả là tạo ra sự không tương thích giữa lí luận và thực hành ngôn ngữ. Giải quyết sự không tương thích này là công việc của các nhà ngôn ngữ học ứng dụng.

Khối liệu và sử dụng khối liệu bắt đầu được chú ý khi các nhà ngôn ngữ học nhận thấy rằng cần đánh giá đúng vai trò của các đơn vị từ vựng và sự diễn đạt nghĩa của chúng; và không thể bằng phương pháp phân tích theo trực giác cá nhân trong việc nhận thông tin đáng tin cậy về các cấu trúc cú pháp,. Kết quả của sự nhận định đúng đắn này là sau khi khối liệu ngôn ngữ được đưa vào nghiên cứu và sử dụng. Như vậy, vấn đề tương thích giữa lí luận và thực hành ngôn ngữ, về cơ bản, đã được giải quyết.

Ngôn ngữ học khối liệu là phân ngành khoa học của ngôn ngữ học ứng dụng. Ngôn ngữ học khối liệu xác định những nguyên tắc chung về xây dựng khối ngữ liệu (khối văn bản) với việc sử dụng công nghệ máy tính hiện đại, phát triển phương pháp luận về vấn đề tập hợp các hiện tượng ngôn ngữ có thực dưới dạng văn bản và ngôn bản, cũng như về các thủ pháp bảo tồn và phân tích chúng. Nghiên cứu khối văn bản, ở mức độ nhất định, cho phép trừu tượng hoá những yếu tố chủ quan của nguời nghiên cứu và tiến gần tới quá trình nghiên cứu ngôn ngữ một cách khách quan.

Khái niệm then chốt của ngôn ngữ học khối liệu là khái niệm khối văn bản. Khối văn bản là mục tiêu nghiên cứu cơ bản và là đối tượng nghiên cứu của ngôn ngữ học khối liệu. Khối văn bản là tập hợp được mô tả, lựa chọn, phân bố trên máy tính các văn bản được lựa chọn theo các tham số nhất định và được đánh dấu, gán nhãn đặc trưng nhằm đạt mục tiêu xác định đặc điểm cụ thể của các thành phần ngôn ngữ. Tuy nhiên, không phải tập hợp văn bản nào cũng được coi là khối văn bản. Đặc trưng cơ bản của khối văn bản là đánh dấu hình thái từ và đánh dấu cú pháp được coi là bộ phận của chú giải trong khối liệu. Chú giải là khái niệm cơ bản trong nghiên cứu xây dựng khối liệu. Chúng tôi sẽ đề cập đến phần này một cách cụ thể trong bài báo sau.

Ngôn ngữ học khối liệu phát triển rất nhanh và mạnh mẽ theo đà phát triển của khoa học máy tính và kĩ thuật số do tính chất là một khoa học liên ngành. Trong khuôn khổ bài báo, chúng tôi đề cập đến phương pháp tiếp cận khoa học còn đang rất mới mẻ này ở Việt Nam.

II. Đặc điểm chung của khối liệu trong ngôn ngữ học khối liệu

1. Mô tả ngữ liệu

Trong các quá trình nghiên cứu ngôn ngữ, mô tả nguồn ngữ liệu để làm cơ sở xây dựng từ điển và cẩm namg ngữ pháp là không thể thiếu. Thông thường, nhiệm vụ cơ bản của mô tả ngôn ngữ là tập hợp và hệ thống hoá nguồn ngữ liệu được coi là chuẩn và được sử dụng rộng rãi trong cộng đồng. Mô tả ngữ liệu, trước khi ngôn ngữ học khối liệu ra đời, thường được thực hiện trên các tấm “phích”.

Ngày nay, mô tả ngữ liệu được thực hiện trong khối liệu, nghĩa là không sử dụng “phích”. Phạm vi thực hiện mô tả ngữ liệu cụ thể hơn đối với từng đối tượng sử dụng, từ khi bắt đầu xây dựng cho đến khi sử dụng khối liệu. Điều này có thể thấy rõ trong việc qui định dung lượng khối liệu, xác định phong cách ngôn ngữ và quá trình chú giải các đơn vị ngôn ngữ khi xây dựng khối liệu.

2. Xây dựng và sử dụng công cụ làm việc để nghiên cứu các hiện tượng đặc biệt của ngôn ngữ

Xây dựng công cụ làm việc ở đây chính là xây dựng khối liệu và sử dụng khối liệu để nghiên cứu các hiện tượng đặc biệt của ngôn ngữ. Hiện nay, phần lớn văn bản được thể hiện dưới dạng văn bản điện tử. Vì vậy, khối liệu nghiên cứu ngôn ngữ có thể được xây dựng ở dạng tập hợp các văn bản điện tử theo chủ đề nhất định. Khối liệu cũng có thể được xây dựng ở dạng tập hợp các văn bản theo nguyên tắc nhất định và có thể gán nhãn ở mức độ phân tích ngôn ngữ xác định.

Trong nghiên cứu ngôn ngữ hiện nay, thường đòi hỏi các khối liệu có tập hợp văn bản theo chủ đề và phong cách ngôn ngữ chức năng, có kích cỡ đủ lớn về số lượng văn bản và tác giả để làm cơ sở cho các nghiên cứu thống kê đáng tin cậy về các hiện tượng ngôn ngữ đặc biệt trong các văn bản có chủ đề tương ứng.

Để xây dựng khối liệu phục vụ nghiên cứu các hiện tượng ngôn ngữ đặc biệt, cần tuân thủ các nguyên tắc nhất định. Thông số kĩ thuật quan trọng trong xây dựng khối liệu là xác định kích cỡ khối liệu. Đây là nguyên tắc đầu tiên khi xây dựng khối liệu. Ngoài ra, khi xây dựng khối liệu, cần tuân thủ các nguyên tắc chung như xác định các tham số, kiểu nhãn v.v. và các nguyên tắc dành riêng cho mỗi loại khối liệu.

3. Sử dụng khối liệu với mục đích nghiên cứu ngôn ngữ

Ngữ liệu để nghiên cứu ngôn ngữ đã được sử dụng từ rất lâu, trước khi ngôn ngữ học khối liệu xuất hiện. Các ngữ liệu này thường được sử dụng dưới dạng các ví dụ trong từ điển. Ví dụ, trong từ điển Oxford thế kỉ XIX, các đoạn trích dẫn đã được sử dụng để nghiên cứu và minh hoạ cho việc dùng từ trên thực tế. Đối với khối liệu, điều này có nhiều điểm khác biệt.

Khối liệu đã làm thay đổi phương thức nghiên cứu của các nhà ngôn ngữ. Thay vì phải tham khảo từng ví dụ đơn lẻ trong từ điển, nhà nghiên cứu ngôn ngữ có thể tìm được trong khối liệu tất cả trích dẫn về từ và cụm từ cần thiết trong hàng loạt văn bản một cách chính xác và chỉ trong vài giây. Hơn thế nữa, các ví dụ rút ra được từ khối liệu, có thể tập hợp thành các nhóm có giá trị phân tích như các từ loại trong ngữ cảnh theo vần chữ cái ABC và v.v… Điều làm cho việc sử dụng khối liệu để nghiên cứu ngôn ngữ trở nên quan trọng đáng kể là khối dữ liệu chứa nhiều siêu thông tin như tác giả, ngày tháng, phong cách, các khác biệt khu vực, từ loại và v.v… dễ dàng kết nối các từ và cụm từ riêng lẻ với nhau.

Do đặc điểm ứng dụng rất cao, khối liệu có vai trò đặc biệt quan trọng trong việc cung cấp nguồn dữ liệu cho việc xây dựng các kiểu loại từ điển, trong đó có từ điển thuật ngữ các chuyên ngành khoa học một cách chính xác và khoa học nhất.

III.   Ngôn ngữ học khối liệu và các lĩnh vực của ngôn ngữ học truyền thống

Thực tế cho thấy rằng ngôn ngữ học khối liệu cần dựa trên cơ sở lí luận và thực hành vững chắc để nắm vững, đi sâu và phát triển được, do đặc điểm là ngành khoa học còn đang rất mới mẻ ở Việt Nam, trong thời gian ngắn nhất có thể. Để có thể tiếp cận khoa học này một cách nhanh chóng, chúng tôi giới thiệu dưới đây các đặc trưng của ngôn ngữ học khối liệu trong mối quan hệ với ngôn ngữ học truyền thống.

1. Ngôn ngữ học khối liệu và cú pháp học

Nghiên cứu cú pháp và từ vựng là các dạng nghiên cứu phổ biến nhất có sử dụng khối liệu. Vấn đề ở đây cho thấy chính khối liệu là công cụ hữu ích đối với nghiên cứu cú pháp, bởi vì: a) tiềm lực mô tả đa dạng ngôn ngữ của khối liệu là rất lớn, và b) vai trò ngữ liệu thực hành của khối liệu đối với việc kiểm tra các giả định liên quan trong lí thuyết ngữ pháp đặc biệt quan trọng.

Ngôn ngữ học khối liệu nghiên cứu việc sử dụng khối liệu cho các mục đích khác nhau trong nghiên cứu ngữ pháp như phân tích số lượng dữ liệu (ví dụ, học thuyết Smith 1993), phân tích tần số ngữ pháp và v.v.

2. Ngôn ngữ học khối liệu và ngôn ngữ học truyền thống

Để tiếp cận ngành khoa học mới này, cần nắm vững những đặc tính khác biệt giữa khoa học này với khoa học truyền thống về ngôn ngữ. Chúng ta hãy xét các đặc điểm này.

STT

Ngôn ngữ học khối liệu Ngôn ngữ học truyền thống

1. 

Nghiên cứu lời là chủ yếu Nghiên cứu ngôn ngữ là chủ yếu

2.

Mục đích nghiên cứu là mô tả ngôn ngữ qua lời, dưới dạng khối văn bản đặc trưng. Mục đích nghiên cứu là mô tả và lí giải ngôn ngữ.

3.

Nghiên cứu trên cơ sở khối văn bản. Nghiên cứu được thực hiện từ lí thuyết đến lí giải và khẳng định chúng trong thực tế lời.

4.

Văn bản được xét đến từ góc nhìn bản thể Văn bản được xét đến trên cơ sở trừu tượng hoá

5. 

Nghiên cứu ngôn ngữ cụ thể Nghiên cứu ngôn ngữ phổ quát

6. 

Trọng tâm là hình thức Trọng tâm là hình thức và nội dung

7. 

Nghiên cứu văn bản ở góc độ toàn cầu, trong phạm vi rộng Nghiên cứu văn bản ở góc độ cục bộ, hạn chế

8.

Sử dụng các phương pháp thực nghiệm, sắc xuất và thống kê, qui nạp, theo số lượng Sử dụng phương pháp suy luận, lôgíc, diễn dịch, theo chất lượng

9. 

Ngữ liệu (từ sử dụng) trong ngữ cảnh tự nhiên Ngữ liệu tách rời ngữ cảnh, không tự nhiên

10.

Các kết luận dựa trên cơ sở quan sát hoạt động của lời được thể hiện dưới dạng văn bản Các kết luận dựa vào phương pháp trực quan khi tập hợp ngữ liệu về lời và tài liệu nghiên cứu thực nghiệm

11. 

Đánh giá phát minh khoa học dựa trên cơ sở dữ liệu thực nghiệm Đánh giá phát minh khoa học trên cơ sở quá trình nghiên cứu, tổng kết, so sánh và v.v., nghĩa là đánh giá theo kết quả của nhiều nghiên cứu qua các thế kỉ

Ngôn ngữ học khối liệu nghiên cứu phát triển các nguyên tắc chung về xây dựng và sử dụng khối ngữ liệu với việc sử dụng công nghệ máy tính. Trong ngôn ngữ học khối liệu, thông thường, sử dụng ba thủ pháp:

  • Tự động trích dẫn thông tin ngôn ngữ từ khối liệu;
  • Xử lí thông tin;
  • Kiểm tra và lí giải các dữ liệu đã được xử lí.

Đặc điểm cơ bản của xu hướng nghiên cứu ngôn ngữ học khối liệu, hoặc có thể gọi là xu hướng nghiên cứu thông tin – kĩ thuật số trong ngôn ngữ học, là xu hướng nghiên cứu các vấn đề của ngôn ngữ học ứng dụng trong quá trình giao tiếp một cách nghiêm ngặt. Ở đây, trọng tâm là cả quá trình giao tiếp với nội dung cụ thể bằng ngôn ngữ và khả năng mô tả chính xác nội dung giao tiếp.

Đối tượng nghiên cứu của ngôn ngữ học khối liệu là khối văn bản. Để hiểu khái niệm khối văn bản, cần phải hiểu khối dữ liệu. Khối dữ liệu là tập hợp dữ liệu theo những nguyên tắc nhất định từ hệ thống ngôn ngữ có chứa những hiện tượng đặc biệt thuộc mô tả ngôn ngữ. Khối dữ liệu chỉ có duy nhất phép đo là lời do bản thân nó không có khả năng sản sinh ra các thành phần cấu thành của mình. Tuy nhiên, điều này không có nghĩa là khối dữ liệu không thể sử dụng để tổ chức lại ngôn ngữ như hệ thống: từ âm thanh đến văn bản. Ngược lại, đây là một trong các nhiệm vụ chủ yếu của nghiên cứu khối liệu ngôn ngữ.

Khối văn bản là dạng khối dữ liệu có các đơn vị là văn bản hoặc các trích đoạn của văn bản về lĩnh vực vấn đề đã được lựa chọn. Về nguyên tắc, bất kì tập hợp hơn một văn bản đều có thể được gọi là khối liệu (corpus – từ latinh). Khác với tập hợp văn bản thông thường trong nghiên cứu ngôn ngữ, khối liệu trong ngôn ngữ học khối liệu là tập hợp văn bản một cách lôgíc, theo những chủ đề, trọng tâm và lĩnh vực nhất định. Điều này được thể hiện rõ nét trong các nguyên tắc tổ chức văn bản trong một khối liệu, trong lôgarit và chương trình phân tích khối văn bản. Từ đây, có thể thấy rõ rằng phân loại khối liệu (khối văn bản), về cơ bản, hoàn toàn khác với tập hợp văn bản (ngữ liệu). Về việc phân loại khối liệu, chúng tôi sẽ trình bày cụ thể trong một bài báo khác.

3. Sử dụng khối liệu

Sự khác biệt giữa ngôn ngữ học khối liệu và ngôn ngữ học truyền thống còn được thể hiện ở việc sử dụng khối liệu trong quá trình nghiên cứu và tìm kiếm thông tin. Nếu đề cập đến tác dụng của khối liệu so với ngữ liệu trên “phích” trong nghiên cứu, chúng ta thấy rằng sử dụng khối liệu đem lại hiệu quả rõ rệt cho người sử dụng: giảm chi phí thời gian và sức lực, tăng hiệu suất công việc.

Việc nghiên cứu và tìm kiếm thông tin trên cơ sở “phích” đã khá quen thuộc đối với nhà nghiên cứu ngôn ngữ. Vì vậy, ở đây chúng tôi chỉ đề cập đến vấn đề sử dụng khối liệu trong ngôn ngữ học khối liệu. Khi lần đầu tiên sử dụng khối liệu, người sử dụng thường thực hiện tính tần số xuất hiện của các thành phần ngôn ngữ khác nhau như từ, cụm từ. Phương pháp thống kê được sử dụng trong việc giải quyết các vấn đề ngôn ngữ không đơn giản như dịch máy (dịch tự động), nhận dạng và tổng hợp lời nói, xây dựng phương tiện kiểm tra chính tả và ngữ pháp, và v.v. Trên cơ sở dữ liệu ngôn ngữ trong khối văn bản, bằng phương pháp thống kê, có thể xác định chính xác được tần số sử dụng của từ (bao gồm cả thuật ngữ) và cụm từ, thành ngữ và câu.

Theo thời gian, khối liệu được xác nhận là nguồn cung cấp thông tin phong phú và có thể sử dụng trong rất nhiều lĩnh vực nghiên cứu khoa học và tìm hiểu thông tin xã hội. Trên cơ sở khối liệu và với việc sử dụng máy tính, có thể xây dựng các bộ từ điển lớn và cực lớn, giúp người sử dụng nhanh chóng cập nhật được thông tin cần tìm theo thời gian và theo sự phát triển của xã hội loài người. Chúng ta có thể dễ dàng tìm thông tin về từ và cụm từ như vậy, ví dụ, trong Từ điển tiếng Anh hiện đại COBUILD.

Điều hiển nhiên là nghiên cứu từ vựng luôn gắn liền với nghiên cứu nghĩa từ. Sử dụng khối liệu và quan sát hoạt động của các đơn vị ngôn ngữ trong khối liệu cho phép xác định các dấu hiệu nghĩa của chúng theo các phạm trù ngữ pháp nhất định. Trên cơ sở khối liệu, có thể thử nghiệm hệ thống xử lí tự động văn bản và kiểm chứng các lí luận khác nhau về ngôn ngữ. Từ việc thử nghiệm và kiểm chứng này, có thể thấy ngữ pháp được thể hiện đầy đủ và chính xác đến mức độ nào trong các ngôn ngữ cụ thể.

IV. Các khối liệu điển hình

Kể từ khi khối liệu đầu tiên ra đời vào năm 1961, hiện nay đã và đang có rất nhiều kiểu loại khối liệu được xây dựng và phát triển. Các khối liệu này đã và đang đóng vai trò quan trọng trong các lĩnh vực của ngôn ngữ học ứng dụng. Các khối liệu điển hình có thể đề cập đến là:

1. Khối liệu Brown – Brown University Corpus – chứa khoảng một triệu đơn vị từ và cụm từ sử dụng, được đánh dấu theo dạng hình thái từ.

2. Khối liệu Lancaster/Oslo-Bergen – Lancaster/Oslo-Bergen Corpus (LOB) – bao gồm khoảng một triệu đơn vị từ và cụm từ sử dụng. Khối liệu này chứa hai khối liệu con là khối liệu Leeds-Lancaster Treebank và khối liệu Lancaster Parsed – Lancaster Parsed Corpus. Hai khối liệu con được đánh dấu theo dạng cú pháp.

3. Khối liệu Anh Quốc – British National Corpus (BNC) – là khối liệu tiếng Anh có dung lượng lớn nhất hiện nay. Khối liệu này chứa 100 triệu đơn vị từ và cụm từ sử dụng. Khối liệu Anh Quốc được xây dựng vào những năm 90, thế kỉ XX, bao gồm khoảng 90% đơn vị trích rút từ các văn bản và 10% – từ ngôn bản. Khối liệu được đánh dấu theo dạng hình thái từ.

Ngoài ra, còn rất nhiều khối liệu trên cơ sở tiếng Anh được xây dựng với các mục đích sử dụng khác nhau.

4. Khối liệu tham khảo tiếng Đức Mannheim – Mannheim German Reference Corpus (DeReKo) – là một tập hợp đồ sộ nhất các văn bản và ngôn bản bằng tiếng Đức, bao gồm hơn 2 tỷ đơn vị từ và cụm từ sử dụng và được đánh dấu theo dạng cú pháp-hình thái từ trên cơ sở ngôn ngữ mã hoá theo chuẩn (SGML), tương ứng với đề xuất chuẩn mã hoá văn bản (TEI). Hệ thống trang bị cho khối liệu tiếng Đức COSMAS II được tự động hoá và cho phép thực hiện tìm kiếm thông tin trong khối liệu theo dạng hình thái đơn vị từ và cụm từ.

5. Khối liệu Quốc gia Séc – the Czech National Corpus (CNC) – bao gồm các khối liệu con, chứa khoảng 650 triệu đơn vị từ và cụm từ sử dụng, được đánh dấu theo dạng hình thái từ.

6. Khối liệu tiếng Nga Quốc gia – Russian National Corpus (RNC) – chứa hơn 140 triệu đơn vị từ và cụm từ sử dụng.

Ngoài các khối liệu nêu trên, còn có thể kể đến các khối liệu bằng tiếng Nhật, tiếng Trung, tiếng Hàn và v.v.

V. Lời kết

Nhiệm vụ cơ bản của ngôn ngữ học khối liệu là nghiên cứu xây dựng và sử dụng khối liệu. Khối liệu cần thiết không chỉ đối với người nghiên cứu và tìm kiếm thông tin, mà còn hữu ích đối với những ai có nhu cầu làm việc với khối liệu. Trước hết, có lẽ, khối liệu là công cụ thiết yếu đối với các nhà ngôn ngữ học, cũng như các nhà nghiên cứu văn học, sử học, dịch giả và nhà báo, các nhà khảo cổ, hướng dẫn viên du lịch và v.v… Khối liệu được sử dụng trong nhiều lĩnh vực, từ xây dựng các thể loại từ điển khác nhau; xây dựng chương trình dịch máy (dịch tự động) đến phục vụ cho việc giảng dạy ngoại ngữ và bản ngữ; lưu trữ, bảo tồn và khai thác các tác phẩm văn học có giá trị và v.v.

Nghiên cứu và phát triển ngôn ngữ học khối liệu là nghiên cứu và phát triển một khoa học liên ngành hiện đại, một khoa học có khả năng thúc đẩy sự phát triển xã hội không những của một quốc gia, mà còn là nhân tố thúc đẩy giao lưu quốc tế và chuyển giao công nghệ. 

THƯ MỤC THAM KHẢO

 [1] Halliday, M.A.K.; Hasan, R. (1985). Language context and text: Aspects of language in a socialsemiotic perspective. Oxford University Press.

[2] Hunston S. (2002). Corpora in Applied Linguistics. Cambridge.

[3] Kilgarriff, A. (2001). Web as Corpus // Proc. of Corpus Linguistics Conference. April, 2001, Lancaster, UK.

[4] Leech G. (2003). Corpus processing. In: International encyclopedia of linguistics. 2nd edition. William J. Frawley (ed. in chief). Oxford, Vol. 1.

[5] Manning, C.D., Schuetze, H. (1999). Foundations of Statistical Natural Language Processing. MIT Press: Cambridge, MA.

[6] Maria Simkova (2006). Insight into the Slovak and Czech Corpus Linguistics. Bratislava, Publishing House of Slovak Academy of Sciences.

[7] McEnery T., Wilson A. (2004). Corpus Linguistics. 2nd edition. Edinburgh.

[8] Sinclair J. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press.

[9] Teubert, W. (2001). Corpus Linguistics and Lexicography. International Journal of Corpus Linguistics. Special issue, p. 125-153.

[10] Torbjörn Lager (1995). A Logical Approach to Computational Corpus Linguistics. Doctoral Dissertation. Department of Linguistics, Göteborg University, Sweden.

[11] Баранов А.Н. (2001). Введение в прикладную лингвистику. Эдиториал УРСС. М.

[12] Дао Хонг Тху (2006). Корпус параллельных текстов в аспекте корпусной лингвистики. Проблемы современной филологии и лингводидактики. Сб. научных трудов, СПб, изд.РГПУ им. А.И.Герцена, с.23-28.

[13] Королев Э.И. (2001). Компьютерная лингвистика на пороге нового века // Проблемы прикладной лингвистики. Сб. ст. / Отв. ред. А.И. Новиков. М.

[14] Пиотровский Р. Г. и др. (1977). Математическая лингвистика. Учеб. пособие для пед. ин-тов. М.

[15] Рыков. В.В. (2002). Корпусная лингвистика. Курс лекций. М.

[16] Сичинава, Д.В. (2002). К задаче создания корпусов русского языка // НТИ, сер.2, Nº12.

[17] Шаров С.А., Савчук, С.О. (2004). Типология текстов для представительного корпуса. Труды международной конференции, “Корпусная лингвистика –2004”. Изд. С.-Петербургского университета, с. 352 –362.

[18] Đào Hồng Thu (2007). Ngôn ngữ học khối liệu (Corpus) (phần 1), Ngôn ngữ & Đời sống. Số 7 (141), tr.9-13.

[19] Đào Hồng Thu (2008). Khối liệu – đặc trưng và phân loại (phần 2), Ngôn ngữ & Đời sống. Số 1+2 (147+148), tr.23-26.

SUMMARY

The article introduces a new branch of the applied linguistics, i.e. Corpus linguistics. This marks a new step in the development of information technology. The author outlines the general features of corpus in corpus linguistics: corpus description, building and use of working tools, use of corpus for the purposes of researching languages…Making the best of the strength of corpus will benefit much the compilation of dictionaries, facilitating and making this work more effective…


[*]TS Ngữ văn, Trường đại học Bách khoa Hà Nội.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: