ĐÀO HỒNG THU

Welcome to my blog

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – C

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

1. Chuẩn mã hóa khối liệu

Là sự đặt chuẩn mã hóa theo MULTEXT (Multilingual Text Tools and Corpora) – một trong những dự án lớn nhất của EU về công cụ ngôn ngữ và nguồn tài nguyên. Chuẩn mã hóa khối liệu là một ứng dụng của ngôn ngữ mã hóa theo chuẩn trên cơ sở và theo hợp đồng mở rộng bởi chuẩn mã hóa văn bản; và công cụ phù hợp tối ưu cho việc sử dụng trong ngôn ngữ học khối liệu và các ứng dụng công nghệ ngôn ngữ.

2. Chuẩn mã hóa văn bản

Là bộ chuẩn thuộc dự án nghiên cứu hợp tác quốc tế, được thành lập năm 1988 với mục đích phát triển tập hợp các hướng dẫn chuẩn bị và phiên chuyển văn bản điện tử một cách tổng thể và linh hoạt. Chuẩn mã hóa văn bản sử dụng kiểu đánh dấu văn bản đang tồn tại như ngôn ngữ mã hóa theo chuẩn. Chuẩn mã hóa văn bản đầu tiên là tập hợp chi tiết các hướng dẫn phương pháp sử dụng các chuẩn trong quá trình mã hóa văn bản.

3. Chú giải

Là quá trình gán thông tin chú thích bổ sung cho văn bản trong khối liệu và để mô tả thực chất thông tin. Chú giải (còn gọi là đánh dấu) cho phép lấy và phân tích thông tin ngôn ngữ có chứa trong khối liệu nhanh và dễ dàng hơn. Có thể chú giải cho khối liệu theo phương pháp thủ công bởi một hoặc nhiều người. Hoặc là, có thể thực hiện chú giải khối liệu một cách tổng thể một cách tự động (hoặc bán tự động) bằng chương trình máy tính tự động (hoặc bán tự động) với sự hiệu chỉnh đầu ra của kĩ thuật viên. Các kiểu chú giải ngôn ngữ cụ thể, có liên quan đến quá trình gán mã chuyên dụng cho từ hoặc cụm từ để chỉ ra các đặc trưng của từ hoặc cụm từ đó, thường được gọi là gán nhãn mà không phải là chú giải; mã được dùng để gán cho từ hoặc cụm từ được gọi là nhãn gán.

4. Chú giải âm điệu

Là kiểu chú giải đính kèm dưới dạng các siêu đoạn tính của ngôn bản, chủ yếu như trọng âm, ngữ điệu và ngắt đoạn. Chú giải âm điệu, còn gọi là ghi âm điệu, đòi hỏi công nghệ thủ công chất lượng cao từ các chuyên gia ngữ âm có trình độ. Không như phân tích cú pháp có thể dựa vào các chương trình máy tính, chú giải âm điệu được thực hiện theo thiết kế riêng.

5. Chú giải đại từ (Chú giải trùng lặp)

Là kiểu chú giải dùng để chú thích đại từ trong khối liệu. Chú giải đại từ chỉ có thể được thực hiện bởi phân tích viên vì đây là kiểu chú giải nhằm cung cấp dữ liệu cho chương trình chạy máy tính để thực hiện chú giải cho văn bản trong khối liệu. Điều này đóng vai trò đặc biệt quan trọng đối với quá trình xử lí ngôn ngữ tự nhiên do phần lớn các từ dẫn trong khái niệm cụ thể của văn bản thuộc khối liệu đều được thực hiện bởi các đại từ.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: