ĐÀO HỒNG THU

Welcome to my blog

Archive for the ‘Từ điển Ngôn ngữ học khối liệu’ Category

Từ điển thuật ngữ Ngôn ngữ học khối liệu Việt – Anh (Vietnamese – English Glossary of Corpus Linguistics)

Posted by daothu09 on May 18, 2011

Việt

Anh

bộ chú giải từ vựng part-of-speech tagger
bộ kiểm định ngữ âm spelling checker
bộ kiểm định phong cách ngôn ngữ style checker
bộ kiểm định văn bản chung general text checker
bộ phân tích cú pháp parser/syntactic parser
chú giải annotation
chú giải âm điệu prosodic annotation
chú giải đại từ (chú giải trùng lặp) anaphoric annotation
chú giải nghĩa semantic annotation
chú giải thuyết trình discoursal annotation
chuẩn mã hóa khối liệu CES
chuẩn mã hóa văn bản TEI
chương trình chú giải từ vựng TAGGIT
chương trình Cocoa COCOA references
chương trình đối tượng entity reference
cơ sở dữ liệu thuật ngữ terminology databases
cơ sở dữ liệu từ vựng lexical data base (LDB)
công cụ ghép tự động automatic hyphenizer
công cụ giải đáp query(ing) tools
công cụ miền thông dụng public domain tools
công cụ ngôn ngữ máy tính CL tools
công nghệ ngôn ngữ Language Engineering (LE)
dẫn mục concordance
danh mục tần số sử dụng frequency list
dịch máy Machine Translation (MT)
dịch máy có hỗ trợ computer-aided translation (CAT)
đồng ngữ cảnh co-text
đồng tệp từ collocation
đồng trật tự collocate
ghi âm phonetic transcription
hệ thống chú giải Cutting Cutting tagger
hệ thống chú giải tự động CLAWS
hệ thống quản trị thuật ngữ terminological management system (TMS)
học với sự hỗ trợ của máy tính computer-aided learning / computer-assisted language learning (CALL)
hướng dẫn chuẩn mã hóa văn bản TEI Guidelines
khoảng cách span
khối liệu corpora
khối liệu bão hòa saturated corpus
khối liệu cân bằng balanced corpus
khối liệu cấu trúc hình cây treebank
khối liệu chủ monitor corpus
khối liệu chú giải annotated corpus
khối liệu chuyên dụng special corpus
khối liệu đa ngữ multilingual corpus
khối liệu đối chiếu comparable (reference) corpus
khối liệu đơn ngữ monolingual corpus
khối liệu không chú giải unannotated corpus
khối liệu khuyến mại opportunistic corpus
khối liệu mẫu sampled corpus
khối liệu phát âm spoken corpus
khối liệu song song parallel (aligned) corpus
khối liệu tham khảo reference corpus
mã hóa encoding
mô tả hệ thống WSD
ngân hàng dữ liệu thuật ngữ terminological data bank (TDB)
ngôn ngữ học khối liệu Corpus Linguistics
ngôn ngữ học máy tính Computational Linguistics (CL)
ngôn ngữ mã hóa theo chuẩn SGML
nguồn từ vựng Lexical Resources/Data
nhãn tag
nhãn cú pháp part-of-speech tagging
nhãn cùng kiểu ditto tagging, ditto tag
nhãn định hướng problem-oriented tagging
nhãn từ kết hợp portmanteau tag
nhóm mã phục hồi cơ bản base tagset
nút từ node
phần đầu trang header
phân nhỏ văn bản Text Chunking
phân tích cú pháp parsing
phân tích cú pháp đầy đủ full parsing
phân tích cú pháp phần khung skeleton parsing
phê chuẩn validation
sản phẩm products
sản phẩm giải nén ngôn ngữ Lingware/Language Engineering Tools
tài nguyên ngôn ngữ Language/Linguistics Resources
tạo đơn nghĩa disambiguation
tệp nhãn tagset
thẩm định chuẩn kĩ thuật ngôn ngữ EAGLES
tính phục hồi recoverability
trí tuệ nhân tạo Artificial Intelligence (AI)
từ khóa trong ngữ cảnh KWAL
từ khóa và đường nối KWIC
từ vị hóa lemmatisation
từ vựng lexicon
từ vựng dành cho máy machine lexicon
từ vựng trong ngôn ngữ máy tính computational linguistic lexicon
xác định đường nối alignment
xác định kiểu văn bản DTD
xử lí khối liệu Corpus Processing
xử lí ngôn ngữ tự nhiên Natural Language Processing (NLP)

TÀI LIỆU THAM KHẢO

  1. Aarts J., Meijs W. (1990). Theory and Practice in Corpus Linguistics. Amsterdam: Rodopi.

  2. Bright W. (1992). International Encyclopedia of linguistics. New York: Oxford University Press.
  3. Carter R. (2004). Language and creativity. The art of common talk. London: Routledge.
  4. Halteren H., van den Heuvel T. (1990). Linguistic Exploitation of Syntactic Databases. Amsterdam: Rodopi.
  5. Hutchins W.J., Sommers H.L. (1986). An introduction to machine translation. London: Academic Press.
  6. Leech G. (1991). The state of art in corpus linguistics. Aijmer and Altenberg, 8-29.
  7. Mahlberg M. (2007). Corpus stylistics: bridging the gap between linguistic and literary studies. London: Continuum.
  8. McEnery T., Wilson A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.
  9. Nespor M., Vogel I. (1990). Prosodic Phonology. Dordrecht: Foris.
  10. Oostdijk N., de Haan P. (1994). Corpus-based research into language. Amsterdam: Rodopi.
  11. Sinclair J. (2004). Trust the Text. Language, corpus and discourse. London: Routledge.
  12. Souter C. (1993). Towards a standard format for parsed corpora. Aarts et al. 197-212.
  13. Souter C., Atwell E. (1993). Corpus Based Computational Linguistics. Amsterdam: Rodopi.
  14. Sparck Jones K. (1992). Natural language processing: an overview. Bright 1992, Vol. 3, 53-59.
  15. Scott M., C. Tribble (2006). Textual Patterns. Key words and corpus analysis in language education. Amsterdam: Benjamins.
  16. Wynne M. (2005). Developing Linguistic Corpora: a guide to good practice. Oxford: Oxbow Books.
  17. Đào Hồng Thu (2007). Ngôn ng hc khi liu (Corpus) (phn 1). Tp chí Ngôn ng và Đi sng. Số 7 (141), tr.9-13.
  18. Đào Hồng Thu (2008). Khi liu – đc trưng và phân loại. Tạp chí Ngôn ngữ và Đời sống. Số 1+2 (147+148), tr.23-26.Đào Hồng Thu. http://corling.wordpress.com
Advertisements

Posted in Hậu ĐHBK Hà Nội, Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển thuật ngữ ngôn ngữ học khối liệu Anh – Việt (English – Vietnamese Glossary of Corpus Linguistics)

Posted by daothu09 on April 17, 2011

Dr. Dao Hong Thu

Anh

Việt

alignment xác định đường nối
anaphoric annotation chú giải đại từ (chú giải trùng lặp)
annotated corpus khối liệu chú giải
annotation chú giải
Artificial Intelligence (AI) trí tuệ nhân tạo
automatic hyphenizer công cụ ghép tự động
balanced corpus khối liệu cân bằng
base tagset nhóm mã phục hồi cơ bản
CES chuẩn mã hóa khối liệu
CL tools công cụ ngôn ngữ máy tính
CLAWS hệ thống chú giải tự động
COCOA references chương trình Cocoa
collocate đồng trật tự
collocation đồng tệp từ
comparable (reference) corpus khối liệu đối chiếu
computational linguistic lexicon từ vựng trong ngôn ngữ máy tính
Computational Linguistics (CL) ngôn ngữ học máy tính
computer-aided learning / computer-assisted language learning (CALL) học với sự hỗ trợ của máy tính
computer-aided translation (CAT) dịch máy có hỗ trợ
concordance dẫn mục
corpora khối liệu
Corpus Linguistics ngôn ngữ học khối liệu
Corpus Processing xử lí khối liệu
co-text đồng ngữ cảnh
Cutting tagger hệ thống chú giải Cutting
disambiguation tạo đơn nghĩa
discoursal annotation chú giải thuyết trình
ditto tagging, ditto tag nhãn cùng kiểu
DTD xác định kiểu văn bản
EAGLES thẩm định chuẩn kĩ thuật ngôn ngữ
encoding mã hóa
entity reference chương trình đối tượng
frequency list danh mục tần số sử dụng
full parsing phân tích cú pháp đầy đủ
general text checker bộ kiểm định văn bản chung
header phần đầu trang
KWAL từ khóa trong ngữ cảnh
KWIC từ khóa và đường nối
Language Engineering (LE) công nghệ ngôn ngữ
Language/Linguistics Resources tài nguyên ngôn ngữ
lemmatisation từ vị hóa
lexical data base (LDB) cơ sở dữ liệu từ vựng
Lexical Resources/Data nguồn từ vựng
lexicon từ vựng
Lingware/Language Engineering Tools sản phẩm giải nén ngôn ngữ
machine lexicon từ vựng dành cho máy
Machine Translation (MT) dịch máy
monitor corpus khối liệu chủ
monolingual corpus khối liệu đơn ngữ
multilingual corpus khối liệu đa ngữ
Natural Language Processing (NLP) xử lí ngôn ngữ tự nhiên
node nút từ
opportunistic corpus khối liệu khuyến mại
parallel (aligned) corpus khối liệu song song
parser/syntactic parser bộ phân tích cú pháp
parsing phân tích cú pháp
part-of-speech tagger bộ chú giải từ vựng
part-of-speech tagging nhãn cú pháp
phonetic transcription ghi âm
portmanteau tag nhãn từ kết hợp
problem-oriented tagging nhãn định hướng
products sản phẩm
prosodic annotation chú giải âm điệu
public domain tools công cụ miền thông dụng
query(ing) tools công cụ giải đáp
recoverability tính phục hồi
reference corpus khối liệu tham khảo
sampled corpus khối liệu mẫu
saturated corpus khối liệu bão hòa
semantic annotation chú giải nghĩa
SGML ngôn ngữ mã hóa theo chuẩn
skeleton parsing phân tích cú pháp phần khung
span khoảng cách
special corpus khối liệu chuyên dụng
spelling checker bộ kiểm định ngữ âm
spoken corpus khối liệu phát âm
style checker bộ kiểm định phong cách ngôn ngữ
tag nhãn
TAGGIT chương trình chú giải từ vựng
tagset tệp nhãn
TEI chuẩn mã hóa văn bản
TEI Guidelines hướng dẫn chuẩn mã hóa văn bản
terminological data bank (TDB) ngân hàng dữ liệu thuật ngữ
terminological management system (TMS) hệ thống quản trị thuật ngữ
terminology databases cơ sở dữ liệu thuật ngữ
Text Chunking phân nhỏ văn bản
treebank khối liệu cấu trúc hình cây
unannotated corpus khối liệu không chú giải
validation phê chuẩn
WSD mô tả hệ thống

 

TÀI LIỆU THAM KHẢO

  1. Aarts J., Meijs W. (1990). Theory and Practice in Corpus Linguistics. Amsterdam: Rodopi.

  2. Biber D., Finegan E. (1991). On the exploitation of corpora in variation studies. Aijmer and Altenberg, p.204-20.
  3. Bright W. (1992). International Encyclopedia of linguistics. New York: Oxford University Press.
  4. Carter R. (2004). Language and creativity. The art of common talk. London: Routledge.
  5. Crowdy S. (1993). Spoken corpus design and transcription, Literary and Linguistic Computing. 8(4), p.259-65.
  6. Edwards J.A., Lampert M.D. (1994). Talking Data: Transcription and Coding in Discourse Research. Hillside, NJ: Lawrence Erlbaum Associates.
  7. Halteren H., van den Heuvel T. (1990). Linguistic Exploitation of Syntactic Databases. Amsterdam: Rodopi.
  8. Hutchins W.J., Sommers H.L. (1986). An introduction to machine translation. London: Academic Press.
  9. Leech G. (1991). The state of art in corpus linguistics. Aijmer and Altenberg, 8-29.
  10. Mahlberg M. (2007). Corpus stylistics: bridging the gap between linguistic and literary studies. London: Continuum.
  11. McEnery T., Wilson A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.
  12. Nespor M., Vogel I. (1990). Prosodic Phonology. Dordrecht: Foris.
  13. Oostdijk N., de Haan P. (1994). Corpus-based research into language. Amsterdam: Rodopi.
  14. Sinclair J. (2004). Trust the Text. Language, corpus and discourse. London: Routledge.
  15. Souter C. (1993). Towards a standard format for parsed corpora. Aarts et al. 197-212.
  16. Souter C., Atwell E. (1993). Corpus Based Computational Linguistics. Amsterdam: Rodopi.
  17. Sparck Jones K. (1992). Natural language processing: an overview. Bright 1992, Vol. 3, 53-59.
  18. Scott M., C. Tribble (2006). Textual Patterns. Key words and corpus analysis in language education. Amsterdam: Benjamins.
  19. Wynne M. (2005). Developing Linguistic Corpora: a guide to good practice. Oxford: Oxbow Books.
  20. Đào Hồng Thu (2007). Ngôn ngữ học khối liệu (Corpus) (phần 1). Tạp chí Ngôn ngữ và Đời sống. Số 7 (141), tr.9-13.
  21. Đào Hồng Thu (2008). Khối liệu – đặc trưng và phân loại. Tạp chí Ngôn ngữ và Đời sống. Số 1+2 (147+148), tr.23-26.
  22. Đào Hồng Thu. http://corling.wordpress.com

Hà Nội, ngày 17/03/2011

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – B

Posted by daothu09 on May 7, 2010

Dr. Dao Hong Thu

 

1. Bộ chú giải từ vựng

Là công cụ để giải thích, nghĩa là chú giải, từ và cụm từ trong khối liệu. Bộ chú giải từ vựng tập hợp các dạng từ, cụm từ đầu vào và các diễn giải hình thái học đầu ra có khả năng thực hiện của chúng trong ngữ cảnh xuất hiện của các từ và cụm từ. Bộ chú giải từ vựng tự động hóa là ứng dụng NLP tốt nhất được sử dụng có hiệu quả hiện nay nhờ độ tin cậy cao. Cả hai kiểu chú giải từ vựng: xác suất (theo phương pháp thống kê) và cơ sở – nguyên tắc (theo phương pháp ngữ pháp truyền thống) đều đang được phát triển.       

2. Bộ kiểm định ngữ âm

Là công cụ được tạo thành trên cơ sở tập hợp các đơn vị từ và cụm từ như một khối liệu thực hoặc trên cơ sở danh mục các đơn vị từ và cụm từ được chiết xuất từ từ điển. Bộ kiểm định ngữ âm được sử dụng để tìm kiếm các lỗi về ngữ âm trong văn bản. Bộ kiểm định ngữ âm ngày nay có thể được coi là bộ ứng dụng thương mại số một. Các thành phần đơn vị từ và cụm từ trong bộ kiểm định ngữ âm thuộc loại được chuẩn hóa trong quá trình xử lí ngôn ngữ.

3. Bộ kiểm định phong cách ngôn ngữ

Là công cụ kiểm định phong cách ngôn ngữ các đơn vị từ và cụm từ trong văn bản, phân tích cú pháp để tìm kiếm và chỉnh sửa các lỗi ngữ pháp, và kiểm định dữ liệu ngữ cảnh.   

4. Bộ kiểm định văn bản chung

Là công cụ kiểm định các hoạt động của quá trình dịch máy như bắt đầu một câu mới bằng chữ viết hoa, định vị khoảng cách đặc biệt giữa các từ và v.v.

5. Bộ phân tích cú pháp

Là loại công cụ phân tích văn bản về mặt ngữ nghĩa, nghĩa là thực hiện phân tích cú pháp. Bộ phân tích cú pháp xác định thành phần lời nói trong câu được gắn với mỗi từ. Tập hợp các từ và cụm từ đã được gán nhãn tạo thành một tập hợp câu và đoạn câu ngày một lớn về mặt ngữ pháp. Kết quả phân tích là nhánh đơn hoặc đoạn nhánh, sau đó, được chuyển qua phân tích nghĩa để xác định nghĩa từng câu riêng biệt. Các nhà nghiên cứu phát triển bộ phân tích cú pháp đã thực hiện nhiều phương pháp phân tích cú pháp khác nhau. Tuy nhiên, cần lưu ý rằng tất cả các hệ thống phân tích cú pháp hiện có còn chưa đủ mạnh và độ chuẩn xác còn thấp. Vì vậy, trong ngôn ngữ học khối liệu hiện nay, bộ phân tích cú pháp chưa đóng vai trò là công cụ thực hành tích cực đối với khối liệu ngôn ngữ.         

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – H

Posted by daothu09 on February 4, 2010

Dr. Dao Hong Thu

 

1. Hệ thống chú giải Cutting

Là hệ thống chú giải từ vựng (do Cutting D. phát triển năm 1992) sử dụng kĩ thuật xác suất tương tự như hệ thống chú giải tự động. Hệ thống chú giải Cutting có tỉ lệ thành công tương tự như các hệ thống chú giải từ vựng hàng đầu bằng tiếng Anh. Hệ thống chú giải Cutting có thể thực hiện được trên các phần văn bản không chú giải. Hệ thống này cũng được sử dụng để thiết kế từ điển tự động và thực hành các mẫu xác suất trực tiếp từ khối liệu đã được phân tích một cách tự động.

2. Hệ thống chú giải tự động

Là hệ thống chú giải từ vựng hàng đầu bằng tiếng Anh (do Garside R. phát triển năm 1987). Hệ thống chú giải tự động sử dụng hệ thống định hướng xác suất trên cơ sở xác suất tự động xuất phát từ khối liệu Brow đã được xây dựng trước đó.

3. Hệ thống quản trị thuật ngữ

Là công cụ thuật ngữ được sử dụng để ghi, lưu trữ, điều chỉnh và đưa ra dữ liệu thuật ngữ bằng phương pháp chuyên dụng. Các module của hệ thống quản trị thuật ngữ được tích hợp vào tất cả các phần mềm ứng dụng dành cho soạn thảo văn bản và tài liệu, hoặc phục vụ cho các công việc có liên quan đến thuật ngữ.

4. Học với sự hỗ trợ của máy tính

Là ứng dụng máy tính và phần mềm máy tính trên cơ sở ngữ liệu từ và cụm từ, có thể được sử dụng dưới các dạng thức khác nhau về các kĩ năng viết hoặc nói như sắp xếp lại câu, kiểm tra phần đã dịch, chính tả, điền từ và v.v. Học với sự hỗ trợ của máy tính cho phép truy cập trực tiếp dữ liệu cần thiết. Bằng phương pháp học với sự hỗ trợ của máy tính, người học có thể tự kiểm tra cách nói và viết của mình, cũng như có thể tự xây dựng bài học cho chính bản thân.      

5. Hướng dẫn chuẩn mã hóa văn bản

Là các qui tắc về mã đã được định chuẩn để mã hóa và phiên chuyển văn bản đọc trên máy. Hướng dẫn chuẩn mã hóa văn bản (được công bố tháng 5 năm 1994) cung cấp các qui tắc mã hóa chuẩn đối với các thể loại văn bản và đặc trưng liên quan trong quá trình mã hóa văn bản, bao gồm cả quá trình xử lí ngôn ngữ tự nhiên, phục hồi thông tin, siêu văn bản, công bố điện tử, các kiểu loại phân tích văn học và lịch sử, biên soạn từ điển và v.v.

Hướng dẫn chuẩn mã hóa văn bản là tài liệu hướng dẫn các phương pháp mã hóa văn bản và ngôn bản thuộc thể loại bất kì, ở dạng ngôn ngữ tự nhiên bất kì, thuộc dạng bất kì, cũng như không phụ thuộc vào thời đại lịch sử của văn bản, không hạn chế về kích thước và nội dung.

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – S

Posted by daothu09 on January 26, 2010

Dr.Dao Hong Thu 

1. Sản phẩm

Là khái niệm chung chỉ bất kì công cụ hoặc ứng dụng được thương mại hóa.

2. Sản phẩm giải nén ngôn ngữ

Là phần mềm độc lập, tương đối nhỏ hoặc hệ thống lớn, được sử dụng để giải nén thông tin ngôn ngữ từ các nguồn từ vựng hoặc khối liệu ngôn ngữ. Sản phẩm giải nén ngôn ngữ bao gồm các công cụ kĩ thuật ngôn ngữ và được chia thành hai loại: công cụ dựa trên nguyên tắc (nguyên tắc bàn tay) và công cụ thống kê. Tuy nhiên, phần lớn các hệ thống không chứa các công cụ theo chức năng riêng biệt và phương pháp tiếp cận là liên tục. Do đó, sự phân chia này chỉ là tương đối và trong ngôn ngữ học khối liệu gần như không được đề cập. Ngôn ngữ học khối liệu chỉ quan tâm đến sản phẩm giải nén ngôn ngữ đặc thù, nghĩa là phần bao gồm các loại công cụ nói chung với chức năng được mô tả. 

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – E

Posted by daothu09 on January 22, 2010

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – X

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

Xác định kiểu văn bản

Được sử dụng trong chuẩn mã hóa văn bản. Xác định kiểu văn bản chuẩn mã là mô tả đặc trưng giúp người sử dụng hoặc chương trình máy tính xác định được văn bản bao gồm những thành phần nào và những thành phần đó được kết hợp như thế nào.

Xác định kiểu văn bản chuẩn mã bao gồm các tệp nhãn chính, một tệp nhãn đơn cơ sở và các tệp nhãn bất kì bổ sung do người sử dụng lựa chọn, được xây dựng một cách hệ thống theo bộ qui ước trong Hướng dẫn chuẩn mã hóa văn bản.

Xác định đường nối

Là công nghệ kết nối các thành phần của văn bản (câu) hoặc của câu (từ, cụm từ) tương đương trong khối liệu song song. Xác định đường nối câu và từ (cụm từ) có thể được thực hiện tự động với độ chính xác cao. Đây là sự xác định trên thực tế đường nối chính xác giữa các văn bản trong một khối liệu song song.

Xử lí khối liệu

Là quá trình có liên quan đến chú giải, diễn giải và phân tích các khối liệu. 

Xử lí ngôn ngữ tự nhiên 

Thuật ngữ chung được sử dụng để chỉ toàn bộ các quá trình phân tích văn bản bằng các ngôn ngữ tự nhiên (ngôn ngữ tự nhiên là ngôn ngữ nhân tạo trên máy), cũng như các quá trình hiểu và tổng hợp chúng với ngôn ngữ của con người. 

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – T

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

1. Tài nguyên ngôn ngữ

Là thuật ngữ chung chỉ các nguồn tài nguyên thuộc lĩnh vực ngôn ngữ như khối văn bản và khối ngôn bản, danh mục tần số xuất hiện trong hoạt động ngôn ngữ, từ điển, từ điển ngôn ngữ học máy tính và các công cụ trích dẫn kiến thức về ngôn ngữ để phát triển và tối ưu hóa sản phẩm. Tài nguyên ngôn ngữ bao gồm khối liệu, nguồn từ vựng và các công cụ.

2. Tạo đơn nghĩa

Là sự loại bỏ nghĩa không rõ ràng bằng cách lựa chọn phân tích đặc thù hoặc mã (nhãn) trong quá trình xử lí khối liệu. Trình tự tạo đơn nghĩa có thể thực hiện ở nhiều mức độ, từ mức độ loại bỏ từ có nghĩa không rõ ràng (nghĩa là một từ có thể kết hợp với các từ loại khác nhau) đến lựa chọn một cách dịch tối ưu có thể. Tạo đơn nghĩa có thể là tạo đơn nghĩa xác suất, tức là được thực hiện theo phương pháp thống kê, hoặc là tạo đơn nghĩa nguyên tắc, tức là được thực hiện theo các nguyên tắc trên cơ sở kiến thức trực giác về ngôn ngữ.

3. Tệp nhãn

Là tập hợp nhãn dưới dạng sơ đồ chú giải khối liệu.

4. Thẩm định chuẩn kĩ thuật ngôn ngữ

Xác định rõ các chuẩn trong khắc phục sự cố về ngôn ngữ các nước của EU trong máy tính, ví dụ như chú giải. Đồng thời, thẩm định chuẩn kĩ thuật ngôn ngữ cũng là bộ chỉ dẫn chi tiết cơ bản cho chú giải từ vựng.

5. Tính phục hồi

Là khả năng dành cho người sử dụng có thể phục hồi được nguyên bản từ bất kì văn bản đã được chú giải thêm thông tin.

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – P

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

1. Phân nhỏ văn bản

Là công đoạn chia nhỏ câu thành các phân đoạn không trùng nhau trên cơ sở phân tích bên ngoài một cách đơn giản. Phân nhỏ văn bản là bước thực hiện ban đầu có ích cho công đoạn phân giải ngữ loại. Phân nhỏ văn bản bao gồm xác định phần cụm danh từ không lặp lại. Phân nhỏ văn bản còn là công đoạn có ích đối với các mục đích khác trong thực hành ngôn ngữ học khối liệu, bao gồm cả mục lục thế hệ thuật ngữ.

2. Phần đầu trang

Là phần trên cùng của một trang văn bản điện tử, thường được sử dụng để chứa thông tin của văn bản như thông tin về tác giả, đề mục, dẫn nguồn và v.v.

3. Phân tích cú pháp

Là ấn định cấu trúc cú pháp cho văn bản. Phân tích cú pháp thường được thực hiện sau khi các kiểu loại hình thái cú pháp đã được xác định trong văn bản. Quá trình phân tích cú pháp làm cho các kiểu loại hình thái cú pháp này có liên kết cú pháp ở mức độ cao hơn. Phân tích cú pháp, có lẽ, là dạng phổ biến nhất của chú giải khối liệu sau chú giải đại từ. Khối liệu đã được phân tích cú pháp, đôi khi, còn được gọi là treebank.

4. Phân tích cú pháp đầy đủ

Là dạng phân tích cấu trúc câu với mức độ chi tiết có thể.  

5. Phân tích cú pháp phần khung

Là kiểu phân tích cú pháp mang tính chất tạo bộ khung cho các bước phân tích cú pháp cụ thể văn bản khối liệu, ví dụ, phân tích cấu trúc cú pháp phần khung: cấu trúc bên trong của các thành phần cú pháp nhất định.

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – M

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

Mã hóa

Là trình bày dữ liệu văn bản và ngôn ngữ (tức là chú giải hoặc gán nhãn) ở dạng mẫu nhất định trong một khối liệu. Nhu cầu về tái sử dụng mở rộng các tập hợp văn bản lớn đòi hỏi phải tiêu chuẩn hóa dạng mẫu mã hóa. Dạng mẫu mã hóa chuẩn phải có tính phổ biến và tính linh hoạt nhất, tức là thích ứng được với tất cả các kiểu loại thông tin và xử lí thông tin tốt nhất.

Mô tả hệ thống

Là xác định tập hợp kí tự được sử dụng để mã hóa một văn bản. 

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – K

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

1. Khoảng cách

Là phép đo đồng ngữ cảnh của một từ được lựa chọn để nghiên cứu. Khoảng cách -4, +4 có nghĩa là 04 từ ở mỗi nút từ sẽ được chọn làm môi trường từ thích hợp.

2. Khối liệu

Là thuật ngữ chính trong ngôn ngữ học khối liệu chỉ: a) đơn vị văn bản bất kì (không phổ biến); b) đơn vị văn bản bất kì đọc được trên máy (phổ biến nhất); c) tập hợp văn bản nhất định đọc được trên máy (theo nguyên tắc). Các văn bản trong khối liệu bất kì được lựa chọn theo các thể loại văn bản khác nhau và phong cách ngôn ngữ khác nhau.

3. Khối liệu bão hòa

Là kiểu khối liệu không còn thu nạp hoặc loại bỏ số lượng từ hoặc cụm từ. Tốc độ phát triển của khối liệu ở mức không đổi, nghĩa là bị bão hòa. Một khối liệu được coi là bão hòa khi văn bản trong khối liệu được bổ sung lượng từ hoặc cụm từ không đáng kể, từ 5-8 / 10 000 đơn vị bổ sung.

4. Khối liệu cân bằng

Là kiểu khối liệu được được cấu tạo theo các tham số như kiểu văn bản, thể loại hoặc miền.

5. Khối liệu cấu trúc hình cây

Là kiểu khối liệu được chú giải bằng thông tin cấu trúc lời (hoặc khối liệu phân tích cú pháp). Thuật ngữ này mang tính đặc trưng cho mối quan hệ cú pháp (trong phân tích cú pháp) được thể hiện dưới dạng biểu đồ hình cây hoặc đánh dấu cú pháp. 

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – G

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

Ghi âm

Là dạng gán nhãn cho đơn vị âm để chuyển biên các khối liệu ngôn bản. Nhiều nhãn phiên âm tồn tại dưới dạng chú giải ngôn điệu. Ghi âm cần được thực hiện bởi con người. Hơn nữa, quá trình ghi âm còn cần các chuyên gia có trình độ nhận thức và chuyển âm thanh lời nói.

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – Đ

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

Đồng ngữ cảnh

Là các từ nằm ở vị trí cả hai phía của một từ hoặc cụm từ được lựa chọn.

Đồng trật tự

Là trật tự các từ xuất hiện bên trái và bên phải giao điểm.

Đồng tệp từ

Là tập hợp các từ có nghĩa tương tác nhất định, nghĩa là các từ thường xuyên có mối liên quan chặt chẽ với nhóm từ nhất định, ví dụ, các từ “máy tính, màn hình, ổ cứng, bàn phím” là đồng tập từ. Khi một đồng tập từ xuất hiện với tần số lớn thì được gọi là đồng tập từ trực tiếp. Thông thường, một đồng tập từ thường bao gồm tối đa 04 từ có nghĩa gần đan xen. Nhận dạng các mẫu có các từ cùng xuất hiện trong dữ liệu văn bản là đặc biệt quan trọng đối với việc biên soạn từ điển, xử lí ngôn ngữ tự nhiên và dạy ngữ.

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – D

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

Danh mục tần số sử dụng

Là danh mục được thành lập trên cơ sở tần số sử dụng của các đơn vị từ và cụm từ trong toàn bộ hệ thống dịch máy hoặc trên cơ sở thống kê các thành phần cú pháp trong một văn bản và tạo danh mục tần số xuất hiện của chúng. Hiện nay, thành lập các danh mục tần số sử dụng ngôn ngữ là không thể thiếu trong nghiên cứu và xây dựng các khối liệu ngôn ngữ.

Dịch máy

Là bộ môn của ngôn ngữ học máy tính, bao gồm toàn bộ các quá trình có liên quan đến dịch tự động. Dịch máy có nghĩa là văn bản dịch được thực hiện một cách tự động hoặc bán tự động trên máy tính. Hiện nay, dịch máy là một trợ giúp đắc lực cho biên, phiên dịch viên trong quá trình hoạt động dịch thuật. 

Dịch máy có hỗ trợ

Là hệ thống, chương trình hoặc ứng dụng máy tính bao gồm các công cụ và phương tiện thuận lợi nhằm giúp người dịch tăng năng suất và chất lượng công việc của mình. Các công cụ hỗ trợ dịch máy thường bao gồm từ điển tự động hóa đơn ngữ hoặc đa ngữ, bộ nhớ dịch thuật (để giúp máy không phải dịch hai lần các đoạn câu giống nhau trong một văn bản), bộ kiểm tra phát âm, cơ sở dữ liệu về thuật ngữ, bộ hiệu chỉnh dịch thuật, bộ sao chép thuật ngữ, bộ truy cập các văn bản đã dịch, bộ đối chiếu văn bản và v.v. 

Dẫn mục

Là dẫn mục từ hoặc cụm từ trong một ngữ cảnh. Dẫn mục là tâm điểm nghiên cứu và thực hành của ngôn ngữ học khối liệu do nó có khả năng truy cập nhiều thể loại cấu trúc ngôn ngữ trong văn bản.

Dẫn mục có thể thực hiện bằng phương pháp thủ công và trên thực tế, tồn tại đã từ rất lâu. Cho đến nay, nhiều dẫn mục như vậy vẫn còn giá trị sử dụng như các dẫn mục trong thư viện quốc gia, trong các cơ quan hành chính và v.v.

Công nghệ máy tính đã làm cho việc thực hiện dẫn mục được dễ dàng hơn rất nhiều. Các dẫn mục xuất hiện từ máy tính rất linh hoạt: ngữ cảnh của một từ hoặc cụm từ có thể được lựa chọn theo nhiều tiêu chuẩn khác nhau, ví dụ có thể thực hiện dẫn mục từ theo hình thức và ngữ nghĩa hoặc tìm ranh giới của câu v.v.

Trong khối liệu ngôn ngữ, dẫn mục thường thể hiện dưới dạng KWIC. Việc tìm kiếm các dữ liệu trong khối liệu ngôn ngữ thường cho phép sử dụng từ hoặc cụm từ bất kì để lập dẫn mục tất cả các từ hoặc cụm từ cần tìm trong ngữ cảnh với đầy đủ nguồn dẫn.

Như vậy, dẫn mục trong ngôn ngữ học khối liệu là toàn bộ dẫn mục được lựa chọn trong một khối liệu ngôn ngữ. Các tiện ích của máy tính khi sử dụng khối liệu thường được thực hiện trong chương trình dẫn mục thực hiện. Đây là phương tiện được sử dụng trong ngôn ngữ học khối liệu để kiểm tra các khối liệu ngôn ngữ.

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »

Từ điển ngôn ngữ học khối liệu tiếng Việt (Vietnamese Dictionary of Corpus Linguistics) – C

Posted by daothu09 on January 19, 2010

Dr. Dao Hong Thu

 

1. Chuẩn mã hóa khối liệu

Là sự đặt chuẩn mã hóa theo MULTEXT (Multilingual Text Tools and Corpora) – một trong những dự án lớn nhất của EU về công cụ ngôn ngữ và nguồn tài nguyên. Chuẩn mã hóa khối liệu là một ứng dụng của ngôn ngữ mã hóa theo chuẩn trên cơ sở và theo hợp đồng mở rộng bởi chuẩn mã hóa văn bản; và công cụ phù hợp tối ưu cho việc sử dụng trong ngôn ngữ học khối liệu và các ứng dụng công nghệ ngôn ngữ.

2. Chuẩn mã hóa văn bản

Là bộ chuẩn thuộc dự án nghiên cứu hợp tác quốc tế, được thành lập năm 1988 với mục đích phát triển tập hợp các hướng dẫn chuẩn bị và phiên chuyển văn bản điện tử một cách tổng thể và linh hoạt. Chuẩn mã hóa văn bản sử dụng kiểu đánh dấu văn bản đang tồn tại như ngôn ngữ mã hóa theo chuẩn. Chuẩn mã hóa văn bản đầu tiên là tập hợp chi tiết các hướng dẫn phương pháp sử dụng các chuẩn trong quá trình mã hóa văn bản.

3. Chú giải

Là quá trình gán thông tin chú thích bổ sung cho văn bản trong khối liệu và để mô tả thực chất thông tin. Chú giải (còn gọi là đánh dấu) cho phép lấy và phân tích thông tin ngôn ngữ có chứa trong khối liệu nhanh và dễ dàng hơn. Có thể chú giải cho khối liệu theo phương pháp thủ công bởi một hoặc nhiều người. Hoặc là, có thể thực hiện chú giải khối liệu một cách tổng thể một cách tự động (hoặc bán tự động) bằng chương trình máy tính tự động (hoặc bán tự động) với sự hiệu chỉnh đầu ra của kĩ thuật viên. Các kiểu chú giải ngôn ngữ cụ thể, có liên quan đến quá trình gán mã chuyên dụng cho từ hoặc cụm từ để chỉ ra các đặc trưng của từ hoặc cụm từ đó, thường được gọi là gán nhãn mà không phải là chú giải; mã được dùng để gán cho từ hoặc cụm từ được gọi là nhãn gán.

4. Chú giải âm điệu

Là kiểu chú giải đính kèm dưới dạng các siêu đoạn tính của ngôn bản, chủ yếu như trọng âm, ngữ điệu và ngắt đoạn. Chú giải âm điệu, còn gọi là ghi âm điệu, đòi hỏi công nghệ thủ công chất lượng cao từ các chuyên gia ngữ âm có trình độ. Không như phân tích cú pháp có thể dựa vào các chương trình máy tính, chú giải âm điệu được thực hiện theo thiết kế riêng.

5. Chú giải đại từ (Chú giải trùng lặp)

Là kiểu chú giải dùng để chú thích đại từ trong khối liệu. Chú giải đại từ chỉ có thể được thực hiện bởi phân tích viên vì đây là kiểu chú giải nhằm cung cấp dữ liệu cho chương trình chạy máy tính để thực hiện chú giải cho văn bản trong khối liệu. Điều này đóng vai trò đặc biệt quan trọng đối với quá trình xử lí ngôn ngữ tự nhiên do phần lớn các từ dẫn trong khái niệm cụ thể của văn bản thuộc khối liệu đều được thực hiện bởi các đại từ.

Posted in Từ điển Ngôn ngữ học khối liệu | Leave a Comment »