Xử lí ngôn ngữ

Quy tắc sắp xếp đơn vị từ vựng trong từ điển tiếng Việt
     

VŨ XUÂN LƯƠNG

1. Các mục từ (đơn vị từ vựng) trong từ điển được xếp theo thứ tự các chữ cái:

a ă â b c d đ e ê f g h i j k l m n o ô ơ p q r s t u ư v w x y z2. Theo các dấu giọng: không dấu, huyền, hỏi, ngã, sắc, nặng. Có thể cụ thể hoá hai quy tắc trên bằng trật tự như sau:

a à ả ã á ạ ă ằ ẳ ẵ ắ ặ â ầ ẩ ẫ ấ ậ b c d đ e è ẻ ẽ é ẹ ê ề ể ễ ế ệ f g h i ì ỉ ĩ í ị j k l m n o ò ỏ õ ó ọ ô ồ ổ ỗ ố ộ ơ ờ ở ỡ ớ ợ p q r s t u ù ủ ũ ú ụ ư ừ ử ữ ứ ự v w x y ỳ ỷ ỹ ý ỵ z

3. Đơn vị căn cứ để xếp là từng khối viết liền (tổ hợp các con chữ), đơn tiết hoặc đa tiết, tính từ trái sang phải, khối chữ nào có ít con chữ hơn (thường là âm tiết) luôn xếp trước khối chữ (có phần trùng với khối chữ có ít con chữ) có nhiều chữ hơn.

4. Ưu tiên trật tự chữ cái trước, sau mới đến thanh điệu trong khi sắp xếp

4.1. Đối với từ đơn tiết, nếu âm tiết* (phân biệt bằng khoảng trống - space) nào có dấu hiệu khu biệt về khối chữ thì dựa vào trật tự của khối chữ để sắp xếp, bất luận mang thanh điệu gì. Ví dụ:

ang xếp trước anh trong mọi trường hợp, bất luận chúng mang thanh điệu gì, vì ở angg xếp trước hanh; ác xếp trước áchac+zero** xếp trước ac+h, bất luận chúng mang thanh điệu gì; apatit xếp trước apxeapa- xếp trước apx-; v.v.

4.2. Đối với từ đơn tiết, nếu âm tiết nào không có dấu hiệu khu biệt về khối chữ thì căn cứ vào thanh điệu để sắp xếp. Ví dụ: ba, bà, bả; hai, hài, hại, v.v.

4.3. Đối với từ đa tiết, căn cứ vào thứ tự của từng âm tiết từ trái sang phải để sắp xếp, sau mới căn cứ vào thanh điệu (kết hợp cả hai cách 4.1 và 4.2). Ví dụ:

ba bể xếp trước ba gácbể xếp trước gác; ba bể, ba gác, ba que... xếp trước bà côba ở các mục từ trên xếp trước bà cô. Như vậy, bất cứ âm tiết nào kết hợp với ba (ba đứng đầu) để tạo nên đơn vị từ vựng mới (mục từ, đa tiết) cũng luôn luôn xếp trước bất cứ đơn vị từ vựng nào có mặt âm tiết ( đứng đầu).

Lưu ý: đối với những hình thức ghi cách phát âm phổ biến của mục từ vay mượn tiếng nước ngoài kiểu như cu-lông, a-xpi-rin..., thì dấu gạch ngang xem như zero, và xếp bình thường như một từ đa tiết khác. Ví dụ: a-xpi-rin xếp sau a tònga+zero+x xếp sau a+zero+t; và a-xpi-rin xếp trên à, à ơia (không dấu) xếp trước à (dấu huyền), v.v.
Chú thích:
* Đối với từ vay mượn tiếng nước ngoài, là những ngôn ngữ đa tiết tính, nên khái niệm âm tiết ở đây sẽ không chính xác. Nhưng để tiện làm việc, chúng tôi coi các khối chữ phân biệt với nhau bằng khoảng trống là một âm tiết, đồng nhất với âm tiết tiếng Việt.
** Khoảng trống ở sau một khối chữ (âm tiết) chúng tôi gọi là zero, nó được quy ước xếp trên cả chữ cái A trong mọi trường hợp.
 

 

Bài đăng trước:

  • Quy tắc đặt dấu thanh trong tiếng Việt