Ngôn ngữ học

Thiết lập giao diện biên soạn từ điển ngôn ngữ trên máy tính
     

VŨ XUÂN LƯƠNG - Trung Tâm Từ Điển Học

Đặt vấn đề

Máy tính ra đời, lúc đầu là nhằm giúp con người làm những phép tính toán vốn phức tạp và tốn nhiều thì giờ, công sức. Dần dần, trong hầu hết các ứng dụng, người ta nhận thấy khả năng lưu trữ, truy xuất và xử lí thông tin của máy tính lại quan trọng hơn là khả năng tính toán số học đơn thuần của nó. Máy tính đã trở nên có ý nghĩa hơn khi giúp con người thực hiện những công việc vốn dĩ rất khó hình dung, khó kiểm soát nổi. Nhận thấy triển vọng của việc áp dụng khả năng của máy tính vào công tác từ điển học, bài viết này muốn đề xuất một kiểu giao diện biên soạn từ điển giải thích ngôn ngữ trên máy tính. Chúng tôi chủ yếu thu thập tư liệu từ các từ điển giải thích tiếng Việt, có tham khảo một số từ điển nước ngoài. Phạm vi vấn đề được đề cập tới gồm các nội dung sau:

1. Xác định cấu trúc mục từ
2. Thiết kế mô hình thu nhận dữ liệu
3. Thiết kế mẫu biên soạn nội dung mục từ
4. Xuất bản từ điển

I. Xác định cấu trúc mục từ cho từ điển giải thích ngôn ngữ

Nhìn vào một mục từ của từ điển, người ta luôn thấy rõ các loại thông tin khác nhau xuất hiện trong nó, như thông tin về đầu mục từ, từ nguyên, từ loại, kết hợp cú pháp, định nghĩa, ví dụ, v.v. Bản thân từ vựng của bất cứ một ngôn ngữ nào đó đều luôn tiềm tàng khả năng nảy sinh thông tin mới. Trong bối cảnh các quốc gia trên thế giới đang có xu hướng hội nhập trên hầu hết các lĩnh vực của đời sống xã hội, hiện tượng song ngữ đang dần trở thành phổ biến, chúng tôi đặc biệt quan tâm tới mặt đối chiếu ngôn ngữ, điều mà trước nay các từ điển giải thích thường ít chú trọng.

Xu hướng chung trong việc biên soạn các từ điển giải thích là càng ngày người ta càng cố gắng đưa thêm nhiều thông tin cho mỗi đơn vị từ vựng. Tuy nhiên, cho đến nay, chưa có một sự tổng kết nào về cấu trúc tổng quát cho một mục từ của từ điển giải thích ngôn ngữ (bao gồm những thông tin gì). Do đặc thù của từng ngôn ngữ nên có những yêu cầu khác nhau về việc đưa các thông tin trong cấu trúc mục từ từ điển. Dưới đây chúng tôi cố gắng đưa ra một danh sách các thông tin mà chúng tôi cho là tương đối đầy đủ, với hi vọng là có thể giúp ích vào việc áp dụng cho công tác biên soạn các từ điển giải thích ngôn ngữ. Danh sách này được lập ra trên cơ sở, một phần dựa trên tư liệu từ các từ điển giải thích tiếng Việt và một số từ điển giải thích tiếng nước ngoài có uy tín, một phần dựa trên mối quan tâm của những nhóm người sử dụng từ điển. Chẳng hạn, có người quan tâm đến thông tin về từ nguyên (gốc Hán, gốc Nam Á, gốc Anh, gốc Pháp, ...); thông tin về tính bách khoa, hướng dẫn sử dụng, v.v. Các thông tin mà chúng tôi đề nghị bao gồm:

1. Đầu mục từ chỉ ra dạng thức tồn tại của từ ngữ, là những đơn vị ngôn ngữ. Đơn vị này luôn đứng ở phần đầu trong cấu trúc của mục từ, là tên gọi của mục từ. Vì thế nó được coi là đơn vị cơ bản trong cấu trúc vĩ mô của cuốn từ điển, và được quy ước là từ khoá để có thể nhận diện được khi cần tra cứu.

2. Biến thể từ vựng ghi nhận trường hợp có hai đơn vị từ vựng đồng nghĩa và được dùng phổ biến như nhau, hoặc đơn vị từ vựng này được dùng phổ biến hơn đơn vị từ vựng kia, ví dụ: chờ đợi - đợi chờ, bề tôi - bầy tôi, phòng khuê - buồng khuê, v.v.

3. Biến thể chính tả ghi nhận trường hợp, có một đơn vị từ vựng nhưng có hai hình thức chính tả khác nhau và dùng phổ biến như nhau, hoặc hình thức chính tả của đơn vị từ vựng này được coi là chuẩn hơn hình thức chính tả của đơn vị từ vựng kia, ví dụ: mặc dầu - mặc dù, giâu gia - dâu da, xơ cua - xơcua, v.v.

4. Phiên âm áp dụng đối với những ngôn ngữ mà hình thức chữ viết (chính tả) của đơn vị từ vựng không chỉ ra cách đọc rõ ràng, chẳng hạn như trong tiếng Hán, tiếng Anh, v.v. Trong tiếng Việt thì thông tin này chỉ áp dụng cho những từ ngữ vay mượn tiếng nước ngoài, khi cần thiết.

5. Từ nguyên thường chỉ ra dạng chính tả gốc, nghĩa gốc hoặc giải thích nguồn gốc, lịch sử xuất xứ của đơn vị từ vựng, giúp người sử dụng từ điển nhận thức sâu hơn và rõ hơn về nghĩa hiện dùng.

6. Ngôn ngữ đối chiếu chỉ ra đơn vị từ vựng của ngôn ngữ khác (ngôn ngữ đích) tương đương về ý nghĩa từ vựng với từ vựng của ngôn ngữ đang được giải thích (ngôn ngữ gốc). Tuy nhiên, không phải lúc nào ngôn ngữ đích cũng có đơn vị từ vựng tương đương với ngôn ngữ gốc. Gặp những trường hợp như vậy, thường phải đối chiếu bằng nhóm từ, thậm chí bằng cả sự giải thích bằng ngôn ngữ đích. Không phải mọi từ điển giải thích đơn ngữ đều cần có thông tin này.

7. Chuyên ngành thường áp dụng cho những từ ngữ là thuật ngữ. Đây là lớp từ biểu thị các khái niệm khoa học - kĩ thuật, hoặc chuyên môn, ngành nghề và là bộ phận cấu thành hệ thống từ vựng của một ngôn ngữ. Việc đưa các chú thích chuyên ngành sẽ làm rút ngắn lời định nghĩa rất nhiều.

8. Từ loại chỉ ra phạm trù ngữ pháp bao gồm đặc điểm ngữ pháp, quan hệ cú pháp và ý nghĩa khái quát của đơn vị từ vựng. Căn cứ vào từ loại có thể nhận ra được chức năng của đơn vị từ vựng trong hoạt động ngôn ngữ, chẳng hạn chức năng chủ ngữ đối với danh từ, vị ngữ đối với động từ, v.v. Do đặc thù của tiếng Việt có thể có những mục từ còn bỏ trống chú thích từ loại.

9. Phong cách chỉ ra cách thức sử dụng hoặc lựa chọn ngôn ngữ trong những yêu cầu chức năng cụ thể nào đó, bao gồm các yếu tố biểu thị sắc thái tu từ như trang trọng, kiểu cách, văn chương, thông tục, khẩu ngữ

10. Phạm vi sử dụng chỉ ra các giới hạn về cách dùng từ trong những phạm vi, lĩnh vực sử dụng ngôn ngữ, bao gồm các yếu tố như cũ, ít dùng, phương ngữ, chuyên môn

11. Kết hợp cú pháp chỉ ra các khả năng sử dụng, phạm vi kết hợp cũng như chức năng cú pháp của đơn vị ngôn ngữ, như dùng độc lập, dùng để xưng gọi, dùng trong câu phủ định, dùng kết hợp với..., kết hợp hạn chế, dùng ở đầu câu, dùng làm thành phần phụ trong câu, v.v.

12. Chuyển chú áp dụng trong 2 trường hợp: 1) Chuyển chú một hình thức chính tả này (A)sang một hình thức chính tả khác (B) được coi là chuẩn hơn hoặc được dùng phổ biến hơn, chẳng hạn A x. B (B chuẩn hơn A); nếu cả hai hình thức chính tả đều là chuẩn và dùng phổ biến như nhau thì chuyển chú B x. A khi B đứng sau A (theo thứ tự chữ cái). 2) Chuyển chú một đơn vị từ vựng này (A) sang một đơn vị từ vựng khác (B) đồng nghĩa hoàn toàn, nhưng dùng phổ biến hơn, chẳng hạn A x. B (B dùng phổ biến hơn A); nếu hai đơn vị từ vựng đồng nghĩa hoàn toàn và được dùng phổ biến như nhau, thì chuyển chú b như a (khi b đứng sau a).

13. Định nghĩa nêu lên ý nghĩa cơ bản của đơn vị từ vựng được khái quát từ những cảnh huống cụ thể trong hoạt động ngôn ngữ. Đây là công việc chính yếu nhất trong công tác biên soạn từ điển giải thích ngôn ngữ.

14. Ví dụ nhằm bổ sung hoặc minh hoạ cho định nghĩa, góp phần làm rõ hơn về sắc thái, hay khía cạnh nào đó của nghĩa mà định nghĩa chưa nêu rõ, hoặc cho thấy khả năng cũng như phạm vi sử dụng của đơn vị từ vựng trong hoạt động ngôn ngữ.

15. Dạng láy chỉ ra dạng thức cấu tạo từ đặc thù của tiếng Việt, đó là dạng thức hoà phối ngữ âm từ đơn vị từ vựng đã có. Từ được tạo ra theo dạng láy thường đồng nghĩa (nhưng không hoàn toàn) với từ gốc, do giữa chúng có sự khác nhau ít nhiều về sắc thái ngữ nghĩa hoặc khả năng tổ hợp.

16. Kiến thức bách khoa giới thiệu thêm kiến thức khoa học (ngoài ý nghĩa từ vựng) cho những từ ngữ thường là các thuật ngữ chỉ khái niệm khoa học - kĩ thuật, góp phần nâng cao hiểu biết cho người sử dụng, hoặc đôi khi cũng có tác dụng làm rõ thêm định nghĩa. Thông tin này có thể đưa hoà quyện trong lời định nghĩa chung, nhưng cũng có thể được tách ra và phản ánh riêng cho rất nhiều mục từ, chỉ bằng một câu ngắn gọn, hoặc cho một số ít mục từ, được coi là quan trọng, nhưng định nghĩa bách khoa rất tỉ mỉ. Ví dụ:

- Từ điển Le Petit Larousse (1993), ở mục EAU (nước), trang 361, cột 2, chỗ có kí hiệu ■ trở đi là định nghĩa bách khoa, tạm dịch là: " Nước sôi ở 100ºC trong áp suất 1 atm, đông đặc ở 0ºC. Có trong khí quyển ở dạng hơi nước. 1 cm³ nước ở 4ºC nặng khoảng 1g. Nước tự nhiên có lẫn khí, các thứ muối tan trong nó và lẫn các loại bụi, đôi khi lẫn các vi khuẩn gây bệnh.
- Từ điển Le Dictionnaire du Français (1989), phần định nghĩa bách khoa bắt đầu từ chữ " ENCYCL " trở đi, ví dụ:


17. Từ đồng nghĩa và trái nghĩa chỉ ra nhóm từ vựng có ý nghĩa giống hoặc trái ngược với đơn vị từ vựng đang giải thích, giúp người sử dụng từ điển có cơ sở để so sánh khi muốn vận dụng từ ngữ trong các hoạt động ngôn ngữ cụ thể, đồng thời cũng giúp làm sáng tỏ thêm định nghĩa, ví dụ:
xấu >< đẹp, xấu >< tốt; đen >< trắng, (vận) đen >< đỏ, v.v.

18. Hướng dẫn sử dụng đưa ra những chỉ dẫn cụ thể, thường là về sắc thái ngữ nghĩa, phạm vi sử dụng, khả năng tổ hợp của từ ngữ. Đôi khi là lời khuyên nên dùng từ ngữ nào trong từng cảnh huống cụ thể.

19. Hình ảnh có chức năng minh hoạ cho phần định nghĩa, trong trường hợp lời định nghĩa không thể miêu tả đầy đủ và chính xác được nội dung phản ánh của đơn vị từ vựng. Chẳng hạn, người sử dụng từ điển sẽ nhận biết được chính xác hơn về các màu sắc, hoặc một số vật dụng cụ thể nếu có hình ảnh minh hoạ đi kèm trong mục từ, v.v.

20. Âm thanh đưa ra mẫu phát âm tự nhiên của đơn vị từ vựng, hoặc đưa ra mẫu âm thanh nghe thấy trong tự nhiên mà đơn vị từ vựng phản ánh, chẳng hạn rì rào, leng keng, răng rắc, v.v. Thông tin về âm thanh thường được áp dụng khi thiết kế từ điển điện tử trên máy tính. Âm thanh chân thực giúp tri giác nhanh chóng giọng nói của con người hơn bất cứ hình thức ghi chú cách phát âm nào. Nó không chỉ có ý nghĩa trong việc minh hoạ cho hàng loạt từ ngữ nói về âm thanh, mà còn làm tăng khả năng giao tiếp ngôn ngữ, nhất là trong việc học ngoại ngữ.

Ngoài những thông tin nêu trên, trong thực tế, còn có một số thông tin khác xuất hiện không thường xuyên. Chẳng hạn, thông tin về tổ hợp từ cố định (thành ngữ, tục ngữ, quán ngữ) ghi chú cho đầu mục từ, thường không được áp dụng thống nhất (nếu mục từ đưa ví dụ thì thông tin này nằm sau phần ví dụ). Hay các thông tin đóng vai trò là bộ phận kết hợp từ vựng - ngữ nghĩa hoặc từ vựng - cú pháp, nằm trong phần định nghĩa (thường để trong ngoặc), được thể hiện như là lời giải thích phụ, giúp cho phần định nghĩa được hoàn chỉnh hơn. Do các thông tin này thường không có vị trí xuất hiện ổn định, nên không thể biểu hiện chúng ở dạng mô hình được. Mặt khác, chúng tôi cho rằng, đây là thành phần kết hợp tương đối chặt chẽ trong lời định nghĩa, nên không nhất thiết phải tách riêng chúng ra. Thí dụ (phần gạch chân trong ngoặc đơn):

ái nữ d. (cũ; kc.). Người con gái yêu quý (của người nào đó)
an toạ đg. (kc.). (Những người dự họp) ngồi yên vào chỗ; ổn định chỗ ngồi. Mời các vị an toạ.
ăn ghém đg. 1. Ăn sống (rau quả) kèm với các thức ăn khác trong bữa ăn. 2 Nhai (thuốc lào) kèm với trầu. Vê thuốc lào ăn ghém.

II. Thiết kế mô hình thu nhận dữ liệu

Việc phân tích chu đáo, hợp lí cấu trúc vi mô của mục từ từ điển sẽ tránh được những rắc rối khi thiết kế mô hình thu nhận dữ liệu. Mô hình thu nhận dữ liệu được thiết kế khoa học sẽ làm cho mẫu biên soạn bớt rườm rà và tránh được những hành xử sai lầm khi làm việc.

Trong từ điển, hầu như không có mục từ nào biểu hiện đầy đủ các thông tin (đã được hạn định). Có khi, cùng một thông tin nhưng sự biểu hiện hoặc vị trí xuất hiện của nó trong một mục từ cũng rất khác nhau. Chẳng hạn:

- Ở những mục từ kiểu như: " cải giá đg. Lấy chồng khác sau khi chồng chết hoặc sau khi li dị. " , thông tin về đầu mục từ chỉ ra rằng, nó là đại diện duy nhất cho toàn bộ phần định nghĩa. Trong khi, ở những mục từ kiểu như:

balông cv. ba lông. d. (cũ). 1 Bóng tròn. 2 Khí cầu.
cả I t. 1 (kết hợp hạn chế). Ở bậc cao nhất, lớn nhất, đứng hàng đầu trong loại, về phạm vi hoặc mức độ tác động, chức năng, giá trị tinh thần,... 2 (hay p.). (dùng phụ trước đg., t.). Ở mức cao nhất, vừa nhiều vừa dễ dàng hoặc mạnh mẽ (nói về một số hoạt động của con người, nhất là hoạt động tâm lí)... 3 (hay đ.). Toàn thể, hết thảy, không trừ một thành phần nào...
II tr. Từ biểu thị ý nhấn mạnh về mức độ cao, phạm vi không hạn chế của sự việc...
thì thông tin về đầu mục từ lại chỉ ra rằng, nó là đại diện chung cho tất cả các nghĩa.

- Cùng một vị trí biểu hiện thông tin về từ loại, ở balông, thông tin này là chung cho cả hai nghĩa, trong khi đó ở cả, thông tin này lại không đồng nhất cho các nghĩa. Dấu hiệu ghi " I " chỉ ra rằng cả ba nghĩa thuộc I đều có chung ý nghĩa về " t. " . Tuy nhiên, do vị trí biểu hiện về thông tin từ loại ở nghĩa 1 so với nghĩa 2, 3 có khác nhau, nên sự nhận thức về từng nghĩa cũng có khác nhau. Cụ thể là: ở nghĩa 1 có duy nhất ý nghĩa " t. " , nghĩa 2 thêm " hay p. " , nghĩa 3 thêm " hay đ. " .

Sự không tường minh một một giữa hình thức biểu hiện với ý nghĩa diễn đạt như nêu ở trên là tương đối phổ biến ở những mục từ đa nghĩa hoặc mục từ đồng âm có quan hệ nguồn gốc - ngữ nghĩa. Có rất nhiều thông tin khác cũng xảy ra trường hợp tương tự như hai thông tin về đầu mục từ và từ loại. Do phải biểu hiện các thông tin theo chiều tuyến tính và do nhiều lí do khác thuộc về văn bản từ điển, nên ở những mục từ đa nghĩa hoặc mục từ đồng âm có quan hệ nguồn gốc - ngữ nghĩa, các thông tin thường được tỉnh lược hoặc được làm mờ đi. Việc nhận diện ra chúng đòi hỏi phải có tri thức về cáckí hiệu viết tắt, các chú thích, và các dấu hiệu quy ước về bố trí của từ điển.

Công việc của chúng tôi là diễn đạt cách tổ chức thông tin trong cấu trúc của một mục từ từ điển sang dạng mô hình thu nhận dữ liệu trên máy tính. Điều này sẽ rất khó khăn nếu không xuất phát từ những diễn đạt khác đi so với những quan niệm truyền thống. Chúng tôi cho rằng, mỗi một nghĩa (của mục từ đa nghĩa, hoặc mục từ đồng âm có quan hệ nguồn gốc - ngữ nghĩa) đều có quan hệ trực tiếp với đầu mục từ, thông tin về đầu mục từ cũng như mọi thông tin khác là bình đẳng cho tất cả các nghĩa. Vì thế, mô hình thu nhận dữ liệu mà chúng tôi đưa ra là áp dụng cho từng nghĩa một, với mục đích là biểu hiện tường minh một một giữa hình thức biểu hiện với ý nghĩa diễn đạt cho từng thông tin đã được xác định. Các ví dụ nêu trên khi được thể hiện trong mô hình thu nhận dữ liệu sẽ có hình thức như sau (được rút gọn lại):
 


Tuy nhiên, để có thể phục hồi như dạng sách từ điển, chúng tôi có tạo thêm những thành phần chứa kí hiệu trộn thêm vào. Quá trình đưa kí hiệu trộn thêm nằm trong mã nguồn của mẫu biên soạn, người biên soạn không cần tác động đến. Việc tạo những thành phần chứa kí hiệu trộn thêm phụ thuộc vào việc xác định cấu trúc vi mô của mục từ. Công việc này cần phải được tiến hành một cách kĩ lưỡng và khoa học, nhằm tránh tình trạng làm dư thừa, thất lạc, hoặc làm hoán đổi thông tin khi chuyến sang dạng văn bản từ điển. Sau khi đã xác định được mô hình thu nhận dữ liệu, các yêu cầu cũng như ý đồ đặt ra đều do chương trình ở mẫu biên soạn đảm nhiệm.

Cuối cùng, chúng tôi luôn chú ý đến tính khả mở (khả năng mở rộng) và tính khả chuyển (khả năng chuyển đổi) trong việc thiết kế mô hình thu nhận dữ liệu. Tính khả mở biểu hiện ở việc có thể dễ dàng bổ sung các thông tin khi cần thiết, còn tính khả chuyển biểu hiện ở khả năng tương thích khi chuyển sang các dạng mã dữ liệu khác nhau, phục vụ cho nhiều yêu cầu, nhiều đối tượng, v.v.

III. Thiết kế mẫu biên soạn nội dung mục từ

Công việc đòi hỏi nhiều công sức nhất đối với người biên soạn từ điển là việc lấp đầy các thông tin thuộc cấu trúc vi mô của mục từ. Trong số các thông tin của mục từ, có những thông tin chỉ thuần tuý là việc chọn lựa đơn vị biểu diễn trong một khuôn mẫu có sẵn và hạn định (tuy không phải là việc dễ). Đó là loại thông tin có tính “thủ tục”, ví dụ: thông tin về từ loại, chuyên ngành, ngữ dụng, v.v. Xuất phát từ thực tế của công việc biên soạn từ điển, chúng tôi cố gắng khuôn mẫu hoá đến mức tối đa một số thành phần tương đối rõ ràng, được lặp đi lặp lại rất nhiều lần. Người biên soạn chỉ làm mỗi một việc là chọn hay không chọn đơn vị thông tin đã được định danh trong tập hợp thông tin cùng loại.

Trong ngôn ngữ, thường có hiện tượng đẳng cấu ngữ nghĩa ở một số đơn vị từ vựng, khuôn mẫu định nghĩa các từ này giống nhau về cơ bản, vì vậy chúng tôi có chú ý đến việc đưa ra những mẫu định nghĩa chung, áp dụng cho cả nhóm. Nếu khai thác tốt khía cạnh này, có thể “chỉ” ra cho máy tính làm tự động một số công việc, giúp tiết kiệm thời gian, công sức, cũng như sẽ tránh được sự không nhất quán trong việc định nghĩa các mục từ có cùng cấu trúc ngữ nghĩa, ví dụ tháng, ngày thứ, hoa, cây, quả, v.v.

Mẫu biên soạn sẽ có nút lệnh chuyển sang biên soạn một mục từ khác, nếu trước đó đã có ít nhất một mục từ được biên soạn. Do hiện tượng đa nghĩa được thể hiện ngay cả ở trong cấu trúc của những mục từ đồng âm có quan hệ nguồn gốc - ngữ nghĩa, cho nên mẫu biên soạn sẽ đưa thêm hai nút lệnh nữa. Một nút lệnh áp dụng để biên soạn những mục từ đồng âm có quan hệ nguồn gốc - ngữ nghĩa, dấu hiệu khu biệt được phản ánh bằng kí hiệu, chẳng hạn là chữ số La Mã I, II, III, v.v., nó chỉ có hiệu lực khi trước đó đã biên soạn ít nhất một nội dung (đã có kí hiệu I). Một nút lệnh áp dụng để biên soạn các nghĩa của một mục từ đa nghĩa, dấu hiệu khu biệt được phản ánh bằng kí hiệu, chẳng hạn là chữ số A Rập 1, 2, 3, v.v., nó chỉ có hiệu lực khi trước đó đã biên soạn ít nhất một nghĩa cho mục từ (đã có kí hiệu 1). Ngoài ra, trong mẫu biên soạn còn có các nút lệnh khác tham chiếu đến các kho tư liệu được tổ chức để phục vụ cho việc biên soạn mục từ. Mẫu biên soạn được thiết kế đầy đủ hay rút gọn là tuỳ thuộc vào mục đích, yêu cầu cũng như quy mô của một cuốn từ điển.

Hướng thiết kế một mẫu biên soạn từ điển trên máy tính là nhằm giúp cho người biên soạn có một công cụ làm việc, nhờ đó có thể bỏ qua những trở ngại vốn dĩ có thể khắc phục được, để đầu tư thời gian và công sức nhiều hơn cho việc phân tích, định nghĩa từ, một công việc trọng tâm của công tác biên soạn từ điển. Sẽ rất tiện lợi và có ý nghĩa nếu như chỉ bằng một vài thao tác, những thông tin cần tham khảo cho việc định nghĩa mục từ hiện ra trước mắt người biên soạn. Vì vậy, chúng tôi luôn quan tâm tới việc xây dựng cơ sở ngữ liệu, hoặc cơ sở tri thức, phục vụ cho việc nghiên cứu ngôn ngữ nói chung, và công tác biên soạn từ điển nói riêng. Một mẫu biên soạn từ điển nếu được thiết kế hợp lí, khoa học, dựa trên một cơ sở tư liệu phong phú, không những tạo điều kiện cho việc ra đời những cuốn từ điển có chất lượng cao, mà còn tiết kiệm được phần lớn thời gian và công sức. Mẫu biên soạn mà chúng tôi thiết kế là một ứng dụng được thừa hưởng từ những thành quả mà dự án xây dựng Ngân hàng dữ liệu đa ngữ của Trung tâm Từ điển học đem lại. Chẳng hạn, khi làm việc trên mẫu biên soạn, chỉ bằng một vài cái nhấn con chuột, người biên soạn có thể dễ dàng tham khảo đến kho ngữ cảnh tinh, ngữ cảnh thô, các từ điển điện tử, các từ đã biên soạn có liên quan, v.v. và hàng loạt những lợi ích khác được tổ chức và xây dựng sẵn.

Minh hoạ 1: Mẫu biên soạn từ điển.
 


Minh hoạ 2: Tham khảo ngữ cảnh của mục từ ảo giác
 


Minh hoạ 3: Tham khảo các từ điển điện tử.
 IV. Xuất bản từ điển

Để xuất bản từ điển được nhanh chóng, chúng tôi thiết kế một mô hình chứa các thông tin thuộc một mục từ. Mô hình này như là một khuôn mẫu gán cho mỗi thông tin một hình thức nhất định. Các thông tin sẽ “chạy” qua khuôn và được định dạng theo như mong muốn, chẳng hạn như về phông chữ, cỡ chữ, dạng chữ, hình thức trang từ điển, v.v. Tuỳ theo mục đích xuất bản từ điển ở dạng sách hay dạng điện tử (CD Rom, máy từ điển, Internet) mà sẽ có những thay đổi khuôn mẫu cho phù hợp. Khi cần thay đổi hình thức cho một thông tin nào đó, chỉ cần sửa lại khuôn mẫu thì mọi giá trị thay đổi sẽ được cập nhật trở lại cho toàn bộ mục từ của cả cuốn từ điển.

Lợi ích của việc biên soạn từ điển trên máy tính không chỉ biểu hiện ở khả năng linh hoạt đưa thêm các thông tin vào mô hình thu nhận dữ liệu, dễ dàng trong việc sửa chữa, mà còn biểu hiện ở việc chủ động cho ra đời những dạng từ điển khác nhau từ mô hình tổng quát. Chẳng hạn, chúng ta có thể tạo ra từ điển ở dạng sách hoặc từ điển điện tử ở dạng CD Rom, máy từ điển hay ở dạng Web tra trực tuyến (on-line) trên Internet. Ưu điểm của loại từ điển điện tử không chỉ biểu hiện ở việc tra cứu nhanh chóng, tiện dụng mà còn biểu hiện ở khả năng phản ánh phong phú, đa dạng các thông tin như âm thanh, hình ảnh động mà ở từ điển dạng sách không thể có được. Ngoài ra, từ cuốn từ điển giải thích ngôn ngữ tổng quát, bằng một cơ cấu vấn tin được tích hợp sẵn, chúng ta có thể nhanh chóng tạo ra được những tư liệu phục vụ cho việc biên soạn nhiều loại từ điển khác nhau.

Cuối cùng, lợi ích sẽ được nhân lên gấp đôi khi thiết kế một giao diện biên soạn từ điển trên máy tính. Khi chúng ta xây dựng mô hình thu nhận dữ liệu cho mẫu biên soạn, thì cùng một lúc, chúng ta có được một cơ sở dữ liệu về từ điển. Cơ sở dữ liệu này rất có ý nghĩa trong việc cho ra đời những cuốn từ điển tiếp theo, cũng như sẽ giúp được rất nhiều cho công tác từ điển học nói riêng và nghiên cứu ngôn ngữ học nói chung.

Tài liệu tham khảo

[1] Ladislav Zgusta, Manual of lexicography, Praha 1971 - Academia (Bản dịch tiếng Việt của Viện Ngôn ngữ học).

[2] Nancy Ide and Jean Véronis, Text Encoding Initiative, Kluwer Academic Publishers (Reprinted from Computer & the Humanities, volume 29, Nos. 1,2 & 3 (1995)). (Bản dịch tiếng Việt của Ngô Trung Việt).

[3] Branimir K. Boguraev, Data Models for Lexicon Acquisition, International Workshop on Electronic Dictionaries, Japan Electronic Dictionary Research Institute, Oiso, Japan, November 1990.

[4] Nhiều tác giả (Nguyễn Ngọc Trâm chủ nhiệm đề tài), Một số vấn đề từ điển học, Viện Ngôn ngữ học - Nhà xuất bản Khoa học xã hội, Hà Nội, 1997.

[5] Ju.D. Apresjan, Thông tin ngữ dụng đối với từ điển giải thích (Nguyễn Đức Tồn dịch), Tạp chí Ngôn ngữ, số 7-8-9, 2000. [6] Hội Khai trí tiến đức (khởi thảo), Việt Nam tự điển, Hà Nội, 1931.

[7] Đào Văn Tập, Tự điển Việt Nam phổ thông, Nhà sách Vĩnh Bảo, Sài Gòn, 1951. [8] Thanh Nghị, Việt Nam tân tự điển, Sài Gòn, 1952.

[9] Lê Văn Đức, Tự điển Việt Nam, Nhà sách Khai trí, Sài Gòn, 1970. [10] Văn Tân (chủ biên), Từ điển tiếng Việt, Nhà xuất bản Khoa học xã hội, Hà Nội, 1994.

[11] Hoàng Phê (chủ biên), Từ điển tiếng Việt, Trung tâm Từ điển học - Nhà xuất bản Đà Nẵng, 2000. [12] Viện Ngôn ngữ học, Từ điển Anh - Việt, Nhà xuất bản Tp. Hồ Chí Minh, 1993.

[13] Le Petit Larousse, Larousse 1992.

[14] Le Dictionnaire du Français, Hachette 1989. [15] Oxford, Advanced Learner’s Dictionary, Oxford University Press, 1995.

[16] Longman, Dictionary of The English Language, 1991. [17] Using FrameMaker+SGML, Adobe, 1996.

[18] Nguyễn Quốc Cường, Hoàng Đức Hải, Cấu trúc dữ liệu + giải thuật = chương trình, Nhà xuất bản Giáo dục, 1996.

[19] Hoàng Quốc Ơn, SQL cho người không chuyên, Nhà xuất bản Thống kê, 1997.

[20] Lê Minh Trung - Trương Quang Thiện, Microsoft SQL Server - Hoạch định và xây dựng cơ sở dữ liệu cao cấp, Nhà xuất bản Thống kê, 1999.

(Nguồn: Tạp chí Ngôn ngữ học)

 

 

Bài đăng trước:

  • Thấy gì qua “Cơn địa chấn” Harry Potter?
  • Tấm lòng của một người Pháp yêu tiếng Việt
  • Nickname: Ảo và Thật
  • Có những cuốn sách quý mãi với thời gian
  • Chuẩn của tiếng Việt văn hoá