Giới thiệu Kho ngữ liệu tiếng Việt
- Vietnamese Corpus -

● Trên thế giới, việc xây dựng ngân hàng ngữ liệu (Databank hoặc Database) đã có từ lâu. Trong Databank (hoặc Database) thường được tổ chức thành nhiều kho ngữ liệu khác nhau, gọi là Corpus. Một tập hợp gồm nhiều Corpus gọi là Corpora. Nổi tiếng nhất phải kể đến là Kho ngữ liệu tiếng Anh quốc tế (ICE: International Corpus of English), Kho ngữ liệu tiếng Anh quốc tế ở Anh (ICE-GB: International Corpus of English - Great Britain), Kho ngữ liệu tiếng Anh quốc gia (NBC: British National Corpus), và gần đây là Sketch Engine với một Corpora đồ sộ gồm khoảng 20 Corpus (trong đó có Vietnamese Corpus), v.v.

● Ở Việt Nam, Trung tâm từ điển học (Vietlex) là nơi đi tiên phong trong việc xây dựng kho ngữ liệu cho tiếng Việt (Vietnamese Corpus). Từ khi bắt đầu xây dựng (1998) cho đến nay, Kho ngữ liệu tiếng Việt của Vietlex (Vietlex Corpus) chứa khoảng 80.000.000 âm tiết (tương đương gần 4 triệu câu), được thu thập từ các tác phẩm văn học và báo chí, các tác phẩm khoa học, các văn bản pháp luật, các bài viết chuyên ngành, v.v.

● Điểm nổi bật trong phiên bản lần này của Vietlex Corpus là các văn bản chứa trong nó đã được tách từ (word segmentation). Chẳng hạn, khi muốn tìm kiếm từ "xã" xuất hiện trong Kho văn bản thì ta được kết quả là một tập hợp ngữ cảnh (context) của "xã" không thuộc trong các tập hợp (từ) như "xã hội", "xã viên", "xã tắc, "hợp tác xã", "Đức quốc xã", v.v. Ngược lại, khi muốn tìm kiếm từ "xã hội" thì ta được kết quả là một tập hợp ngữ cảnh của từ "xã hội" không bao gồm tổ hợp có "xã + hội" đứng ngẫu nhiên cạnh nhau, dạng như trong trong câu "Ngôi nhà này được dùng làm nơi cho xã hội họp.". Ở đây, đứng độc lập, có nghĩa là đơn vị hành chính cơ sở ở nông thôn, nó không kết hợp với hội (hội kết hợp với họp để thành từ hội họp).

● Vietlex sử dụng Chương trình Tokenizer 4.11 để tách từ tự động cho văn bản. Sau đó chúng tôi nhờ chuyên gia kiểm tra xác suất các văn bản tách từ tự động này. Do số lượng công việc rất lớn nên chúng tôi sẽ Upload dần dần các ngữ liệu lên Website của Vietlex để người duyệt Web sử dụng MIỄN PHÍ.

● Vietlex Corpus được tổ chức thành các loại văn bản sau:

1. Ngôn ngữ & Văn học.
2. Lịch sử.
3. Khoa học xã hội (kinh tế học, luật học, dân tộc học, khảo cổ học, tâm lí học,...).
4. Khoa học về sự sống (sinh học, y học, nông nghiệp, môi trường).
4. Khoc học tự nhiên & Công nghệ (toán học, hoá học, vật lí, địa chất, tin học,...).
6. Nghệ thuật (sân khấu, điện ảnh, nhiếp ảnh, âm nhạc, mĩ thuật, kiến trúc, múa).
7. Thể thao & Giải trí (thể thao, trò chơi).
8. Báo chí.

Để thể loại "Báo chí" là không logic với 7 loại văn bản trên (phân chia theo nhóm chuyên ngành). Nhưng do chưa có điều kiện phân loại nên chúng tôi tạm để chung tất cả văn bản thu thập từ nguồn báo chí ở mục 8 này. Khi nào có điều kiện, chúng tôi sẽ phân chúng về 7 loại văn bản trên.

Trong tương lai, nếu có nhu cầu phân loại nhỏ hơn thì công việc sẽ được tiếp tục tiến hành.

Vietlex rất mong nhận được những góp ý của người dùng.
Xin trân trọng cảm ơn.