Xử lí ngôn ngữ

Hướng tới việc xây dựng MẠNG TỪ tiếng Việt

Sáng ngày 19-3-2014, tại Viện Hàn lâm Khoa học Xã hội Việt Nam (Số 1, Liễu Giai, Hà Nội) đã diễn ra Hội thảo khoa học với chủ đề “Hướng tới việc xây dựng Mạng từ tiếng Việt, thuộc Đề tài Khoa học Công nghệ cấp Nhà nước: “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt” do Công ty Cổ phần dịch vụ CNTT NaisCorp tổ chức. Hội thảo đã thu hút được đông đảo các chuyên gia hàng đầu về ngôn ngữ học và tin học từ các viện nghiên cứu và các trường đại học tới dự, như: Viện Ngôn ngữ học, Viện Từ điển học và Bách khoa thư, Viện Công nghệ Thông tin, Trường Đại học Công nghệ, Trường Đại học Khoa học Tự nhiên, Trường Đại học Bách khoa, Học viện Kĩ thuật quân sự, Trung tâm Từ điển học, v.v. Vietlex xin đăng Lời giới thiệu của TS Nguyễn Phương Thái (chủ nhiệm Đề tài).

 

LỜI GIỚI THIỆU

Mạng từ (wordnet) là một cơ sở dữ liệu về hệ thống từ vựng của ngôn ngữ trong đó các từ ngữ được nhóm lại thành các loạt đồng nghĩa (synset), các loạt đồng nghĩa được liên kết với nhau thông qua các quan hệ ngữ nghĩa. Mạng từ vừa có ý nghĩa như là một loại từ điển có tính trực quan cao, nhưng quan trọng hơn, vừa có thể được sử dụng để phân tích tự động văn bản, xử lí ngôn ngữ tự nhiên, và các ứng dụng trí tuệ nhân tạo khác.

Mạng từ đầu tiên trên thế giới được phát triển cho tiếng Anh tại Đại học Princeton, Mỹ. Cho đến nay đã có nhiều mạng từ khác đã ra đời như: mạng từ các ngôn ngữ Châu Âu, mạng từ tiếng Nhật, tiếng Thái, v.v. Ở Việt Nam, Mạng từ tiếng Việt vẫn chưa được xây dựng. Vì thế, việc xây dựng Mạng từ tiếng Việt là mục tiêu chính của đề tài “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt” mã số “KC.01.20/11-15”.

Hội thảo này có mục đích giới thiệu bài toán xây dựng Mạng từ tiếng Việt và một số kết quả ban đầu của việc xây dựng Mạng từ tiếng Việt. Bên cạnh đó, khi tổ chức Hội thảo này, chúng tôi còn mong muốn nhận được các ý kiến đóng góp từ các chuyên gia trong lĩnh vực ngôn ngữ học và lĩnh vực ngôn ngữ học tính toán.

Các báo cáo được tập hợp và in trong kỷ yếu của Hội thảo này xoay quanh các vấn đề cơ bản như: kinh nghiệm xây dựng mạng từ các ngôn ngữ trên thế giới; so sánh mạng từ với từ điển ngữ văn truyền thống; cách tiếp cận và nhận diện các quan hệ ngữ nghĩa trong Mạng từ tiếng Việt; phương pháp tính độ quan hệ ngữ nghĩa giữa các từ dựa vào mạng từ và ứng dụng nhận biết từ ghép đẳng lập. Bên cạnh đó, kinh nghiệm xây dựng từ điển ngữ văn truyền thống cũng được đề cập, cụ thể là mô hình ngữ nghĩa áp dụng cho xây dựng từ điển tiếng Việt.

Về cơ bản, nội dung mạng từ được xây dựng thủ công với sự trợ giúp của các chương trình máy tính. Tuy nhiên, hiện nay trong lĩnh vực ngôn ngữ học tính toán còn có tiếp cận tự động lọc ra quan hệ ngữ nghĩa giữa các từ dựa vào dữ liệu lớn sử dụng phương pháp thống kê tiên tiến. Để thể hiện sự đối chọi giữa hai tiếp cận, trong hội thảo cũng có báo cáo về mô hình hoá chủ đề tự động. Qua đó chúng ta thấy được sự đa dạng trong tiếp cận tính toán ngữ nghĩa của từ.

Hiện nay cùng với sự phát triển của CNTT nói chung, xử lí tiếng Việt đang là một lĩnh vực nghiên cứu và ứng dụng quan trọng, được thể hiện qua việc các hệ tìm kiếm, dịch tự động, nhận dạng tiếng nói,… đang ngày càng được nhiều người sử dụng. Mặc dù có sự khởi sắc như vậy, cộng đồng xử lí tiếng Việt rất cần các tài nguyên chung, công cụ chung để có thể sử dụng cho nghiên cứu và phát triển một cách lâu dài và có tính bền vững. Việc phát triển Mạng từ tiếng Việt, vì thế, cũng sẽ đóng góp cho sự phát triển của cộng đồng.

TS. Nguyễn Phương Thái

 

 

Bài đăng trước:

  • Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lí ngôn ngữ và biên soạn từ điển
  • Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt
  • Xác định dãy từ đồng nghĩa khi xây dựng Wordnet tiếng Việt
  • Xác định ĐƠN VỊ TỪ VỰNG MỚI xuất hiện trong văn bản tiếng Việt
  • Ngôn ngữ học máy tính và việc xây dựng từ điển