Xử lí ngôn ngữ

NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN TIẾNG VIỆT

(Bài báo cập nhật trên cơ sở bài gửi tham gia Hội thảo khoa học Giữ gìn sự trong sáng của tiếng Việt trên các phương tiện thông tin đại chúng. 5-11-2016)


 

1. Giới thiệu

Nhận dạng thực thể định danh (Named Entity Recognition – NER), còn gọi là nhận dạng thực thể có tên, là nhiệm vụ nhận biết các từ xuất hiện trong văn bản là tên gọi của một đối tượng nào đó, như tên người (nhân danh), tên đất (địa danh, địa điểm), tên tổ chức, tên tác phẩm, tên sự kiện, thời gian, tiền tệ, v.v. NER đóng vai trò quan trọng trong các ứng dụng tự động trích xuất thông tin, khai phá dữ liệu, dịch máy, v.v.

NER đã được quan tâm nghiên cứu trên thế giới từ đầu những năm 1990. Hiện nay các hệ thống NER cho tiếng Anh, tiếng Đức, tiếng Hà Lan, v.v. đã được xây dựng và được đánh giá cao. Điểm chung của các hệ thống NER này là tập trung đi vào nhận dạng 3 ...

     

VŨ XUÂN LƯƠNG – Vietlex

Chi tiết
 
XÂY DỰNG MÔ HÌNH NGỮ NGHĨA ÁP DỤNG CHO VIỆC BIÊN SOẠN TỪ ĐIỂN GIẢI THÍCH

1. ĐẶT VẤN ĐỀ

Quá trình con người nhận biết, hiểu biết về thế giới khách quan hầu như không có sự khác biệt giữa các dân tộc trên thế giới. Có chăng đó là sự khác biệt về cách thức tư duy, tức là cách thức sử dụng các đơn vị ngôn ngữ để phản ánh và tái hiện hiện thực vào trong tư duy. Người ta có thể hiểu biết về một đối tượng nào đó không có ở trước mặt khi nhắc đến tên gọi của nó. Tên gọi đó được biểu thị thông qua đơn vị từ. Như vậy, giữa từ và các đối tượng của hiện thực có một mối liên hệ với nhau. Tất cả những gì được thể hiện qua mối liên hệ ấy chính là nội dung của từ, cũng tức là ý nghĩa của từ. “Ý nghĩa là cái quyết định, là lí do tồn tại của ngôn ngữ. Không một đối tượng nào của ngôn ngữ học mà không liên hệ với ý nghĩa.” [3]

Cách thức tư duy ở mỗi cộng ...

     

VŨ XUÂN LƯƠNG – Vietlex

Chi tiết
 
Hướng tới việc xây dựng MẠNG TỪ tiếng Việt

Sáng ngày 19-3-2014, tại Viện Hàn lâm Khoa học Xã hội Việt Nam (Số 1, Liễu Giai, Hà Nội) đã diễn ra Hội thảo khoa học với chủ đề “Hướng tới việc xây dựng Mạng từ tiếng Việt, thuộc Đề tài Khoa học Công nghệ cấp Nhà nước: “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt” do Công ty Cổ phần dịch vụ CNTT NaisCorp tổ chức. Hội thảo đã thu hút được đông đảo các chuyên gia hàng đầu về ngôn ngữ học và tin học từ các viện nghiên cứu và các trường đại học tới dự, như: Viện Ngôn ngữ học, Viện Từ điển học và Bách khoa thư, Viện Công nghệ Thông tin, Trường Đại học Công nghệ, Trường Đại học Khoa học Tự nhiên, Trường Đại học Bách khoa, Học viện Kĩ thuật quân sự, Trung tâm Từ điển học, v.v. Vietlex xin đăng Lời giới thiệu của TS Nguyễn Phương Thái (chủ nhiệm Đề ...

Chi tiết
 
Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lí ngôn ngữ và biên soạn từ điển
SUMMARY
There has been much articlemention the importance of the corpus for the development of corpus linguistics in the last ten years. However, the situation of Vietnam now, not much deeply articleon this issue. The authors noted that corpus is useful for language study, especially for compiling the dictionary. This article presented an overview about the concepts corpus and corpus linguistics, and also tries to present more deeply about how to build common corpus today.
 
TÓM TẮT
Đã có nhiều bài viết nói về tầm quan trọng của kho ngữ liệu (corpus) đối với sự phát triển của ngôn ngữ học ngữ liệu (corpus linguistics) trong khoảng 10 năm trở lại đây. Tuy nhiên, trong bối cảnh Việt Nam hiện nay, chưa có nhiều bài nghiên cứu đi sâu vào vấn đề này. Nhận thấy kho ngữ liệu ngày càng trở nên hữu ích cho nghiên cứu ngôn ngữ, đặc biệt là cho biên soạn từ điển, bài báo sẽ giới thiệu khái quát về khái niệm kho ngữ ...
     

VŨ XUÂN LƯƠNG – Vietlex

Chi tiết
 
Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt

Natural Language Processing Laboratory Department of Electrical Engineering
Nagaoka University of Technology 940-2188, Nagaoka City, Niigata, Japan

 

Abstract
Trong tiếng Việt, dấu cách (space) không được sử dụng như 1 kí hiệu phân tách từ, nó chỉ có ý nghĩa phân tách các âm tiết với nhau. Vì thế, để xử lý tiếng Việt, bài toán tách từ (word segmentation) là 1 trong những bài toán cơ bản và quan trọng bậc nhất. Ngoài tiếng Việt, có khá nhiều các ngôn ngữ châu Á khác cũng cần bước tách từ, ví dụ như: tiếng Nhật, tiếng Trung, tiếng Hàn,… do đó vấn đề này nhận được sự quan tâm rộng rãi và có nhiều hướng tiếp cận khác nhau. Bài viết này sẽ tập trung phân tích hướng tiếp cận pointwise dựa trên máy học SVM: phân loại từng dấu cách một cách độc lập vào 2 loại: SPACE (kí hiệu tách từ) và UNDERSCORE (kí hiệu liên kết 2 âm tiết). Với phương pháp này, chúng tôi đã đạt được độ chính xác 98.2% trong thực ...
     

Lưu Tuấn Anh, Yamamoto Kazuhide

Chi tiết
 
1 2 3 4