Xử lí ngôn ngữ

NHẬN DẠNG THỰC THỂ ĐỊNH DANH TRONG VĂN BẢN TIẾNG VIỆT
     

VŨ XUÂN LƯƠNG – Vietlex

(Bài báo cập nhật trên cơ sở bài gửi tham gia Hội thảo khoa học Giữ gìn sự trong sáng của tiếng Việt trên các phương tiện thông tin đại chúng. 5-11-2016)


 

1. Giới thiệu

Nhận dạng thực thể định danh (Named Entity Recognition – NER), còn gọi là nhận dạng thực thể có tên, là nhiệm vụ nhận biết các từ xuất hiện trong văn bản là tên gọi của một đối tượng nào đó, như tên người (nhân danh), tên đất (địa danh, địa điểm), tên tổ chức, tên tác phẩm, tên sự kiện, thời gian, tiền tệ, v.v. NER đóng vai trò quan trọng trong các ứng dụng tự động trích xuất thông tin, khai phá dữ liệu, dịch máy, v.v.

NER đã được quan tâm nghiên cứu trên thế giới từ đầu những năm 1990. Hiện nay các hệ thống NER cho tiếng Anh, tiếng Đức, tiếng Hà Lan, v.v. đã được xây dựng và được đánh giá cao. Điểm chung của các hệ thống NER này là tập trung đi vào nhận dạng 3 loại thực thể định danh: tên người, tên đấttên tổ chức.

Đối với tiếng Việt, có một số đơn vị thuộc lĩnh vực công nghệ thông tin đã xây dựng hệ thống NER, nhưng với quy mô công ti, có tính chất nội bộ và thường không phổ biến. Cho đến nay vẫn chưa có thông tin cụ thể về hệ thống NER trong văn bản tiếng Việt đã được xây dựng như thế nào. Vì lẽ đó, bài báo này đưa ra hướng nhận dạng 3 loại thực thể định danh điển hình là tên người, tên đất tên tổ chức trong văn bản tiếng Việt, nhằm mục đích xây dựng nguồn tài nguyên huấn luyện cho máy học (machine learning). Theo đó, các ứng dụng xử lí ngôn ngữ tự nhiên (Natural Language Processing) biết cách tự động trích xuất thông tin thực thể định danh trong các văn bản tiếng Việt, phục vụ cho một số yêu cầu thiết yếu của đời sống.

 

2. Vấn đề cơ bản trong NER

Nhận dạng ba loại thực thể định danh trong tiếng Việt được xác định tương thích với các loại thực thể được mô tả trong hệ thống NER của tiếng Anh và tiếng Đức.

○ Tên người (Person) gồm các loại tên sau:

- Tên, tên đệm và họ của một người: Nguyễn Văn A.

- Tên hiệu (biệt hiệu), bí danh (mật danh), biệt danh, v.v.

- Tên các nhân vật hư cấu: Ngọc Hoàng, Thiên Lôi, Sa Tăng, v.v.

○ Tên địa lí (Địa danh - Location) bao gồm các thực thể có toạ độ địa lí nhất định, ghi lại được trên bản đồ (trừ các địa danh tưởng tượng):

- Tên gọi các hành tinh: Mặt Trăng, Mặt Trời, Trái Đất, v.v.

- Tên gọi các thực thể mang yếu tố địa lí tự nhiên và địa lí lịch sử (quốc gia, vùng lãnh thổ, châu lục), các vùng quần cư (làng, thị trấn, thành phố, tỉnh, giáo khu, giáo xứ), v.v.

- Tên gọi các thực thể tự nhiên: đèo, núi, dãy núi, rừng, sông, suối, hồ, biển, vịnh, vũng, eo biển, đại dương, thung lũng, cao nguyên, đồng bằng, bãi biển, khu bảo tồn thiên nhiên, khu sinh thái, v.v.

- Tên gọi các thực thể là công trình xây dựng, công trình kiến trúc công cộng: cầu, đường, lâu đài, quảng trường, bảo tàng, trường học, nhà trẻ, thư viện, bệnh viện, nhà hát, nhà máy, v.v.

- Tên gọi địa điểm, địa chỉ thương mại: nhà hàng, khách sạn, hiệu thuốc, quán bar, v.v.

- Một số địa danh tưởng tượng khác: Vườn Địa Đàng, Sông Ngân, Cầu Ô Thước, v.v.

○ Tên tổ chức (Organization) bao gồm các loại tên sau:

- Các cơ quan chính phủ: các bộ ngành, uỷ ban nhân dân, hội đồng nhân dân, toà án, phòng ban, v.v.

- Các tổ chức chính trị: cơ quan báo chí, đảng phái chính trị, đoàn thể chính trị, hội nghề nghiệp, v.v.

- Kinh doanh, sản xuất: ngân hàng, thị trường chứng khoán, công ti, hãng phim, nhà sản xuất, hợp tác xã, v.v.

- Các thương hiệu: Honda, Sony, Samsung, v.v.

 

3. Định dạng ngữ liệu

- Ngữ liệu trước khi được gán nhãn NER sẽ được tách từ và/hoặc gán nhãn từ loại một cách tự động. Mỗi từ được đặt trên một dòng riêng biệt. Mỗi dòng bao gồm năm cột:

1. Đơn vị từ

2. Nhãn từ loại của từ

3. Nhãn cụm từ

4. Nhãn thực thể (mức 1)

5. Nhãn thực thể lồng  (mức 2)

- Nhãn thực thể được gán theo cấu trúc BIO. Có 7 nhãn: B-PER và I-PER cho tên người, B-LOC và I-LOC cho địa danh, B-ORG và I-ORG cho tên tổ chức, và O cho các phần tử khác. Kí hiệu B: Begin, dùng cho từ đầu tiên của thực thể. I: Inside, dùng cho các từ tiếp theo trong cụm thực thể. O: Other, dùng cho từ không thuộc bất cứ thực thể nào. Các nhãn từ loại: N: noun. NPP: proper noun. V: verb. A: adjective, v.v. Các nhãn cụm từ: NP, VP, AP, v.v. Ví dụ:

- Ở ví dụ trên, nhãn B-PER (Trịnh) chỉ ra đơn vị đầu tiên của tên người, nhãn I-PER là đơn vị tiếp theo và (cho đến khi) kết thúc của tên người (Xuân, Thanh). Nhãn B-ORG (Uỷ ban) chỉ ra đơn vị đầu tiên của tên tổ chức, nhãn I-ORG là đơn vị tiếp theo và kết thúc của tên tổ chức (Nhân dân, Tỉnh, Hậu Giang). Các đơn vị “Tỉnh, Hậu Giang”, về bản chất lại mang nhãn địa lí (location), chúng sẽ được miêu tả ở mức “Nhãn thực thể lồng” là: B-LOC (Tỉnh) - chỉ ra đơn vị đầu tiên của tên địa lí, và I-LOC (Hậu Giang) - chỉ ra đơn vị tiếp theo và kết thúc của tên địa lí.

- Trong bài báo này, để dễ hình dung, chúng tôi chỉ trình bày định dạng ngữ liệu ở dạng có ba cột: 1. Đơn vị từ; 2. Nhãn thực thể; 3. Nhãn thực thể lồng .

 

4. Nhận dạng thực thể


4.1. Tên người (Person)

○ Tên người (nhân danh) được xem là tên riêng. Viết hoa tên riêng là để chỉ ra rằng người đó chỉ có một mà thôi, không giống với người khác.

○ Thường đi trước tên người có các danh từ chung như ông, bà, anh, chị, chú, bác, thằng, chủ tịch, giám đốc, trưởng phòng, v.v. Các danh từ chung này được dùng để chỉ hoặc gọi người nào đó tuỳ theo mối quan hệ. Chẳng hạn, cùng một người tên Thanh, nhưng có người gọi anh Thanh, có người gọi ông Thanh, giám đốc Thanh, v.v. Chúng tôi cho rằng, các danh từ loại này không nằm trong cấu tạo tên người, vì chúng không có tính cố định.

4.1.1. Tên người là tên riêng chỉ từng cá nhân. Dạng đầy đủ, tên người gồm 3 thành phần: họ + chữ đệm + tên. Không phân biệt họ, chữ đệm tên vì coi chúng đều được riêng hoá, vì thế viết hoa chữ cái đầu của các âm tiết.

4.1.2. Dạng rút gọn còn 2 thành phần: họ + tên, hoặc tên + họ (các ngôn ngữ Ấn-Âu), hoặc chữ đệm + tên

4.1.3. Dạng rút còn 1 thành phần: tên gọi. Trường hợp có các danh từ chung là từ xưng hô đứng trước bộ phận tên (hoặc họ với các ngôn ngữ Ấn-Âu) thì các danh từ này không được coi là thuộc tên người. Trường hợp danh từ chung chỉ chức vụ, công việc, v.v. được dùng để gọi thay cho tên người đảm nhiệm chức vụ, công việc đó trong một không gian cụ thể (bối cảnh của câu chuyện) thì cũng được coi là tên người (có thể viết hoa theo phong cách: ông Hàn, cụ , cụ Đề, anh, v.v.).

4.1.4. Tên danh nhân, nhân vật lịch sử được cấu tạo bằng cách kết hợp giữa bộ phận là danh từ chung chỉ chức vụ, công việc hoặc từ tôn sùng (Y) với bộ phận là tên (CapWord - từ đỉnh) thì được coi là tên người (X). X = Y + CapWord. Chẳng hạn: Đề Thám, Đội Cấn, Cường, Ông Đùng, Đà, Thánh Gióng, Đức Phật Như Lai, v.v.

4.1.5. Tên hiệu, tên tự, bí danh cũng được coi là tên người.

4.2. Tên địa lí (Location)

4.2.1. Tên các quốc gia thuộc lĩnh vực Địa chính trị (Geo-Political), mang tính tri nhận phổ quát. Viết hoa tất cả chữ cái đầu của các yếu tố cấu tạo nên tên địa lí, trừ chữ “và” (and) có trong cấu trúc.

4.2.2. Tên địa phương được phân chia theo khu vực địa lí của một nước (như làng, xã, phường, huyện, quận, tỉnh, thành phố…), cũng là các đơn vị địa danh hành chính của một nước, thuộc tri thức nền mang tính cộng đồng cao. Chẳng hạn: New York, Paris, Canbera, Jakacta, Bangkok, Hà Nội, Hải Phòng, Hà Nam, Hoà Bình, Thanh Hoá, Quảng Nam, Kon Tum, Đắc Lắc, Lâm Đồng, Đồng Nai, Tiền Giang, Cà Mau, Cầu Dền, Cầu Giấy, Ba Vì, Gia Lâm, Củ Chi, Nhà Bè, Kiến An, Hải Châu, An Khê, Bát Xát, Mèo Vạc, Tân Trào, v.v.

- Với các kiểu cấu tạo Tỉnh Nam Định, Thành phố Nam Định, Thành phố Hà Nội, Thủ đô Hà Nội, Thành phố Hồ Chí Minh, Thành phố New York (New York City), v.v. là bao hàm ý phân biệt vị thế, cấp độ của một địa danh. So sánh:

Tỉnh Nam Định: tỉnh gồm Thành phố Nam Định và 9 huyện.
Thành phố Nam Định: trung tâm của Tỉnh Nam Định, không bao gồm 9 huyện.

- Với các cấu tạo Thành phố Hà Nội, Thủ đô Hà Nội, Hà Nội thì cả 3 kiểu đều chỉ chung một thực thể, do vậy chúng đồng nhất với nhau về tri nhận (Hà Nội là cách gọi rút gọn của Thành phố Hà Nội hoặcThủ đô Hà Nội). Trong khi, Thành phố Hồ Chí MinhHồ Chí Minh lại chỉ hai thực thể khác nhau: một chỉ địa danh, một chỉ nhân danh. Từ những lí do đó, chúng tôi cho rằng, yếu tố “thành phố, thủ đô, tỉnh, thị xã, thị trấn” là thành phần tham gia vào cấu tạo nên địa danh, và vì vậy coi cả khối Thành phố Nam Định, Thành phố Hồ Chí Minh là một đơn vị để phân biệt với Tỉnh Nam Định (bao hàm Thành phố Nam Định) và Hồ Chí Minh (chỉ người).

- Xử lí tương tự với các trường hợp: Tỉnh Đồng Nai, Quận Cầu Giấy, Quận 3, Quận Hai Bà Trưng (phân biệt với Phố Hai Bà Trưng), Phường Minh Khai (phân biệt với Phố Minh Khai), Huyện Cầu Kè, Huyện Sông Cầu (phân biệt với Sông Cầu), Thị trấn Chợ Đồn, Thị xã Sông Công, v.v.

4.2.3. Tên gọi chỉ thực thể địa lí tự nhiên (X) được cấu tạo giữa một danh từ chung chỉ loại của thực thể (Y: núi, rừng, sông, suối, hồ, biển, vịnh, vũng, châu, đại dương, đại lục, đồng bằng, cao nguyên, thiên thể, v.v.) luôn luôn xuất hiện với một tên gọi chính chỉ thực thể (CapWord) do nhu cầu phân biệt trong giao tiếp chi phối. Trong đó, CapWord thường là tên có lí do (theo một ý nghĩa, sự tích nào đó: Than Thở, Hoàn Kiếm, Kẻ Gỗ…; hoặc CapWord vốn là một tên gọi cụ thể khác).

Để đảm bảo tính khu biệt, tránh nhầm lẫn với các tên gọi có tính phổ biến khác, chúng tôi đề nghị xem X là tên địa lí, khi X = Y + CapWord (với tiếng nước ngoài thì thường X = CapWord + Y). Chẳng hạn: Hồ Tây, Hồ Gươm, Hồ Hoàn Kiếm, Hồ Ba Bể, Hồ Than Thở, Hồ Kẻ Gỗ, Sông Hồng, Sông Cầu, Sông Thái Bình, Sông Amazon (Amazon River), Sông Mississippi (Mississippi River), Sông Thêm, Sherwood Forest (một khu rừng ở Anh), Đảo Cô Tô, Quần đảo Hoàng Sa, Vịnh Hạ Long, Vịnh Cam Ranh, Núi Nùng, Núi Đọ, Núi Ba Vì, Đồng bằng Sông Hồng, Cao nguyên Lâm Viên, Châu Âu, Châu Phi, Thái Bình Dương, Lục địa Á-Âu, Mặt Trời, Mặt Trăng, Trái Đất, Sao Hoả (Hoả Tinh), Sao Mộc (Mộc Tinh), Sao Thổ (Thổ Tinh), Sao Thiên Vương (Thiên Vương Tinh), v.v.

4.2.4. Tên địa lí (X) được cấu tạo giữa một hay hai danh từ chỉ phương hướng (Y: đông, tây, bắc, nam, phương, đông nam, đông bắc, v.v.) luôn luôn xuất hiện với một tên gọi chính chỉ một vùng, một miền (CapWord). Để đảm bảo tính khu biệt, chúng tôi đề nghị xem X là tên địa lí, khi X = Y + CapWord (với tiếng nước ngoài thì thường X = CapWord + Y.). Chẳng hạn: Đông Á, Tây Á, Đông Âu, Tây Âu, Trung Mỹ, Trung Phi, Đông Dương, Đông Nam Á, Đông Bắc Á, Bắc Bán Cầu, Nam Bán Cầu, West Texas, Northern California, Northern Ireland, v.v.

4.2.5. Tên địa lí (X) được cấu tạo giữa một danh từ chung hoặc một (hay hai) danh từ chỉ hướng (Y: biển, miền, đông, tây, bắc, nam, phương, đông nam, nam trung, v.v.) với một danh từ chung hoặc một danh từ chỉ hướng (Z: hồ, bộ (chỉ đất liền), đông, tây, bắc, nam, phương, v.v.). Để đảm bảo tính khu biệt, chúng tôi đề nghị xem X là tên địa lí, khi X = Y + Z. Chằng hạn: Miền Bắc, Miền Nam, Phương Tây, Tây Phương, Bắc Bộ, Trung Bộ, Nam Bộ, Nam Trung Bộ, Đông Nam Bộ, Biển Đông, Biển Hồ, v.v.

4.2.6. Tên các công trình xây dựng, kiến trúc (X) được cấu tạo giữa một danh từ chung chỉ loại của công trình (Y: cầu, đường, phố, đại lộ, cao tốc, chùa, tháp, v.v.) luôn luôn xuất hiện với một tên gọi chính chỉ công trình (CapWord). Trong đó, CapWord thường là tên có lí do (theo một ý nghĩa, sự tích nào đó). Để đảm bảo tính khu biệt, chúng tôi đề nghị xem X là tên công trình, khi X = Y + CapWord (với tiếng nước ngoài thì thường X = CapWord + Y). Chẳng hạn: Phố Huế, Phố Cầu Gỗ, Đường Phạm Văn Đồng, Cầu Long Biên, Cầu Tràng Tiền, Cầu Bố, Cầu Si, Chùa Keo, Tháp Bút, Tháp Chàm, Tháp Eiffel (Eiffel Tower, Tour Eiffel), Đại lộ Thăng Long, Đường cao tốc Pháp Vân - Cầu Giẽ, Đường vành đai 3 Hà Nội, v.v.


4.3. Tên tổ chức (Organization)

4.3.1. X là tên tổ chức, khi X được tạo bởi một danh từ chung (Y) với một danh từ chỉ tên gọi cụ thể (CapWord). Danh từ chung có thể đứng trước hoặc đứng sau danh từ chỉ tên gọi cụ thể, và được coi như hai từ. X = Y + CapWord. Chẳng hạn: Đạo Phật, Đạo Thiên Chúa, Đạo Cao Đài, Đạo Kitô, Phật Giáo, Công Giáo, Thiên Chúa Giáo, v.v.

4.3.2. X là tên tổ chức, khi X được tạo bởi một một chuỗi từ, trong đó có cả danh từ chung và danh từ riêng. Căn cứ vào các thành tố tạo nên tên tổ chức, viết hoa chữ cái đầu của mỗi thành tố. Chẳng hạn: Bộ Ngoại giao, Bộ Giáo dục và Đào tạo, Trường Đại học Bách khoa Hà Nội, Trường Đại học Công nghệ, Trường Đại học Khoa học Tự nhiên Hà Nội, Nhà máy Thuốc lá Thăng Long, Công ti Xuất nhập khẩu Hải Hà, v.v.

 

5. Xử lí các vấn đề nhập nhằng


5.1. Nhập nhằng về cấu trúc


5.2. Nhập nhằng về ngữ nghĩa

5.2.1. Nhập nhằng giữa tên người và tên đường phố, tên thành phố

5.2.2. Nhập nhằng giữa LOCATION và ORGANIZATION

 

6. Kết luận

○ Chẳng có lí gì khi “phương” trong “phương Tây” thì viết thường, nhưng trong “Tây Phương” lại viết hoa; “châu” trong “châu Âu” thì viết thường, nhưng trong “Âu Châu” lại viết hoa; “sao” trong “sao Thổ” thì viết thường, nhưng “tinh” trong “Thổ Tinh” lại viết hoa, v.v. Có ý kiến cho rằng, sở dĩ viết “phương Tây, sao Thổ” là do chi phối của kết hợp theo trật tự ngữ pháp tiếng Việt, còn viết “Tây Phương, Thổ Tinh” là do chi phối của kết hợp theo trật tự ngữ pháp tiếng Hán. Trong khi “đạo” trong “đạo Phật” và “giáo” trong “Phật giáo” thì đều viết thường (?!) Theo chúng tôi, sự kết hợp của các yếu tố cấu tạo nên từ vựng theo trật tự ngữ pháp tiếng Việt hay theo trật tự ngữ pháp tiếng Hán phần lớn là tạo ra sự khác nhau về ý nghĩa từ vựng, hoặc khác nhau về sắc thái ngữ nghĩa mà thôi. Ví dụ: thanh thiên (trời xanh) và thiên thanh (có màu xanh da trời); bệ hạ (từ chỉ vua, dùng để nói với vua) và hạ bệ (lật đổ khỏi địa vị), đạo Phật (thông thường), Phật giáo (chuyên môn), v.v.

○ Với những thành tựu trong việc gán nhãn ngữ nghĩa tự động cho ngữ liệu đang diễn ra hiện nay, vấn đề chưa thống nhất trong cách viết tên riêng tiếng Việt tuy là trở ngại, nhưng hoàn toàn có thể vượt qua. Bình diện ý nghĩa của đơn vị ngôn ngữ ngày càng được khai phá một cách toàn diện và có chiều sâu, báo hiệu một xu thế phát triển mới về khoa học dữ liệu trong tương lai gần.

 

TÀI LIỆU THAM KHẢO

[1] Bộ Nội vụ (2011), Hướng dẫn thể thức và kỹ thuật trình bày văn bản hành chính, Thông tư Số: 01/2011/TT-BNV.

[2] https://sites.google.com/site/germeval2014ner/

[3] http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html

[4] http://www.clips.uantwerpen.be/conll2002/ner/

[5] http://www.cnts.ua.ac.be/conll2003/ner/

[6] http://www.cs.nyu.edu/cs/faculty/grishman/NEtask20.book 7.html#HEADING18

[7] NER Data tiếng Anh (eng.testa.txt), tiếng Đức (de-train.txt), tiếng Hà Lan (ned-train.txt).

[8] Nguyễn Thị Minh Huyền, Vũ Xuân Lương (2016), Named Entity Recognition, IEEE-RIVF International Conference on Computing and Communication Technologies. Hanoi, Vietnam, Nov 7-9, 2016.

[9] Nguyễn Thiện Giáp (2002), Vấn đề chuẩn hoá từ vựng tiếng Việt, Từ vựng học tiếng Việt. NXB Giáo dục, Hà Nội.

[10] Nguyễn Trọng Báu (2005), Những quy cách viết hoa trong tiếng Việt, Từ điển chính tả tiếng Việt, Nxb Văn hoá Thông tin.

 

 

Bài đăng trước:

  • XÂY DỰNG MÔ HÌNH NGỮ NGHĨA ÁP DỤNG CHO VIỆC BIÊN SOẠN TỪ ĐIỂN GIẢI THÍCH
  • Hướng tới việc xây dựng MẠNG TỪ tiếng Việt
  • Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lí ngôn ngữ và biên soạn từ điển
  • Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt
  • Xác định dãy từ đồng nghĩa khi xây dựng Wordnet tiếng Việt