Ngôn ngữ học

Tin học và Ngôn ngữ học
     

GS HOÀNG PHÊ

Khi suy nghĩ trả lời những câu hỏi của tạp chí Tin học và Đời sống, tôi đã trao đổi ý kiến với một số chuyên gia tin học, các ông Ngô Trung Việt, Ngô Thanh Nhàn, Nguyễn Hoàng, những người cộng tác chặt chẽ với tôi từ nhiều năm nay trong việc ứng dụng công nghệ thông tin vào công tác nghiên cứu ngôn ngữ học, cụ thể trong công tác từ điển học. Những ý kiến sau đây là ý kiến chung của chúng tôi.
(Trả lời phỏng vấn của tạp chí Tin học và Đời sống)

1. Hỏi: Hiện nay công nghệ thông tin (CNTT) đã thâm nhập vào mọi lĩnh vực, mọi ngành trong xã hội. Xin Giáo sư cho biết về sự thâm nhập của CNTT trong ngành ngôn ngữ học (tiếng Việt) nói riêng?

Trả lời:

Ngôn ngữ học và tin học rất gần gũi nhau, và đó không phải là điều ngẫu nhiên. Ngôn ngữ được truyền thông chủ yếu qua tiếng nói và chữ viết; mỗi tiếng và mỗi chữ tiếp nối nhau như chuỗi hạt. Bộ nhớ và sự vận hành nội bộ của máy tính cũng thế, các đơn vị thông tin, bit và byte, cũng được ghi và đọc tuần tự từng mã một. Những người đầu tiên tìm cách lập trình cho máy tính đều dùng ngôn ngữ tự nhiên để làm mẫu. Không phải tình cờ mà Pascal, Fortran, Lisp, v.v. cũng đều được gọi là “ngôn ngữ”. Như thế đủ thấy ngôn ngữ đã xâm nhập trước tiên vào CNTT và được biến cải để phục vụ cho CNTT. Sau đó lại đến lượt CNTT xâm nhập vào ngôn ngữ và làm biến đổi cách nghĩ, cách sử dụng ngôn ngữ, phát triển thêm chức năng mới cho ngôn ngữ ngoài chức năng chính của nó.

Chức năng chủ yếu của ngôn ngữ là công cụ giao tiếp, mà thông tin là nội dung quan trọng hàng đầu của giao tiếp. Với sự phát triển của tin học, ngôn ngữ thực hiện chức năng của nó tốt hơn trước gấp bội, CNTT tạo điều kiện nghiên cứu ngôn ngữ nhiều mặt hơn, đạt kết quả nhanh hơn rất nhiều và với một độ chính xác cao theo yêu cầu; đồng thời mở ra nhiều khả năng mới nghiên cứu ngôn ngữ, đặt ra và từng bước giải quyết một loạt vấn đề có ý nghĩa khoa học và thực tiễn rất lớn, những vấn đề mà những thế hệ trước chúng ta không mấy người dám nghĩ đến, như chuyển đổi tiếng nói thành kí hiệu điều khiển hoặc văn tự, dịch máy, v.v.

Thành tựu của chúng ta trong việc áp dụng CNTT nghiên cứu và giải quyết những vấn đề ngôn ngữ còn rất khiêm tốn, chúng ta còn lạc hậu so với nhiều nước, nhưng cũng đã bước đầu làm được một số việc. Từ nhiều năm nay, Viện Ngôn ngữ học đã sử dụng CNTT nghiên cứu, phân tích các thông số âm học của ngôn ngữ, ứng dụng nghiên cứu, miêu tả 20 ngôn ngữ dân tộc thiểu số miền Bắc, đặc biệt chú ý các ngôn ngữ đang có nguy cơ mất đi, như tiếng Thuỷ, hiện chỉ còn vài ba người nói, tiếng Clao, hiện chỉ còn năm bảy gia đình sử dụng; Viện đã bắt đầu xây dựng một ngân hàng dữ liệu các ngôn ngữ dân tộc ở Việt Nam. Trước đây, trong những năm chiến tranh, Viện đã xây dựng kho phiếu tư liệu từ điển khoảng 3 triệu phiếu bằng phương pháp thủ công chỉ trong vòng mười lăm năm; đó là một thành tích rất lớn, và chính nhờ cơ sở dữ liệu này mà đã biên soạn thành công một quyển từ điển tiếng Việt. Nhưng ngày nay với CNTT, có thể xây dựng trong thời gian ngắn hơn rất nhiều một ngân hàng dữ liệu phong phú hơn gấp bội, với những dữ liệu chính xác hơn. Trung tâm Từ điển học đã bước đầu sử dụng CNTT biên soạn một vài quyển từ điển: Từ điển chính tả, Từ điển vần tiếng Việt..., và đang xây dựng một ngân hàng dữ liệu tiếng Việt; với sự đầu tư hạn hẹp và điều kiện trang thiết bị hạn chế, mới trong vòng một năm nhưng Trung tâm đã bước đầu xây dựng được một ngân hàng dữ liệu khoảng 50 triệu âm tiết. Một ngân hàng dữ liệu tiếng Việt phong phú sẽ phục vụ đắc lực không chỉ cho việc biên soạn các loại từ điển tiếng Việt, mà còn cho việc nghiên cứu tiếng Việt về rất nhiều mặt. Khi đã có một cơ sở dữ liệu về câu và từ tiếng Việt thì có thể đặt vấn đề nghiên cứu tiếng Việt một cách toàn diện, đầy đủ và khoa học hơn, dựa trên việc trích rút thông tin từ một tập hợp lớn các dữ liệu đó. Các từ và câu tiếng Việt thường dùng hằng ngày hàm ẩn những quy luật cấu thành mà thông thường các chuyên gia ngôn ngữ học, qua tiếp xúc với một số lượng lớn trường hợp cụ thể, có thể đưa ra một số nhận xét, qua đó phát hiện một số quy tắc, rút ra một số kết luận... Tuy nhiên rõ ràng là những kết quả nghiên cứu này ít nhiều mang tính chủ quan, thường vẫn có những điều có thể tranh cãi, vì vẫn thiếu một cơ sở chung để khẳng định. Nay với khả năng xử lí của CNTT, chúng ta có thể có được những kết luận mang tính tính toán, tổng hợp trên một số lượng dữ liệu lớn, và do đó có tính khẳng định và khái quát hơn.

Xu hướng nghiên cứu ngôn ngữ học hiện đại trên thế giới là ngày càng sử dụng rộng rãi máy tính, ngày càng trao cho máy tính chức năng xử lí dữ liệu và cung cấp các thông tin về ngôn ngữ.

Xu hướng thứ nhất là đưa tất cả các cách viết ngôn ngữ vào máy tính, điều này gắn liền với việc thực hiện mã hoá toàn bộ các loại chữ viết hiện có trên thế giới. Đi kèm với xu hướng này là tăng cường khả năng của máy tính trong việc đoán nhận các văn bản viết, đoán nhận hình dạng của chữ để khôi phục nguyên bản, đoán nhận ngữ nghĩa của văn bản để đi tới việc tự động dịch từ một ngôn ngữ này sang một ngôn ngữ kia.

Xu hướng thứ hai là đưa các hình ảnh văn bản vào máy tính, thành lập các dạng thư viện số hoá (hay còn gọi là thư viện điện tử) để lưu trữ tất cả các thông tin tri thức trên mạng lưới thông tin toàn cầu WWW, từ đó mở ra khả năng cung cấp cho từng người một tri thức của cả loài người đã tích luỹ. Điều này làm mở rộng khả năng của ngôn ngữ, từ một công cụ giao tiếp thông thường trở thành công cụ chuyển tải tri thức trên phạm vi toàn thế giới.

Xu hướng thứ ba là đưa âm thanh vào máy tính, gắn xử lí âm thanh với xử lí văn bản, tiến tới hình thành giao tiếp với máy tính thông qua lời nói thông thường. Xa hơn nữa, người ta còn mong muốn trang bị cho máy tính thêm các tri thức và khả năng xử lí, lập luận trong ngôn ngữ tự nhiên, để máy có thể trở thành người phụ tá, giúp việc cho con người trong các hoạt động xử lí thông tin cao cấp.

Cho tới nay, do những giới hạn “truyền thống” của CNTT và ứng dụng của nó, chúng ta có khuynh hướng chỉ dùng, trong CNTT, ngôn ngữ tự nhiên ở dạng viết của nó để trình bày và thảo luận. Bây giờ, với thông tin multi-media giá rẻ và dễ có được với số đông, khía cạnh tiếng nói (âm thanh) của ngôn ngữ cũng có thể được đưa vào trong những thảo luận, những “bài báo” nghiên cứu, cũng như những sách điện tử. Và điều đó sẽ làm cho việc áp dụng CNTT vào ngôn ngữ có ý nghĩa hơn nhiều.

CNTT đã chứng tỏ giá trị của nó như một công cụ cất giữ và tìm kiếm dữ liệu với khối lượng lớn, xử lí văn bản và xuất bản. Bước tiếp theo sẽ là khai thác khía cạnh multi-media của CNTT để có thể sử dụng rộng rãi ngôn ngữ nói. Một trong những khía cạnh thú vị của tiếng Việt là các thanh điệu, sự đa dạng trong phát âm qua thời gian và vị trí địa lí, cần được nghiên cứu về mặt này. Quan điểm multi-media về ngôn ngữ cũng có thể mở ra những biên giới mới với nhiều câu hỏi được đặt ra cho người nghiên cứu.

2. Hỏi: Ở Việt Nam đã có sự hợp tác như thế nào giữa hai ngành CNTT và ngôn ngữ học? Kết quả ra sao?

Trả lời:

Trong một loạt vấn đề rõ ràng là cần có sự hợp tác giữa tin học và ngôn ngữ học. Chẳng hạn, sử dụng tiếng Việt, CNTT cần dựa vào kết quả nghiên cứu ngôn ngữ học về chuẩn chính tả tiếng Việt để giải quyết thống nhất cách viết tiếng Việt, cách đánh các dấu thanh, v.v. Hoặc xây dựng một hệ dịch tự động Anh _ Việt vừa cần có tri thức tin học, vừa cần có tri thức ngôn ngữ học về tiếng Anh, tiếng Việt. Từ mấy năm nay đã có sự cộng tác giữa Viện Hán-Nôm, Chương trình quốc gia về CNTT, và cả một số Việt kiều chuyên gia tin học trong việc nghiên cứu ứng dụng CNTT vào các vấn đề mã hoá, lưu trữ, xử lí các văn bản chữ Nôm, xây dựng từ điển chữ Nôm, v.v. Bước đầu xây dựng ngân hàng dữ liệu tiếng Việt, Trung tâm Từ điển học đã được sự ủng hộ và cộng tác quý báu của một số chuyên gia tin học, Công ti 3C và Trung tâm tin học Cadpro. Nhưng những sự cộng tác như vậy chắc là còn có nhiều trong những lĩnh vực khác. Có điều là hình như chúng ta đang thiếu một chủ trương toàn diện của Nhà nước trong lĩnh vực này, chưa có những chương trình hợp tác chính thức giữa tin học và ngôn ngữ học tập trung giải quyết những vấn đề tương đối lớn.

Sự hợp tác giữa CNTT và ngôn ngữ học thể hiện ở góc độ CNTT phải được xem như một phương tiện mới tàng trữ và xử lí dữ liệu, cung cấp thông tin, giúp cho việc nghiên cứu ngôn ngữ. CNTT và ngôn ngữ đều phục vụ cho cuộc sống, CNTT phải uốn mình theo nhu cầu của ngôn ngữ chứ không phải là CNTT tạo ra cái khung buộc ngôn ngữ phải uốn mình theo. Nói như vậy có nghĩa là ở đây người làm kĩ thuật CNTT phải phục vụ cho yêu cầu của thực tế nghiên cứu ngôn ngữ. Điều này cũng hàm chứa một yêu cầu khác là người nghiên cứu ngôn ngữ phải biết nắm lấy kĩ thuật CNTT để thực hiện công việc của mình một cách tốt hơn, có hiệu quả hơn, chứ không thể nào cứ giữ mãi cách làm việc thủ công cũ kĩ không thích hợp với yêu cầu của thời đại.

Sự hợp tác hữu hiệu nhất giữa hai ngành phải là việc các chuyên gia của cả hai ngành đều chịu khó tìm hiểu lĩnh vực của nhau để đi đến hiểu nhau và biết tận dụng những sức mạnh của nhau, bổ sung lẫn cho nhau. Ban đầu sự hợp tác đến từ phía CNTT, những người đang phát triển các phần mềm có dính líu tới xử lí chữ Việt, họ bắt buộc phải bước vào lĩnh vực ngôn ngữ học để phản ánh được thực tại ngôn ngữ vào khả năng kĩ thuật. Khi mà họ đã tạo ra được tiền đề để xử lí chữ Việt trên máy tính thì đến lượt các nhà ngôn ngữ học phải bước vào lĩnh vực CNTT để ít nhất thì cũng biết được cách dùng máy móc xử lí dữ liệu ngôn ngữ của mình.

Sự hợp tác tiếp tục được đẩy tới với việc các công cụ và phương pháp tổ chức dữ liệu của CNTT được đưa vào để tổ chức đối tượng nghiên cứu của ngôn ngữ là các từ, câu, văn bản... Tại đây chúng ta thấy xuất hiện việc dứt khoát phải hình thành các cơ sở dữ liệu về từ và văn bản tiếng Việt. Các thông tin và tri thức về tiếng Việt cũng cần được tổ chức lại trên mạng Internet để cho ai cũng có thể sử dụng được. Và như vậy một diện rộng những người thụ hưởng thành tựu của sự kết hợp giữa CNTT và ngôn ngữ học sẽ làm nảy sinh một mặt bằng mới trong sự cộng tác giữa hai ngành này. Trên mặt bằng này, mọi người cùng tham gia sử dụng CNTT để khai thác khía cạnh mới nổi lên của ngôn ngữ là hình thức truyền thụ tri thức vượt qua không gian. Mặt khác, ngày nay, các nghiên cứu hiện đại về ngôn ngữ không tách rời khỏi việc dùng công cụ máy tính để sản sinh ra thông tin mới từ khối lượng lớn thông tin đã tích luỹ.

Ba mức độ nghiên cứu hiện đang được triển khai là: mức độ nghiên cứu cơ sở về biểu diễn chữ trong máy tính, mức độ biểu diễn văn bản trong máy tính (và cả trên mạng máy tính nữa), và mức độ nghiên cứu sâu về ngôn ngữ bằng CNTT.

Ở mức độ nghiên cứu cơ sở có các vấn đề mã hoá chữ (cho xử lí bên trong máy), vấn đề font chữ (để hiển thị và in ra trong giao tiếp với con người), vấn đề bàn phím đưa chữ vào máy (để con người đưa thông tin vào máy). Chúng ta đã tiến hành mã hoá chữ quốc ngữ (công việc kéo dài gần 10 năm, kết quả đã ban hành tiêu chuẩn quốc gia đầu tiên về CNTT là bộ mã chuẩn cho chữ Việt TCVN 5712:1993 – cần thừa nhận là chưa hoàn hảo nên tác dụng còn hạn chế); ban hành tiêu chuẩn bàn phím chữ Việt TCVN 6064:1995; ban hành hai tiêu chuẩn về chữ Nôm (còn có lỗi, chưa được sửa) TCVN 5773:1993, TCVN 6056:1995. Chúng ta đã đưa hơn 8000 chữ Nôm vào bộ mã quốc tế ISO 10646 và đang đưa chữ Chăm vào bộ mã này. Chúng ta đang nghiên cứu đề nghị đưa chữ Thái của Việt Nam vào bộ mã này cùng thống nhất với Thái Lan.

Ở mức độ biểu diễn văn bản có các vấn đề tổ chức lưu trữ khối lượng lớn văn bản, dưới dạng ảnh các bản thảo hay dưới dạng chuỗi các từ trong các tác phẩm; vấn đề bố trí trên các trang Web để nhiều người cùng đọc được, vấn đề bảo vệ quyền sở hữu thông tin... Việc xây dựng cơ sở dữ liệu các từ tiếng Việt tại Trung tâm Từ điển học là một cố gắng theo hướng này. Yêu cầu xây dựng các kho dữ liệu số hoá lưu trữ thông tin văn bản là rất cấp thiết, nhất là đối với các văn bản cổ. Nhưng lưu trữ bao giờ cũng phải gắn liền với phổ biến, sử dụng, khai thác thì mới có ý nghĩa. Lưu trữ kiểu bảo tồn đơn thuần chỉ là công việc tốn công, tốn của mà dữ liệu thì cuối cùng vẫn không tránh khỏi bị thất thoát dần.

Ở mức độ nghiên cứu sâu về ngôn ngữ thì mối quan tâm chính là tiến dần tới việc biểu diễn được ngữ nghĩa thông tin trong các văn bản thông qua việc tổ chức các cấu trúc thông tin để máy tính có thể tự động hoá tiến hành nhiều thao tác mang tính trí tuệ cao, mà trước đây chỉ do chuyên gia con người thực hiện. Các nghiên cứu về việc sản sinh tự động từ điển từ cơ sở dữ liệu các từ là một thể nghiệm cho hướng nghiên cứu này.

3. Hỏi: Được biết, trên thế giới đã có những thiết bị chuyển đổi tiếng nói thành tín hiệu điều khiển hoặc văn tự (như điện thoại của Motorola, Philips đã có ở Việt Nam). Xin Giáo sư cho biết đó có phải là xu hướng phát triển trong tương lai của sự kết hợp giữa CNTT và ngôn ngữ học không? Và ở Việt Nam xu hướng này sẽ là như thế nào?

Trả lời:

Việc chuyển đổi tiếng nói thành tín hiệu điều khiển đã là những nghiên cứu trong CNTT từ hàng chục năm nay. Một số máy tính (Apple, PC...) đã được trang bị khả năng điều khiển thông qua các mệnh lệnh của người dùng nói tiếng Anh. Nguyên tắc cơ bản vẫn là gắn các mẫu âm thanh cho máy cùng bộ nhận dạng tiếng nói để từ đó xác định công việc máy tính cần phải làm, thay cho việc gõ lệnh trên máy hay dùng con chuột kích hoạt công việc. Việc chuyển từ nhận dạng vỏ âm thanh sang hiểu ngữ nghĩa lời nói là công việc nghiên cứu lâu dài, không dễ đạt được kết quả trong ngày một ngày hai, mặc dầu chúng ta chứng kiến có nhiều hệ chương trình mang nhiều khả năng xử lí thông minh hơn trước đây. Dĩ nhiên đây cũng là một hướng nghiên cứu có kết hợp chặt chẽ giữa CNTT và ngôn ngữ học. Tại Việt Nam, xu hướng này cũng không tách rời với các thành tựu của thế giới, và nói chung, chúng ta vẫn là lạc hậu, vẫn có một khoảng cách lớn giữa chúng ta và các nước. Lí do chính là vì chúng ta chưa có một nền công nghiệp CNTT đủ mạnh.

Nếu chỉ là việc điều khiển thiết bị bằng tiếng nói thì không có vấn đề gì lớn lắm về mặt ngôn ngữ cần giải quyết. Việc chuyển đổi từ tiếng nói sang văn tự cũng là điều có thể làm và đang được CNTT thực hiện, không phải là vấn đề lớn nữa. Nhưng nếu đấy là vấn đề xử lí ngữ nghĩa thì lại là hoàn toàn khác, và đây là vấn đề cực kì khó, cho đến nay chưa có mấy kết quả khả quan.

4. Hỏi: Cho tới nay nước ta đã có một số hệ dịch thuật Anh - Việt. Xin Giáo sư cho biết một vài nhận xét về vấn đề này?

Trả lời:

Việc dịch giữa hai ngôn ngữ nằm trong phạm trù xử lí ngữ nghĩa văn bản, cho nên có thể nói là cũng rất khó. Cho đến nay, người ta chỉ mới nhấn mạnh nhiều về các hệ thống trợ dịch, tức là các hệ thống trợ giúp cho người dịch trong công tác dịch thuật, chất lượng dịch thuật vẫn phụ thuộc rất lớn vào tài năng của con người. Nhiều dự án về tự động dịch máy đã được tiến hành nhưng hầu như chưa đâu đạt được kết quả thành công hoàn toàn. Trong khu vực châu á cũng đã có một số dự án dịch máy của các nước Nhật, Trung Quốc, Thái Lan..., nhưng sau một vài năm thử nghiệm kết quả đang còn rất khiêm tốn. Tại nước ta, cũng đã có một số hệ chương trình thử nghiệm dịch tự động Anh – Việt, nhưng theo nhận xét chung của nhiều người dùng, đều chưa đáp ứng được sự mong đợi. Điều này nói lên tính phức tạp của vấn đề. Có thể cần phải giới hạn phạm vi dịch tự động vào những lĩnh vực chuyên môn tương đối hẹp thì chất lượng dịch mới có thể khá hơn. Đây vẫn còn là một vấn đề để mở cho tương lai. Theo chúng tôi nghĩ, cần có thêm nhiều nghiên cứu về ngữ nghĩa học và về biểu diễn tri thức trong ngôn ngữ thì mới mong có được những hệ thống dịch tự động tương đối chấp nhận được giữa các ngôn ngữ.

1999

(Nguồn: Tạp chí Tin học và Đời sống).

 

 

Bài đăng trước:

  • Tiếng Việt "Giàu" nhưng có còn "Đẹp" trên mạng thông tin toàn cầu
  • Phương pháp tiếp cận Logic và Hình thức trong nghiên cứu từ vựng
  • Từ điển song ngữ, đa ngữ: nhìn từ góc độ giáo học pháp ngoại ngữ
  • Từ điển tiếng Việt mới: Hướng tích hợp “nhiều trong một”
  • Một số vấn đề từ điển học (qua việc biên soạn quyển Từ điển tiếng Việt)