Nghiên cứu khoa học

MỘT SỐ ĐIỂM CÓ TÍNH CHẤT ĐẶC HỮU VỀ NGÔN NGỮ VÀ VĂN HOÁ VIỆT NAM TRONG MẠNG TỪ TIẾNG VIỆT: NHÌN Ở GÓC ĐỘ TỔNG QUAN


22-06-2021
Với tư cách như là một cuốn từ điển ngữ văn, mạng từ tiếng Việt cũng có nhiệm vụ phải xử lí những hiện tượng được xem là đặc hữu của tiếng Việt. Với tư cách như là một cuốn từ điển bách khoa, Mạng từ tiếng Việt cũng phải xử lí một cách thoả đáng những hiện tượng được xem là của riêng văn hoá Việt Nam, dân tộc Việt Nam.

MỘT SỐ ĐIỂM có TÍNH CHẤT ĐẶC HỮU về NGÔN NGỮ và VĂN HOÁ VIỆT NAM trong MẠNG TỪ TIẾNG VIỆT: NHÌN Ở GÓC ĐỘ TỔNG QUAN [1 ]

PHẠM VĂN LAM
(Thạc sĩ, Viện Ngôn ngữ học – Viện Hàn lâm Khoa học Xã hội Việt Nam)

1. Dẫn nhập

     1.1. Mạng từ là một sản phẩm liên ngành chủ yếu của ngôn ngữ học, tâm lí học và khoa học máy tính. Mạng từ là một cơ sở ngữ liệu lớn, được thiết kế cho một hay nhiều ngôn ngữ, trong đó các từ được nhóm lại thành các loạt đồng nghĩa/ loạt đồng nghĩa tri nhận (set of cognitive synonyms; synset), mỗi loạt đồng nghĩa này thể hiện một khái niệm riêng biệt; các loạt đồng nghĩa khác nhau gắn kết với nhau nhờ các quan hệ ngữ nghĩa. Những quan hệ ngữ nghĩa chủ yếu có tác dụng kết nối các loạt đồng nghĩa lại với nhau là quan hệ bao thuộc, quan hệ tổng phân và quan hệ trái nghĩa [2, tr. 6].

     1.2. Mạng từ tiếng Việt dự định xây dựng 30.000 loạt đồng nghĩa, với 50.000 đơn vị từ vựng, trong đó có 30.000 đơn vị từ vựng là từ tiếng Việt thông dụng [4, tr. 11]. Mạng từ tiếng Việt ghi nhận ba lớp từ loại là danh từ, động từ và tính từ. Mạng từ tiếng Việt có các quan hệ ngữ nghĩa sau: quan hệ bao thuộc, quan hệ tổng phân, quan hệ cách, quan hệ nhân quả, quan hệ suy ra, quan hệ đồng nghĩa, quan hệ trái nghĩa, quan hệ tương tự và quan hệ vai. Trong số những quan hệ này, quan hệ vai là loại quan hệ thử nghiệm, nhằm ghi nhận và phản ảnh thêm một phần đặc hữu nào đó về tiếng Việt, văn hoá Việt, đặc biệt là về cơ chế từ pháp học của tiếng Việt. Quan hệ bao thuộc và quan hệ tổng phân là hai quan hệ chính của lớp từ loại danh từ. Quan hệ cách, một loại quan hệ bao thuộc, là quan hệ đặc trưng của lớp từ loại động từ. Quan hệ trái nghĩa là quan hệ chủ yếu của lớp từ loại tính từ. Các quan hệ đồng nghĩa, trái nghĩa, bao thuộc, tổng phân, cách, nhân quả, tương tự là những quan hệ diễn ra trong nội bộ từng lớp từ loại, nghĩa là các đơn vị từ vựng trong từng quan hệ này là cùng thuộc một lớp từ loại. Riêng quan hệ thuộc tính là quan hệ giữa lớp từ loại tính từ và lớp từ loại danh từ và từ loại động từ.

     1.3. Mạng từ nói chung và Mạng từ tiếng Việt nói riêng vừa có dáng dấp của một cuốn từ điển ngữ văn vừa có dáng dấp của một cuốn từ điển bách khoa phổ thông cỡ nhỏ. Nó mang dáng dấp của một cuốn từ điển ngữ văn vì nó cũng phải xử lí các đơn vị ngữ nghĩa như các từ điển ngữ văn thông thường; nó phải làm việc với các thông tin ngôn ngữ. Điểm khác biệt căn bản nhất của mạng từ với từ điển ngữ văn thông thường là mạng từ làm việc và bắt đầu với các đơn vị khái niệm – nghĩa, được tổ chức theo các quan hệ nghĩa. Nó có dáng dấp của một cuốn từ điển bách khoa là vì một bộ phận của nó được tổ chức theo kiểu chủ đề và được dẫn xuất từ các thực thể, quá trình thực tế (chủ yếu thông qua quan hệ bao thuộc và tổng phân); nó phải làm việc với các thông tin bách khoa.

     1.4. Với tư cách như là một cuốn từ điển ngữ văn, như thế, Mạng từ tiếng Việt cũng có nhiệm vụ phải xử lí những hiện tượng được xem là đặc hữu của tiếng Việt. Với tư cách như là một cuốn từ điển bách khoa, Mạng từ tiếng Việt cũng phải xử lí một cách thoả đáng những hiện tượng được xem là của riêng văn hoá Việt Nam, dân tộc Việt Nam.

     1.5. Vì thế, bài viết này đặt ra nhiệm vụ xác định đường hướng mang tính chất khái quát để xử lí một số hiện tượng có tính đặc hữu của tiếng Việt và văn hoá Việt Nam. Cơ sở và cách thức xử lí cụ thể từng hiện tượng như vậy sẽ được chúng tôi trình bày trong một dịp khác.

2. Một số điểm có tính chất đặc hữu về mặt ngôn ngữ và văn hoá Việt Nam trong Mạng từ tiếng Việt

     2.1. Yêu cầu đặt ra đối với Mạng từ tiếng Việt là Mạng từ tiếng Việt phải thể hiện trung thực được bản thân tiếng Việt, thể hiện được những nét đặc hữu của văn hoá và lịch sử Việt Nam với tư cách như là những yếu tố khu biệt với hàng loạt các yếu tố có tính chất quốc tế, phổ niệm cũng được ghi nhận trong Mạng từ tiếng Việt. Về mặt ngôn ngữ, Mạng từ tiếng Việt, trước hết, cần phải xử lí thoả đáng hiện tượng ghép và láy, các yếu tố Hán – Việt ở trong tiếng Việt. Về mặt văn hoá, Mạng từ tiếng Việt phải phản ánh được những nét riêng về lịch sử, văn hoá, con người Việt Nam [2, tr. 122; 4, tr. 13].

     2.2. Mạng từ là một cơ sở dữ liệu từ vựng, do đó, khi nói đến những yếu tố có tính chất đặc hữu của tiếng Việt là nói đến những yếu tố có tính chất đặc hữu ở trong hệ thống từ vựng. Trong từ vựng tiếng Việt, những điểm đặc thù của tiếng Việt được thể hiện chủ yếu ở cơ chế ghép và hệ thống từ ghép, cơ chế láy và hệ thống từ láy và hiện tượng từ Hán – Việt.

        2.2.1Điểm đặc thù lớn thứ nhất của từ vựng tiếng Việt là nằm ở hệ thống từ ghép. Hệ thống từ ghép tiếng Việt, về cơ bản, được chia làm hai loại chính: từ ghép đẳng lập và từ ghép chính phụ. Từ ghép đẳng lập có mấy loại quan trọng, xét về mặt ngữ nghĩa, là loại kiểu (1) như gan dạ, can đảm, đất nước; loại kiểu (2) như quần áo, đấm đá, sống chết, mua bán; và loại kiểu (3) như chợ búa, áo sống, nhanh chóng, chậm trễ. Đối với loại kiểu (1), nghĩa của toàn bộ tổ hợp ghép đã thoát li nghĩa của từng đơn vị cấu tạo nên chúng phát triển nghĩa theo con đường hoặc là ẩn dụ hoặc là hoán dụ. Đối với loại kiểu (2), nghĩa của toàn bộ tổ hợp ghép là một nghĩa bao so với các nghĩa thuộc của các đơn vị cấu thành nên chúng. Đối với kiểu loại (3), nghĩa của toàn bộ tổ hợp ghép tương tự với nghĩa của từng thành tố cấu tạo nên chúngVì đơn vị cơ sở của mạng từ là các loạt đồng nghĩa, cho nên, nếu xét tới mối quan hệ về nghĩa của các đơn vị cấu thành nên tổ hợp từ ghép đẳng lập với nghĩa của toàn bộ tổ hợp ghép đó, chúng ta phải dành sự chú ý đặc biệt tới kiểu loại từ ghép thứ hai và thứ ba, do chỗ những từ ghép thuộc hai loại này có khả năng đồng nghĩa với chính những yếu tố cấu thành nên nó. Trong loại từ ghép thứ hai, cần chú ý đặc biệt đến những trường hợp được cấu tạo từ những yếu tố trái nghĩa (sống chết, mua bán, tốt xấu) và những trường hợp có thể đảo được trật tự (cao to, to cao, tốt xấu, xấu tốt). Như vậy, tựu lại, đối với hệ thống từ ghép đẳng lập tiếng Việt, Mạng từ tiếng Việt phải ưu tiên xử lí các đơn vị từ ghép đẳng lập được tạo ra từ những yếu tố trái nghĩa, các đơn vị có nghĩa tương tự với nghĩa của những yếu tố cấu thành, các đơn vị có thể đảo được trật tự. Mạng từ tiếng Việt phải xử lí khoảng 2.000 loạt đồng nghĩa với trên 4.000 từ ghép như vậy. Những đơn vị từ vựng ghép và láy kiểu này sẽ được gán nhãn giống như nhãn “phái sinh” trong tiếng Anh, cụ thể là sẽ được gán nhãn “ghép đẳng lập” và “láy”. Ví dụ: {ăn} có quan hệ “ghép đẳng lập” với n nằm}, {quần} có quan hệ “ghép đẳng lập” với {quần áo}; {áo} có quan hệ “ghép đẳng lập” với o quần}; {nhanh} có quan hệ “láy” với {nhanh nhẹn, nhanh nhảu}.

        Đối với từ ghép chính phụ, ta có hai loại chủ yếu, từ ghép chính phụ biệt loại (xe đạp, cá rô) và từ ghép chính phụ biệt nghĩa (gày đét, béo hú, đen sì, trắng ởn). Căn cứ vào khả năng đồng nghĩa giữa toàn bộ tổ hợp từ ghép với các yếu tố cấu thành nên chúng, trong Mạng từ tiếng Việt, chúng ta cần chú trọng đến loại từ ghép chính phụ biệt nghĩa. Xét đen sì so với đen, trắng ởn so với trắng, về mặt lí thuyết, đối với các trường hợp ghép này có thể có hai giải pháp xử lí: hoặc là gán cho chúng mối quan hệ bao thuộc, hoặc là gán cho chúng mối quan hệ đồng nghĩa. Trong Mạng từ tiếng Việt, những đơn vị như vậy được xử lí như là những đơn vị tương tự về nghĩa, và sẽ được gán nhãn “ghép biệt nghĩa tương tự” [2, tr. 85]Ví dụ, trong trường hợp đen và đen sìđen nhánh, đen bóng, đen thui,…, {đen} được xác lập có quan hệ “ghép biệt nghĩa tương tự” với {đen sì}, {đen nhánh}, {đen bóng}, {đen thui}.

        2.2.2. Điểm đặc thù lớn thứ hai của từ vựng tiếng Việt là nằm ở hệ thống từ láy. Nhìn tổng thể, dựa vào mối quan hệ ngữ nghĩa của toàn bộ tổ hợp láy với yếu tố gốc, có hai loại từ láy lớn. Loại một là loại có thể xác định được nghĩa của tiếng gốc, tiếng gốc còn được sử dụng độc lập, ví dụ như xấu xa, xấu xí, đẹp đẽ, đèm đẹp. Loại hai là loại không xác định được nghĩa của tiếng gốc, tiếng gốc không được sử dụng độc lập, như làng nhàng, hì hụi, cặm cụi. Loại thứ nhất là loại mà giữa tiếng gốc và từ láy được tạo ra từ tiếng gốc có khả năng đồng nghĩa. Loại thứ hai không có khả năng tạo từ đồng nghĩa. Và như thế, trong Mạng từ tiếng Việt, đương nhiên quan hệ láy chỉ được xác lập cho yếu tố gốc của từ láy với bản thân từ láy, bất luận là yếu tố gốc đứng đầu hay cuối từ láy, ví như {sáng} và {sang sáng}, {đen} và {đen đen}, {nhỏ} và {nhỏ nhắn}. Mạng từ tiếng Việt phải ưu tiên xử lí những đơn vị từ vựng láy có tiếng gốc rõ nghĩa. Tiếng Việt có khoảng 2500 từ láy (trong tổng số trên 5.000 từ láy) có thể xác định được tiếng gốc như vậy [1, tr. 105]. Tuy nhiên, theo khảo sát số liệu thực tế của chúng tôi qua trên 4.000 từ láy đôi, Mạng từ tiếng Việt chỉ cần xử lí khoảng 1.500 từ láy có tiếng gốc rõ nghĩa để tạo loạt đồng nghĩa.

        2.2.3. Điểm đặc thù lớn thứ ba của từ vựng tiếng Việt là nằm ở hệ thống từ ngữ Hán – Việt. Những từ ngữ gốc Hán – Việt ở trong tiếng Việt có số lượng tương đối lớn. Những từ Hán – Việt này có thể là những yếu tố có nghĩa được dùng độc lập, có thể là những yếu tố có nghĩa nhưng không được sử dụng độc lập. Những yếu tố có nghĩa được dùng độc lập (học, văn, hoá) thì đều được người Việt hiểu, chỉ những yếu tố có nghĩa mà không được dùng độc lập (căn (rễ), bản (gốc, vốn), bất (không), phi (không), gia (thêm), việt (vượt),…) thì người Việt bình thường mới không hiểu hoặc không hiểu rõ. Những yếu tố có nghĩa, không sử dụng độc lập này lại là những yếu tố có sức sản sinh ngữ pháp lớn, có vai trò quan trọng trong hệ thống từ vựng tiếng Việt. Những yếu tố này thường là những yếu tố có từ đồng nghĩa thuần Việt tương ứng. Vì thế, Mạng từ tiếng Việt cần tập trung xử lí riêng những yếu tố có nghĩa, không sử dụng độc lập, có sức sản sinh cao, như quốc, thuỷ, sơn, hà. Cũng giống như các từ ghép và láy ở trên, các yếu tố Hán – Việt này sẽ được gán nhãn “yếu tố Hán – Việt”. Ví dụ: {nước} có quan hệ “yếu tố Hán – Việt” với {thuỷ}, {nước} có quan hệ “yếu tố Hán – Việt” với {quốc}.

     2.3Trên đây là một số yếu tố có tính chất đặc thù của bản thân tiếng Việt. Dưới đây sẽ đề cập đến những yếu tố mang tính chất dân tộc thuộc về phạm trù ngoài ngôn ngữ trong Mạng từ tiếng Việt. Ở phạm trù ngoài ngôn ngữ (lịch sử, xã hội, văn hoá và tư duy), cũng giống như Mạng từ tiếng Anh, những hiện tượng đặc hữu riêng của Mạng từ tiếng Việt được thể hiện chủ yếu trong quan hệ bao thuộc và quan hệ tổng phân. Quan hệ bao thuộc và quan hệ tổng phân là những quan hệ ẩn chứa nhiều đặc tính dân tộc. Quan hệ trường hợp, xét trong mối quan hệ với quan hệ lớp, của quan hệ bao thuộc và quan hệ tổng phân là những quan hệ mang chứa nhiều đặc tính văn hoá, dân tộc một cách trực tiếp, chúng phản ảnh một cách tương đối trực diện bức tranh văn hoá dân tộc. Trong quan hệ này, biểu thức ngôn ngữ ở nút con (nút dưới/ nút lá) là biểu thức ngôn ngữ thể hiện đặc trưng văn hoá dân tộc. Trong quan hệ tổng phân, những cặp quan hệ nghĩa tổng và nghĩa phân nào (như quan hệ bộ phận, quan hệ thành viên) được thể hiện bằng tên riêng thì đều có khả năng biểu hiện đặc trưng văn hoá dân tộc. Những biểu thức ngôn ngữ biểu hiện đặc trưng văn hoá dân tộc là những biểu thức ngôn ngữ phản ánh các đối tượng chỉ có ở Việt Nam, không có ở nơi khác. Do vậy, Mạng từ tiếng Việt phải xử lí và ghi nhận những quan hệ trường hợp kiểu như:

– dụng cụ > dụng cụ đun nấu > bếp > bếp Hoàng Cầm,…

– công cụ > công cụ đeo mặc > dép > dép cao su/ dép Bác Hồ,…

– nhân vật > nhân vật kịch > nhân vật chèo > hề/ mẹ Đốp,…

– chiến dịch > Điện Biên Phủ/ Hồ Chí Minh,…

– làng > Đường Lâm/ Mộ Trạch/ Hành Thiện,…

– dân tộc > Kinh/ Tày/ Thái,…

– bánh > bánh chưng/ bánh trôi/ bánh rán,…

– tuần tiết > Nguyên đán/ Trung thu,…

– quần đảo > Hoàng Sa/ Trường Sa,…

– quần đảo Trường Sa > Sinh Tồn/ Song Tử,…

– hồ > Hồ Gươm/ Hồ Tây,…

– thủ đô > Hà Nội,…

– Hà Nội > Hồ Gươm/ Hồ Tây,…

– Ninh Bình > Bái Đính/ Tràng An,…

– lãnh đạo quốc gia > Hồ Chí Minh/ Phạm Văn Đồng,…

– sông > Mê Kông/ Hồng,…

– v.v.

     Trong số những đơn vị từ vựng như trên, có rất nhiều quan hệ trường hợp mà chúng ta không khó khăn gì trong việc xác định danh sách các đơn vị sẽ có mặt trong Mạng từ tiếng Việt. Ví dụ như trong quan hệ bao thuộc trường hợp của khái niệm “dân tộc”, chúng ta đã có ít nhất là 54 biểu ghi các dân tộc ở Việt Nam với trên 100 tên gọi khác nhau. Những khái niệm bao thuộc về “làng”, “sông”, “núi”,… cũng là những khái niệm như vậy.

3. Kết luận

     Trên đây là những điểm vắn tắt, có tính chất bao quát chung về một số hiện tượng có tính chất đặc hữu về mặt ngôn ngữ và văn hoá trong Mạng từ tiếng Việt. Những cơ sở và giải pháp cụ thể cho từng hiện tượng như vậy sẽ được chúng tôi trình bày trong một dịp khác. Về mặt ngôn ngữ, Mạng từ tiếng Việt phải tập trung xử lí riêng: các đơn vị từ ghép đẳng lập có quan hệ đồng nghĩa và quan hệ bao thuộc với chính những yếu tố cấu thành nên chúng; các đơn vị từ ghép chính phụ biệt nghĩa có quan hệ đồng nghĩa với một trong hai yếu tố cấu thành nên chúng; các đơn vị từ láy có quan hệ đồng nghĩa với yếu tố gốc cấu thành nên chúng; các đơn vị từ vựng Hán – Việt có nghĩa nhưng không sử dụng độc lập và có sức sản sinh ngữ pháp cao. Về mặt văn hoá, Mạng từ tiếng Việt phải tập trung xử lí các yếu tố trường hợp trong quan hệ bao thuộc và quan hệ tổng phân.

THƯ MỤC THAM KHẢO

A. Tiếng Việt

1. Hoàng Văn Hành – Nguyễn Văn Khang – Hà Quang Năng, Từ tiếng Việt, NXB Khoa học Xã hội, Hà Nội, 1998.

2. Phạm Văn Lam, Hướng dẫn Mạng từ tiếng Việt (phiên bản 2.0), Naiscorp, 2013.

3. Phạm Văn Lam, Vị trí, vai trò của ngữ nghĩa học từ vựng và danh học trong việc xây dựng Mạng từ tiếng Việt, Hướng tới việc xây dựng Mạng từ tiếng Việt, Naiscorp, 2014.

4. Nguyễn Phương Thái – Phạm Văn Lam – Nguyễn Hoàng Trung – Trần Ngọc Anh – Trương Thị Thu Hà, Tổng quan về Mạng từ tiếng Việt, Hướng tới việc xây dựng Mạng từ tiếng Việt, Naiscorp, 2014.

B. Tiếng nước ngoài

5. Fellbaum Christiane (ed.), WordNet: An Electronic Lexical Database, The MIT Press, England, 1998.

6. Vossen P., (ed), EuroWordNet: A Multilingual Database with Lexical Semantic Networks, Kluwer, Dordrecht, The Netherlands, 1998.

___________
[1] Bài viết này được Đề tài Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt mã số KC.01.20/11-15 tài trợ.

Post by: admin
22-06-2021