Trong nghiên cứu này, chúng tôi sử dụng 2 kho ngữ liệu tiếng Việt (tên là VTB cùng VCor) bởi Trung tâm ngữ điệu học Tính toán – ĐH Khoa học tự nhiên và thoải mái – thành phố hồ chí minh (viết tắt là dechehoisinh.vn)<1> cung cấp. Ngữ liệu này được tích lũy từ những trang báo năng lượng điện tử (www.tuoitreonline, www.vnexpress.net,…) trong giai đoạn từ năm 2000 quay trở về đây. Những ngữ liệu này vẫn được chuẩn chỉnh hóa về mã (utf-8), dạng XML trong những số ấy có các thẻ (tag) để đánh dấu từng câu (SEG id), từng đoạn (PARA), từng tập tin (DOC docid), ngôn từ (Language) và nghành (Domain). Ngữ liệu VTB đã được chú giải (annotate) bằng tay với nhãn ranh ma giới từ tiếng Việt, nhãn từ một số loại (POS) cùng nhãn thực thể mang tên (Named Entity). Còn ngữ liệu VCor chỉ được chú thích auto nhãn rực rỡ giới trường đoản cú (do size quá lớn). Xin xem hình 1 minh họa bên dưới:

Nguyên_nhân/Nn/O là/Vc/O bão/Nn/O số/Nn/O 10/An/O đang/R/O chịu/Vv/O ảnh_hưởng/Nn/O bởi/Cp/O hệ_thống/Nn/O trục/Nn/O rãnh/Nn/O cao/Aa/O và/Cp/O sự/Nc/O lôi_kéo/Vv/O từ/Cm/O siêu__bão/Nn/TRM_B Melor/Nr/TRM_I ở/Cm/O ngoài/Cm/O khơi/Nn/O Philippines/Nr/LOC_B ./PU/O

Theo/Vv/O ông/Nn/TTL_B Bùi_Minh_Tăng/Nr/PER_B -/PU/O giám_đốc/Nn/DES_B Trung_tâm/Nn/ORG_B Dự_báo/Vv/ORG_I khí_tượng/Nn/ORG_I thuỷ_văn/Nn/ORG_I trung_ương/Aa/ORG_I ,/PU/O bão/Nn/O số/Nn/O 10/An/O có/Ve/O hướng/Nn/O di_chuyển/Vv/O và/Cp/O diễn_biến/Vv/O rất/R/O phức_tạp/Aa/O ,/PU/O có_thể/Aa/O thay_đổi/Vv/O so/Vv/O với/Cp/O nhận_định/Nn/O ban_đầu/Nn/O ./PU/O

VCor:

id=’00001’> Chính_sách của Nhà_nước là đầu_tư xây_dựng đơn vị chung_cư bán ra cho người có thu_nhập thấp , tuy vậy rốt_cục lại không được quản_lý xuất sắc

Hình 1. Ngữ liệu VTB và VCor của dechehoisinh.vn

VTB bao gồm 201.594 câu, 5.501.225 lượt từ, độ lâu năm trung bình mỗi câu là 27,3 từ với tổng số các từ/chuỗi (token) không giống nhau là 118.455. Ngữ liệu VCor tất cả 17.095.994 câu (42 lĩnh vực), gồm 346.454.533 từ cùng 443.301.776 chữ (tiếng/âm tiết), trung bình từng câu có khoảng 20 từ, từng từ có 1,28 âm tiết cùng mỗi âm tiết lâu năm 3,27 bé chữ. Những âm máu của từ đa tiết được nối với nhau bởi 1 vệt gạch dưới (vd: nguyên_nhân) và những cụm từ phái sinh được nối cùng với nhau bằng 2 lốt gạch bên dưới (vd: siêu__bão). Quan niệm “Từ” ở đấy là “từ trường đoản cú điển” (theo từ bỏ điển giờ Việt <2>). Nhãn từ loại và nhãn thực thể mang tên kế thừa từ dự án công trình <3>.

Bạn đang xem: Tiếng việt có bao nhiêu từ vựng

1. THỐNG KÊ TRÊN KHO NGỮ LIỆU TIẾNG VIỆT

Từ kho VCor, chúng ta cũng có thể thống kê nhằm rút ra từ bỏ điển tần số tiếng với từ điển tần số từ. Từ bỏ VTB họ thống kê rút ra gia tốc từ theo từ các loại của chúng. Dưới đây là một số công dụng thống kê được từ bỏ kho VCor với VTB:

1.1. Thống kê gia tốc âm tiết tiếng Việt vào VCor:

Trong kho ngữ liệu VCor, những âm tiết mở ra với gia tốc khác nhau. Tần suất được tính bởi công thức f = –lg (n/N) với n là số lần xuất hiện thêm của âm tiết cùng N là toàn bô âm máu trong ngữ liệu VCor. Ví dụ: vào 100 triệu âm tiết, âm máu “và” lộ diện 1 triệu lần thì f sẽ là –lg(10exp6/10exp8) = 2. Nếu con số này càng nhỏ (nhỏ tuyệt nhất là 0), tức là âm máu đó mở ra càng nhiều và ngược lại (lớn tốt nhất là 8, trường hợp âm tiết kia chỉ xuất hiện thêm 1 lần).


Stt

Âm tiết

f

n

1

1,921

5.317.402

2

của

1,923

5.292.970

3

1,946

5.019.951

4

2,029

4.146.670

5

một

2,056

3.896.722

6

các

2,060

3.860.997

7

không

2,082

3.670.282

8

được

2,105

3.480.964

9

trong

2,119

3.370.540

10

cho

2,139

3.218.841

Bảng 1. Tần suất âm tiết trong VCor.

Theo đó, 1% các âm tiết phổ biến nhất (khoảng 70 âm tiết) chiếm hơn 30% số lượt âm tiết xuất hiện trong VCor. 10% các âm tiết phổ biến nhất (khoảng 700 âm tiết) chiếm phần hơn 80% số lượt âm tiết lộ diện trong VCor.

Hình 2. Gia tốc âm ngày tiết trong VCor.


1.2. Thống kê gia tốc từ giờ đồng hồ Việt trong VCor:

Trong ngữ liệu thực tế VCor, ta thấy các từ xuất hiện nhiều nhất đó là các hỏng từ, rồi bắt đầu đến các thực trường đoản cú như “người, ở, tôi, năm, làm, ông, anh, việc, …”.


Stt

Từ

f

n

1

1,820

5.243.802

2

của

1,822

5.219.708

3

1,956

3.833.948

4

các

1,959

3.807.556

5

1,968

3.729.463

6

một

1,986

3.578.049

7

được

2,012

3.370.127

8

không

2,031

3.225.865

9

trong

2,043

3.137.952

10

cho

2,050

3.087.779


Bảng 2a. Thống kê gia tốc từ trong VCor.

Theo đó, 1% những từ thông dụng nhất (khoảng 330 từ) lại chiếm hơn 55% số lượt từ xuất hiện thêm trong VCor. 10% những từ phổ biến nhất (khoảng 3.300 từ) chỉ chiếm hơn 90% số lượt từ áp dụng trong VCor.


Stt

Từ

f

n

..

..

 

14

người

2,160

2.396.880

15

2,210

2.136.221

20

tôi

2,314

1.681.304

31

năm

2,401

1.376.088

32

làm

2,423

1.308.116

33

ông

2,436

1.269.540

36

anh

2,464

1.190.272

44

việc

2,530

1.022.460

55

nước

2,611

848.489

60

có thể

2,660

757.960


Bảng 2b. Thống kê tần suất từ vào VCor

Hình 3. Thống kê gia tốc mở ra của từ giờ Việt vào VCor.


So sánh bảng 1 với 2, ta thấy vào VCor số lượng từ “và” lộ diện (5.243.802 lần) ít hơn số lượng tiếng “và” (5.317.402 lần) vày tiếng “và” hoàn toàn có thể xuất hiện trong vô số nhiều đơn vị không giống nữa bên cạnh từ “và”, như: “tù và”, “chà và”,…Tương tự cho những trường hòa hợp còn lại.

1.3. Thống kê tần suất từ giờ Việt vào VTB:

Trong ngữ liệu VTB, ta rất có thể thống kê gia tốc của từ xuất hiện thêm theo từ loại của chúng.


Stt

Từ

POS

f

n

1

của

Cm

1,820

77.936

2

Cp

1,822

77.360

3

các

Nq

1,956

57.144

4

Ve

1,959

53.614

5

Vc

1,968

52.207

6

trong

Cm

1,986

49.867

7

một

Nq

2,012

47.037

8

đã

R

2,031

45.503

9

những

Nq

2,043

43.878

10

không

R

2,050

42.888


Bảng 3. Thống kê tần suất từ trong VTB.

Xem thêm: Thương Mại Điện Tử Tiếng Anh Là Gì, Tìm Hiểu Về Thương Mại Điện Tử

Ví dụ: từ “tốt” xuất hiện thêm 3.624 lần cùng với tư cách là “tính từ” (tốt đẹp) và gấp đôi với tư bí quyết là danh từ bỏ (con tốt). Tương tự như cho hệ tự “là” xuất hiện cao hơn các so với từ các loại động từ, kết từ, trợ từ bỏ của nó.


Stt

Từ

POS

f

n

3.775

của

Nn

4,6789

115

368

M

3,4268

2.059

20.793

Vv

6,1384

4

39.212

các

Vv

6,7405

1

3.224

M

4,5731

147

103

R

2,9803

5.756

19.385

Vv

6,0415

5

5.290

Cs

4,9209

66

143

Cp

3,0857

4.516

1.749

M

4,1842

360

186

tốt

Aa

3,1813

3.624

25.154

tốt

Nn

6,4394

2


Bảng 4. Thống kê tần suất từ trong VTB

Trong đó: Cm: giới từ; Cp: liên từ; Nq: số từ, Ve: động từ tồn tại; Vc: hệ từ; R: trạng từ; Nn: danh từ, Vv: hễ từ, Aa: tính từ, M: trợ từ.


2. ỨNG DỤNG trong GIẢNG DẠY TIẾNG VIỆT

Từ hai kho ngữ liệu VCor và VTB và các tác dụng thống kê của nó, chúng ta có thể khai thác để ship hàng cho việc huấn luyện và đào tạo tiếng Việt như sau:

2.1. Xác định vốn từ bỏ vựng cơ bản

Trong huấn luyện và giảng dạy tiếng, phần từ bỏ vựng – ngữ âm chắc chắn rằng phải được tiến hành đầu tiên. Riêng đối với tiếng Việt là sản phẩm tiếng đối kháng lập, đối chọi tiết tính cùng là thiết bị tiếng ghi âm vị, đề nghị âm tiết vẫn là đơn vị cơ bạn dạng cần lưu ý khi huấn luyện và giảng dạy tiếng Việt.

2.1.1. Xây dựng vốn âm huyết cơ bản:

Chúng ta cần khẳng định vốn âm ngày tiết cơ bản phù phù hợp với người học dựa vào kết cấu (từ dễ dàng phát âm đến khó) với độ phổ biến của âm tiết. Từ công dụng thống kê ở đoạn 1.1, ta đang rút ra được list 700 âm huyết thông dụng độc nhất vô nhị trong giờ đồng hồ Việt (chiếm 80% lượt âm tiết mở ra trong thực tế). Nhờ vào danh sách này, ta xây dừng được vốn âm tiết tương xứng cho người học theo chuyên môn để họ hoàn toàn có thể nghe, nói, đọc, viết nhanh lẹ tiếng Việt (nhưng không biết nghĩa).

2.1.2. Xây dựng vốn từ bỏ cơ bản:

Tương tự, bọn họ cần xác minh vốn từ bỏ cơ bạn dạng phù phù hợp với người học nhờ vào độ thịnh hành của từ. Từ tác dụng thống kê ở phần 1.2, ta đang rút ra được danh sách 3.300 từ bỏ thông dụng tuyệt nhất trong giờ đồng hồ Việt (chiếm rộng 90% lượt từ lộ diện trong văn bản). Nhờ vào danh sách này, bọn họ xây dựng được vốn từ cân xứng cho người học theo trình độ chuyên môn để họ hoàn toàn có thể đọc hiểu được văn bản tiếng Việt. Mặc dù nhiên, giờ Việt họ có các từ (đơn tiết) đồng âm, cần để xác minh được nghĩa của từ, trong phần nhiều các trường hợp ta rất có thể dựa vào tự loại. Ví dụ: “tốt” (danh từ/tính từ); “tôi” (đại từ/động từ); … vị vậy, để chọn nghĩa thường dùng cho cân xứng với trình độ người học, ta cần sử dụng list 1.3 vẫn rút ra được để tạo được vốn từ phù hợp cho mỗi trình độ. Ví dụ: trình độ chuyên môn thấp đã học trường đoản cú “tốt” với từ nhiều loại tính từ, trường đoản cú “tôi” cùng với từ loại đại từ.

2.1.3. Xây dựng giáo trình/từ điển theo trình độ:

Từ những hiệu quả trên, bạn có thể xây dựng được giáo trình chứa đều từ thông dụng. Tập tự cơ bạn dạng này cũng trở thành được dùng để giải thích/định nghĩa rất nhiều từ cạnh tranh hơn vào phần trường đoản cú vựng của giáo trình xuất xắc trong trường đoản cú điển tiếng Việt giải thích. Đây là điều mà từ bỏ điển Oxford OALD8 <4> đã vận dụng khi phân tích và lý giải mọi mục tự chỉ qua 3.000 từ bỏ cơ bản. Ví dụ:

Với phương thức này, ta có thể tránh được việc định nghĩa/giải ham mê một trường đoản cú trung bình bởi một từ khó hơn mà lại ta hay gặp mặt trong các từ điển phân tích và lý giải tiếng Việt. Ví dụ: tự “đường” (sugar) vào từ điển tiếng Việt khái niệm là “một hóa học kết tinh có vị ngọt”<2>.

2.2. Quan sát biện pháp dùng từ

Việc học từ vựng không thể tách bóc rời ngoài ngữ cảnh, vì vậy, chúng ta có thể sử dụng ngữ liệu VCor cùng VTB nhằm học viên quan lại sát phương pháp dùng từ vào ngữ cảnh thực tiễn như sau:

2.2.1. Tìm theo hình thái từ:

Do tính chất của giờ Việt, yêu cầu khi họ sử dụng những công nạm tìm kiếm, thống kê ngôn ngữ của giờ Anh, chúng ta sẽ không thể khẳng định đúng được hình dáng của chuỗi sẽ tìm (vì trong luật pháp tiếng Anh, từng tiếng sẽ tiến hành xem từ). Còn vào ngữ liệu VCor, do tất cả gán nhãn sắc thái từ, nên việc tìm kiếm giờ đồng hồ Việt sẽ tác dụng hơn. Ví dụ như ta ước ao tìm từ bỏ “tin”: máy vẫn tìm ra từ “tin” nằm tự do (như: “tin điều đó…”, “tin new nhận”), hoặc từ “tin” vào ngữ: “nhắn tin”, “tin nóng dẻo”, …; chứ máy không bị nhầm lẫn với hình vị “tin” trong số từ “tin mừng”, “tin tức”, “thông tin” hay á-hình vị “tin” trong “căn-tin”, … Tương tự, lúc tìm từ bỏ “quan tài”, máy sẽ không nhầm với các “quan tài” vào câu “một ông hậu sự giỏi”.

2.2.2. Khảo tiếp giáp theo từ bỏ loại:

Chúng ta hoàn toàn có thể tìm tìm từ theo từ một số loại của nó, ví dụ: tìm rượu cồn từ “tin”: máy đang tìm ra đúng động từ “tin” nằm chủ quyền trong những trường đúng theo như: “chúng ta tin rằng…”; hoặc tra cứu danh tự “tin” trong số ngữ: “nhắn tin”, “tin nóng dẻo”, …; tương tự cho việc đào bới tìm kiếm tính từ bỏ “tốt” thì máy sẽ không nhầm lẫn với danh trường đoản cú “tốt”.

2.2.3. Khảo sát cách dùng từ bỏ qua chuỗi đồng hiện nay (concordance):

Một từ bao gồm thể có khá nhiều nghĩa không giống nhau, nghĩa cụ thể của từ phụ thuộc vào vào ngữ cảnh của từ (context). Chính vì vậy, lúc chứng kiến tận mắt xét nghĩa/cách dùng của một từ như thế nào đó, ta cần xem xét ngữ cảnh tương ứng của nó. Ví dụ: cách chọn âm ngày tiết “máy” thì công tác sẽ hiện nay ra toàn bộ các câu gồm chứa âm ngày tiết “máy” để học viên tìm ra (hình 4) xuất xắc từ “sử dụng” (hình 5).

2.2.4. Khảo sát chuỗi ngôn ngữ (collocation):

Trong thực tế, người nước ngoài rất cạnh tranh hiểu/khó nhớ những cụm từ mà người việt nam dùng tầm thường với nhau, chẳng hạn: đỏ lòm/lè, tím ngắt/lè; gà trống/đực, dê đực/trống; súc miệng/mồm, … chính vì vậy, cùng với VCor, qua việc khảo sát điều tra trực quan những chuỗi ngôn ngữ này, sẽ giúp đỡ người học biết cách dùng từ phù hợp trong ngữ cảnh đam mê hợp, biết được tính từ nào sẽ cần sử dụng với danh tự nào, rượu cồn từ nào sử dụng với danh trường đoản cú nào, trạng từ như thế nào đi với hễ từ nào, …

 

*

Hình 4. Tra cứu kiếm theo âm tiết

*

Hình 5. Kiếm tìm kiếm theo từ

KẾT LUẬN

Bằng cách khai quật ngữ liệu giờ đồng hồ Việt, bạn cũng có thể xác định được vốn âm tiết với vốn từ cơ bạn dạng (theo từ loại thông dụng) để ứng dụng trong bài toán xây dựng cỗ giáo trình, bộ từ vựng tương xứng cho từng lever của người học giờ Việt. Ngoại trừ ra, qua bài toán quan sát phương pháp dùng trong thực tiễn từ kho ngữ liệu này, học tập viên vẫn tự “nghiệm” ra bí quyết dùng từ, những quy quy định của tiếng Việt, nắm bắt được những tri thức ngôn ngữ mà các cách tiếp cận truyền thống khó có thể thể khái quát hết được. Ví như kho ngữ liệu tiếng Việt này được đầu tư chi tiêu để tăng cường số lượng, chủng loại và gán thêm nhiều trí thức ngôn ngữ nữa thì tác dụng khai thác càng tăng vội bội.

TÀI LIỆU THAM KHẢO

<1>. Https://www.dechehoisinh.vn/resources/.

<2>. Viện ngôn ngữ học (Hoàng Phê công ty biên), “Từ điển giờ Việt”, NXB Đà Nẳng, 1980.

<3>. Đinh Điền, “Xây dựng và khai quật ngữ liệu tuy vậy ngữ Anh-Việt điện tử”, luận án tiến sỹ ngôn ngữ học tập so sánh, ĐH công nghệ Xã hội & Nhân văn, ĐHQG Tp. HCM, 3/2005.

<4>. A.S.Hornby, “Oxford Advanced Learner’s Dictionary 8th edition with Vietnamese translation” (Đinh Điền chủ biên dịch), NXB trẻ em Tp.HCM, 2014.

 ———————————————-

(*) Nội dung bài viết này được trích trường đoản cú công trình: Đinh Điền, hồ Xuân Vinh, “Ứng dụng Kho Ngữ liệu trong việc day tiếng Việt cho người nước ngoài”, hội thảo quốc tế Giảng dạy, nghiên cứu Việt phái mạnh học với tiếng Việt, 1/2016, Bình Châu, Bà Rịa – Vũng Tàu, tr. 172-180.