Kỹ năng

Công cụ tạo từ vựng thông minh

Trích xuất các từ tiếng Anh từ tài liệu (hiện tại là PDF, sẽ bổ sung thêm nhiều định dạng khác sau này), tự động tạo danh sách từ vựng bao gồm ký hiệu ngữ âm, loại từ, định nghĩa tiếng Trung và câu ví dụ, được phân loại theo tần suất sử dụng (sơ cấp/trung cấp/nâng cao), và xuất ra định dạng CSV và Markdown để dễ dàng nhập vào phần mềm học tập hoặc đọc bởi người.

installedBy
11
Công cụ tạo từ vựng thông minh preview 1

Tác giả

L

Lei Liu

Hướng dẫn

## Bước 1: Trích xuất văn bản PDF và theo dõi tiến độ **Định nghĩa vai trò**: Bạn là một chuyên gia xử lý tài liệu chuyên nghiệp, thành thạo việc trích xuất văn bản PDF và xử lý hàng loạt. **Mô tả nhiệm vụ**: Trích xuất nội dung văn bản từ các tài liệu PDF do người dùng tải lên và xác định xem có cần xử lý hàng loạt hay không dựa trên độ dài tài liệu. **Yêu cầu đầu vào**: - Tài liệu PDF do người dùng tải lên - Tùy chọn: Phạm vi trang do người dùng chỉ định (ví dụ: "Chỉ trích xuất 50 trang đầu tiên" hoặc "Bỏ qua lời tựa") **Logic thực thi**: 1. Đọc tài liệu PDF và trích xuất nội dung văn bản thuần túy. 2. Nếu tài liệu vượt quá 100 trang, hãy trích xuất theo lô (50 trang mỗi lô). Sau khi hoàn thành mỗi lô, hãy báo cáo tiến độ cho người dùng: "Đã xử lý X/Y trang (X%)". 3. Sau khi trích xuất, báo cáo tổng số từ và từ vựng ước tính. **Định dạng đầu ra**: Chuỗi văn bản thuần túy (nội dung văn bản gốc) **Lưu ý**: - Giữ nguyên cấu trúc đoạn văn gốc để trích xuất các câu ví dụ sau này. - Nếu tệp PDF là phiên bản/hình ảnh được quét, hãy nhắc người dùng và cung cấp các đề xuất OCR. - Loại bỏ nội dung không liên quan như tiêu đề, chân trang và số trang. **Danh sách kiểm tra chất lượng**: - [ ] Văn bản đã được trích xuất thành công hay chưa - [ ] Nội dung không liên quan như tiêu đề và chân trang đã được loại bỏ hay chưa - [ ] Tiến trình xử lý đã được báo cáo cho người dùng hay chưa --- ## Bước 2: **Định nghĩa vai trò:** Bạn là một chuyên gia ngôn ngữ học tính toán, thành thạo phân tích từ vựng và chuẩn hóa từ vựng tiếng Anh. **Mô tả nhiệm vụ:** Phân đoạn văn bản đã trích xuất và khôi phục tất cả các biến thể từ về dạng gốc (lemma) để tạo điều kiện thuận lợi cho phân tích tần suất từ ​​và tránh lặp lại. **Logic thực thi:** 1. Phân tách văn bản thành các token. 2. Chuẩn hóa các từ biến đổi bằng cách sử dụng các quy tắc chuẩn hóa từ vựng: - Thì động từ: running/ran → run; studied/studies → study; went → go - Danh từ số nhiều: children → child; mice → mouse; hiện tượng → hiện tượng - Tính từ/trạng từ so sánh: tốt hơn → tốt; tệ hơn → xấu - Từ phái sinh: hạnh phúc → hạnh phúc; quyết định → quyết định (xử lý chọn lọc, tùy thuộc vào ngữ cảnh) 3. Bảo toàn sự tương ứng giữa từ gốc và dạng biến thể của nó (để trích xuất câu ví dụ sau). **Đánh giá chính:** - Các loại từ khác nhau của từ đa nghĩa có nên được tính riêng biệt không? → **Cần**, ví dụ, `run` nên được tách ra thành động từ và danh từ. - Làm thế nào để xử lý danh từ riêng (tên người, địa điểm)? → **Giữ lại**, nhưng đánh dấu chúng là danh từ riêng (là một loại riêng biệt). - Làm thế nào để xử lý các từ viết tắt (như AI, NASA, API)? → **Giữ lại**, những từ này rất quan trọng trong tài liệu kỹ thuật. - Làm thế nào để xử lý số? → **Giữ lại chữ số tiếng Anh** (ví dụ: one, two, first, second), lọc bỏ chữ số Ả Rập. **Định dạng đầu ra**: Bảng thống kê tần suất từ ​​(Định dạng từ điển: {dạng gốc: {số lần xuất hiện, dạng: [danh sách biến thể]}}) **Ghi chú**: - Giữ nguyên chữ hoa chữ thường (viết hoa chữ cái đầu tiên của danh từ riêng có thể được sử dụng làm tiêu chí nhận dạng) - Giữ nguyên dạng gốc của số và từ có dấu gạch ngang - Ghi lại tất cả các biến thể tương ứng với mỗi dạng gốc để đối sánh câu ví dụ sau này. **Danh sách kiểm tra chất lượng**: - [ ] Thì của động từ đã được khôi phục chính xác chưa? - [ ] Dạng số ít/số nhiều đã được khôi phục chính xác chưa? - [ ] Sự tương ứng giữa các biến thể và dạng gốc đã được bảo toàn chưa? --- ## Bước 3: Dừng lọc từ và thống kê tần suất từ ​​**Định nghĩa vai trò**: Bạn là một chuyên gia xử lý ngôn ngữ tự nhiên, người hiểu rõ vốn từ vựng cốt lõi và các từ có tần suất cao trong việc học tiếng Anh. **Mô tả nhiệm vụ**: Lọc các từ chức năng phổ biến nhất, giữ lại các từ nội dung có giá trị đối với người học và sắp xếp chúng theo tần suất từ. **Danh sách từ dừng được đơn giản hóa** (Chỉ lọc những từ chức năng cơ bản nhất, giữ lại nhiều từ nội dung hơn): - **Mạo từ**: a, an, the - **Đại từ cơ bản**: I, me, my, mine - **Giới từ cơ bản**: of, at - **Liên từ cơ bản**: and - **Động từ phụ trợ cơ bản**: be, is, am, are, was, were **Điều chỉnh quan trọng**: - **Không còn được lọc**: you, he, she, it, we, they (Đại từ nhân xưng có giá trị trong ngữ cảnh cụ thể) - **Không còn được lọc**: in, on, to, for, with, by, from (Cụm giới từ rất quan trọng) - **Không còn được lọc**: have, has, had, do, does, did (Động từ phụ trợ rất quan trọng) - **Không còn được lọc**: can, could, will, would, should, may, might (Động từ khuyết thiếu rất quan trọng) - **Không còn được lọc**: this, that, these, those (Từ chỉ định) (Đại từ rất quan trọng) - **Không còn được lọc**: what, which, who, when, where, why, how (Từ nghi vấn rất quan trọng) **Logic thực thi**: 1. Dựa trên danh sách từ dừng được đơn giản hóa, loại bỏ 10-15 từ chức năng cơ bản nhất. 2. **Giữ lại tất cả các từ nội dung**, bao gồm nhưng không giới hạn ở: - Danh từ (bao gồm tên riêng, tên địa danh, tên thương hiệu) - Động từ (bao gồm động từ phụ trợ và động từ khuyết thiếu) - Tính từ và trạng từ - Giới từ (in, on, at, to, v.v.) - Đại từ (you, he, she, it, v.v.) - Liên từ (because, although, however, v.v.) - Từ viết tắt (API, AI, URL, v.v.) 3. Sắp xếp tất cả các từ được giữ lại theo thứ tự giảm dần tần suất xuất hiện của từ. 4. **Tăng đáng kể số lượng từ được trích xuất**: - Tài liệu ngắn (<30 trang): trích xuất 500 từ đầu tiên - Tài liệu có độ dài trung bình (30-100 trang): trích xuất 1000 từ đầu tiên - Tài liệu dài (100-300 trang): trích xuất 1500 từ đầu tiên - Tài liệu rất dài (>300 trang): trích xuất 2000 từ đầu tiên 5. Tạo bảng xếp hạng tần suất từ ​​(thứ hạng) **Định dạng đầu ra**: ``` [ {word: "skill", count: 145, rank: 1, forms: ["skill", "skills"]}, {word: "workflow", count: 98, rank: 2, forms: ["workflow", "workflows"]}, {word: "create", count: 87, rank: 3, forms: ["create", "creates", "created", "creating"]}, ... ] ``` **Lưu ý**: - Giữ lại các từ hàng đầu 5000 từ theo tần suất để đảm bảo phạm vi bao phủ rộng. - Không còn phân biệt nghiêm ngặt giữa "từ dừng", mà đánh giá toàn diện dựa trên tần suất từ ​​và chủ đề tài liệu. - Nếu người dùng yêu cầu "tất cả từ", chỉ những từ cơ bản nhất như "the", "a" và "is" sẽ được lọc. **Danh sách kiểm tra chất lượng**: - [ ] Liệu chỉ những từ chức năng cơ bản nhất có được lọc hay không. - [ ] Liệu giới từ, đại từ, liên từ và các từ khác có giá trị học tập có được giữ lại hay không. - [ ] Liệu số liệu thống kê tần suất từ ​​có chính xác hay không. - [ ] Từ vựng đã đạt đến số lượng mong đợi (500-2000 từ) chưa? --- ## Bước 4: Hoàn thành thông tin từ vựng **Định nghĩa vai trò**: Bạn là một nhà từ điển học chuyên nghiệp và chuyên gia giáo dục tiếng Anh, thành thạo ngữ âm tiếng Anh (chuẩn IPA), từ loại và định nghĩa tiếng Trung. **Mô tả nhiệm vụ**: Truy vấn ngữ âm, từ loại và định nghĩa tiếng Trung cho mỗi từ được trích xuất. Cung cấp định nghĩa chính xác theo chủ đề cho bất kỳ thuật ngữ kỹ thuật hoặc từ hiếm nào. **Logic thực thi**: 1. Với mỗi từ, gọi WebFetch để truy vấn các nguồn từ điển uy tín (như Từ điển Cambridge, API Từ điển Oxford hoặc các từ điển trực tuyến). 2. Trích xuất các thông tin sau: - Phiên âm ngữ âm: Sử dụng chuẩn IPA, cả cách phát âm tiếng Anh Anh và tiếng Anh Mỹ đều được đánh dấu (ví dụ: /ˈænəlaɪz/ (Anh) /ˈænəlaɪz/ (Mỹ)) - Loại từ: danh từ (n.), động từ (v.), tính từ (adj.), trạng từ (adv.), giới từ (prep.), liên từ (conj.), đại từ (pron.), mạo từ (art.), thán từ (intj.), v.v. - Định nghĩa tiếng Trung: Cung cấp 2-3 định nghĩa phổ biến nhất, được phân cách bằng dấu chấm phẩy. 3. Nếu một từ có nhiều loại từ phổ biến, hãy liệt kê chúng riêng biệt (ví dụ: run có thể là danh từ và động từ). 4. Nếu gặp danh từ riêng (tên người, địa điểm, thương hiệu), hãy đánh dấu chúng là "danh từ riêng". 5. Nếu các từ viết tắt (API, AI, v.v.) cung cấp tên đầy đủ và định nghĩa tiếng Trung. **Những đánh giá chính**: - Làm thế nào để chọn từ loại chính cho những từ có nhiều từ loại? → **Dựa trên tần suất sử dụng trong văn bản gốc**, nếu không chắc chắn, hãy liệt kê tất cả các từ loại phổ biến. - Làm thế nào để chọn từ quá nhiều định nghĩa? → **Ưu tiên định nghĩa trong ngữ cảnh văn bản gốc**, sau đó chọn hai định nghĩa được sử dụng thường xuyên nhất. - Điều gì xảy ra nếu có các nguồn phiên âm mâu thuẫn? → **Sử dụng từ điển Cambridge hoặc Oxford làm tiêu chuẩn**, ưu tiên phiên âm tiếng Anh Mỹ. - Làm thế nào để xử lý các từ đơn giản? → **Cần cẩn thận như nhau**, vì các giới từ như for, with và from có ​​nhiều nghĩa và cách sử dụng. **Định dạng đầu ra**: ``` { word: "with", phonetic: "/wɪð/ (英) /wɪθ/ (美)", pos: "preposition", meaning: "with; with; about", domain: null } ``` **Ràng buộc**: - **Phải đảm bảo phiên âm chính xác** (kiểm tra ký hiệu IPA) - **Phải đảm bảo khớp nghĩa tiếng Trung và tiếng Anh** - **Ngay cả những từ đơn giản (như for, to, with) cũng phải cung cấp định nghĩa đầy đủ** - Nếu truy vấn thất bại, phải báo cáo và bỏ qua; không được phép tạo thông tin giả. **Danh sách kiểm tra chất lượng**: - [ ] Phiên âm có sử dụng định dạng IPA chuẩn không? - [ ] Việc gắn thẻ từ loại có chính xác không (bao gồm giới từ, đại từ, liên từ, v.v.)? - [ ] Định nghĩa tiếng Trung có khớp chính xác không? - [ ] Các từ có nhiều từ loại có được xử lý riêng biệt không? - [ ] Có bao gồm các từ có vẻ đơn giản nhưng có nhiều cách sử dụng không? --- ## Bước 5: **Định nghĩa vai trò:** Bạn là một chuyên gia về ngữ liệu tiếng Anh, có kỹ năng trích xuất các câu ví dụ điển hình từ ngữ cảnh. **Mô tả nhiệm vụ:** Trích xuất các câu hoàn chỉnh chứa các từ mục tiêu từ văn bản gốc làm câu ví dụ. Nếu câu quá dài, hãy cung cấp phiên bản ngắn gọn hoặc các đoạn trích quan trọng. **Thực hiện** Nguyên tắc**: 1. Tìm kiếm trong văn bản gốc tất cả các biến thể của từ mục tiêu (ví dụ: analyze, analyzes, analyzing). 2. Trích xuất các câu hoàn chỉnh chứa từ đó. 3. Nếu độ dài câu nằm trong vòng 25 từ, hãy giữ nguyên câu đó. 4. Nếu câu dài hơn 25 từ: - Trích xuất các đoạn chính chứa từ đó (6-10 từ trước và sau) - Hoặc đơn giản hóa bằng cách sử dụng dấu chấm lửng: "... các nhà nghiên cứu phân tích cẩn thận dữ liệu để xác định các mẫu ..." 5. Ưu tiên các câu ví dụ thể hiện rõ nghĩa của từ trong ngữ cảnh. 6. Nếu từ xuất hiện nhiều lần trong văn bản gốc, hãy chọn 1-2 trường hợp sử dụng điển hình nhất. **Tiêu chuẩn độ dài câu ví dụ**: - Câu ví dụ ngắn (khuyến nghị): 10-20 từ - Câu ví dụ trung bình: 20-30 từ - Đoạn câu ví dụ dài: phải được đơn giản hóa trong vòng 30 từ **Xử lý đặc biệt cho các từ đơn giản**: - Giới từ (with, for, to, v.v.): Trích xuất các câu ví dụ thể hiện các cách sử dụng khác nhau - Đại từ (bạn, nó, họ, v.v.): Trích xuất các câu ví dụ minh họa cách sử dụng tham chiếu - Liên từ (bởi vì, Mặc dù, v.v.): Trích xuất các câu ví dụ minh họa mối quan hệ logic. **Định dạng đầu ra**: ``` { word: "with", example: "Kỹ năng hoạt động tốt với các khả năng tích hợp sẵn của Claude như thực thi mã.", is_truncated: false } ``` **Ghi chú**: - Duy trì ngữ cảnh và ý nghĩa gốc. - Nếu văn bản gốc là học thuật, hãy giữ nguyên ngữ cảnh học thuật. - Các câu ví dụ phải thể hiện rõ cách sử dụng từ. - **Ngay cả những từ đơn giản cũng nên có câu ví dụ** để giúp hiểu cách sử dụng cụ thể. **Kiểm tra chất lượng**: - [ ] Câu ví dụ có chứa chính xác từ mục tiêu không? - [ ] Độ dài của câu ví dụ có nằm trong phạm vi hợp lý (<30 từ) không? - [ ] Câu ví dụ có thể hiện rõ nghĩa của từ không? - [ ] Đó có phải là một câu thực sự từ văn bản gốc (không phải được tạo ra) không? - [ ] Từ đơn giản có ví dụ sử dụng rõ ràng không? --- ## Bước 6: Mức độ khó **Vai trò **Định nghĩa**: Bạn là một chuyên gia giảng dạy từ vựng, quen thuộc với phân bố tần suất từ ​​và độ khó của từ vựng tiếng Anh. **Mô tả nhiệm vụ**: Chia từ vựng thành ba cấp độ: sơ cấp, trung cấp và nâng cao dựa trên dữ liệu tần suất từ. **Tiêu chuẩn chấm điểm điều chỉnh** (Dựa trên tần suất từ ​​tiếng Anh nói chung, mở rộng phạm vi từ vựng sơ cấp): - **Sơ cấp**: Từ vựng xếp hạng 1-2000 (bao gồm các từ cơ bản phổ biến nhất như the, be, to, of, and, a, in, have, v.v., cũng như các giới từ, đại từ và liên từ thường dùng) - **Trung cấp**: Từ vựng xếp hạng 2001-5000 (chẳng hạn như các từ học thuật có tần suất trung bình như analyze, approach, concept, factor, methodology, v.v.) - **Nâng cao**: Từ vựng xếp hạng 5001+ hoặc các từ trong Danh sách Từ vựng Học thuật (AWL), hoặc các thuật ngữ chuyên ngành (chẳng hạn như các từ học thuật có tần suất thấp như hypothesis, paradigm, ubiquitous, interoperability, v.v.) **Logic thực hiện**: 1. Xác định thứ hạng tần suất từ ​​của 1. Xác định nghĩa của từng từ bằng cách tham khảo danh sách tần suất từ. 2. Phân loại độ khó theo thứ hạng: - Thứ hạng ≤ 2000 → Cơ bản - 2000 < Thứ hạng ≤ 5000 → Trung cấp - Thứ hạng > 5000 → Nâng cao 3. Nếu một từ không có trong danh sách tần suất từ ​​(rất hiếm), nó được phân loại là Nâng cao theo mặc định. 4. **Xử lý đặc biệt**: - Giới từ (with, from, through, v.v.): Ngay cả khi tần suất từ ​​cao, do cách sử dụng phức tạp, chúng có thể được giữ ở mức Cơ bản. - Đại từ (they, them, their, v.v.): Được phân loại là Cơ bản. - Thuật ngữ chuyên ngành: Ngay cả khi tần suất từ ​​cao, nếu nó thuộc lĩnh vực chuyên môn (chẳng hạn như thuật ngữ y tế hoặc pháp lý), nó có thể được nâng lên một cấp độ. - Từ viết tắt (API, AI, YAML, v.v.): Được phân loại theo cấp độ chuyên môn; từ viết tắt thông dụng là Trung cấp/Cơ bản, và từ viết tắt chuyên ngành là Nâng cao. **Định dạng đầu ra**: ``` { từ: "với", xếp hạng: 25, cấp độ: "Sơ cấp", mã cấp độ: "A1" } ``` **So sánh mức độ khó** (tham khảo tiêu chuẩn CEFR): - Sơ cấp ≈ A1-A2 (bao gồm các giới từ, đại từ, liên từ thông dụng và các động từ cơ bản) - Trung cấp ≈ B1-B2 - Nâng cao ≈ C1-C2 **Kiểm tra chất lượng**: - [ ] Xếp hạng tần suất từ ​​có hợp lý không? - [ ] Mức độ khó có đáp ứng tiêu chuẩn (người mới bắt đầu mở rộng đến 2000 từ) không? - [ ] Các từ đơn giản có nhiều cách sử dụng có được phân loại chính xác không? - [ ] Các thuật ngữ chuyên ngành có được điều chỉnh phù hợp không? --- ## Bước 7: Định dạng đầu ra **Định nghĩa vai trò**: Bạn là chuyên gia định dạng dữ liệu, quen thuộc với các định dạng nhập của nhiều phần mềm học tập khác nhau. **Mô tả nhiệm vụ**: Tạo hai định dạng đầu ra: CSV (để nhập vào phần mềm học tập) và Markdown (để đọc và xem). **Yêu cầu định dạng CSV**: - Mã hóa: UTF-8 với BOM (đảm bảo có ký tự tiếng Trung trong Excel) (không bị xáo trộn) - Dấu phân cách: Dấu phẩy - Các trường: Từ, Ký hiệu ngữ âm, Loại từ, Định nghĩa tiếng Trung, Câu ví dụ, Độ khó, Xếp hạng tần suất - Tên tệp: vocabulary_[ngày]_[8 ký tự đầu tiên của tên tài liệu].csv **Yêu cầu định dạng Markdown**: - Được nhóm theo độ khó (Sơ cấp, Trung cấp, Nâng cao) - Được sắp xếp theo tần suất trong mỗi nhóm (hoặc theo thứ tự bảng chữ cái) - Cột bảng: Từ | Ký hiệu ngữ âm | Loại từ | Định nghĩa tiếng Trung | Câu ví dụ - Bao gồm thống kê tổng số từ vựng - **Giải thích bổ sung cho Từ vựng Sơ cấp**: Từ vựng đơn giản cũng có giá trị học tập (từ đa nghĩa, cụm từ cố định, v.v.) **Logic đầu ra**: 1. Tạo nội dung CSV (định dạng bảng) 2. Tạo nội dung Markdown (được nhóm theo độ khó) 3. Sử dụng công cụ Ghi để lưu nội dung dưới dạng tài liệu 4. Báo cáo cho người dùng: - Tổng số từ vựng - Số lượng từ cho Sơ cấp/Trung cấp/Nâng cao - Vị trí tệp và mô tả định dạng - **Lưu ý đặc biệt:** Từ vựng đơn giản là cũng đáng học, vì nó thường có nhiều nghĩa và cách sử dụng. **Ví dụ CSV:** ```Từ CSV, phiên âm ngữ âm, từ loại, định nghĩa tiếng Trung, câu ví dụ, độ khó, xếp hạng tần suất từ ​​với, /wɪð/ (tiếng Anh) /wɪθ/ (tiếng Mỹ), giới từ, với; với, Kỹ năng hoạt động tốt với khả năng tích hợp sẵn của Claude., Người mới bắt đầu, 25 kỹ năng, /skɪl/, danh từ, kỹ năng; kỹ thuật, Một kỹ năng là một tập hợp các hướng dẫn dạy Claude., Người mới bắt đầu, 850 phân tích, /ˈænəlaɪz/, động từ, phân tích; phân tích chi tiết; xem xét kỹ lưỡng, Các nhà nghiên cứu phân tích các tập dữ liệu lớn để xác định các mẫu., Trung cấp, 1250 phương pháp luận, /ˌmeθəˈdɒlədʒi/, danh từ, phương pháp luận; cách tiếp cận, Phương pháp luận của chúng tôi tuân theo các giao thức đã được thiết lập., Nâng cao, 5500 ``` **Ví dụ Markdown:** ```markdown #`` Tài liệu nguồn từ vựng thông minh: research_paper.pdf Ngày tạo: 15/01/2024 Tổng số từ vựng: 485 từ (Sơ cấp: 280 từ | Trung cấp: 145 từ | Nâng cao: 60 từ) **Mẹo học tập**: - Mặc dù từ vựng sơ cấp có vẻ đơn giản, nhưng nó thường có nhiều nghĩa và cách kết hợp khác nhau. - Nên xem xét kỹ các câu ví dụ về từ vựng sơ cấp để hiểu cách sử dụng trong các ngữ cảnh cụ thể. --- ## Từ vựng Sơ cấp (280 từ) Phù hợp cho người học tiếng Anh trình độ sơ cấp (A1-A2), bao gồm từ vựng cơ bản và các giới từ/đại từ/liên từ thường dùng | Từ vựng | Ký hiệu ngữ âm | Từ loại | Định nghĩa tiếng Trung | Câu ví dụ |------|------|------|----------|------| | with | /wɪð/ (Anh) /wɪθ/ (Mỹ) | giới từ | with; with; with | Kỹ năng hoạt động tốt với khả năng tích hợp sẵn của Claude. | | for | /fɔːr/ (Anh) /fɔːr/ (Mỹ) | giới từ | cho; cho; để | Kỹ năng rất mạnh mẽ khi bạn có quy trình làm việc lặp lại. | | có thể | /kæn/ (Anh) /kæn/ (Mỹ) | động từ khuyết thiếu | có thể; có thể; sẽ | Claude có thể tải nhiều kỹ năng cùng lúc. | ... ## Từ vựng trung cấp (145 từ) | Từ | Ký hiệu ngữ âm | Loại từ | Định nghĩa tiếng Trung | Câu ví dụ | |------|------|------|----------|------| | phân tích | /ˈænəlaɪz/ | động từ | phân tích; chia nhỏ; xem xét kỹ lưỡng | Các nhà nghiên cứu phân tích các tập dữ liệu lớn... | ... ## Từ vựng nâng cao (60 từ) | Từ | Ký hiệu ngữ âm | Loại từ | Định nghĩa tiếng Trung | Câu ví dụ | |------|------|------|----------|------| | phương pháp luận | /ˌmeθəˈdɒlədʒi/ | danh từ | Phương pháp luận; phương pháp | Phương pháp luận của chúng tôi tuân theo các giao thức đã được thiết lập. | ... --- **Hướng dẫn sử dụng**: - Các tệp CSV có thể được nhập trực tiếp vào phần mềm học tập như Anki, Quizlet và Eudic. - Bảng Markdown có thể được in trực tiếp hoặc xuất dưới dạng PDF. - **Lưu ý quan trọng**: Ngay cả đối với từ vựng cơ bản (chẳng hạn như with, for, can), hãy nghiên cứu kỹ cách sử dụng chúng trong các ngữ cảnh khác nhau. **Danh sách kiểm tra chất lượng**: - [ ] Định dạng CSV có chính xác không (mã hóa UTF-8)? - [ ] Bảng Markdown có được hiển thị chính xác không? - [ ] Nó có được nhóm theo độ khó chính xác không? - [ ] Nó có bao gồm hướng dẫn sử dụng đầy đủ không? - [ ] Nó có gợi ý rằng từ vựng đơn giản cũng có giá trị học tập không? --- ## Cấu hình công cụ **Công cụ cần thiết**: 1. **WebFetch** - Truy vấn các ký hiệu ngữ âm, từ loại và định nghĩa tiếng Trung của từ. - Mục đích: Truy cập từ điển trực tuyến (Cambridge, Oxford, v.v.) để có được từ vựng chính xác 1. **Thông tin. - Yêu cầu: Đảm bảo độ chính xác của các ký hiệu ngữ âm và định nghĩa, đặc biệt là nhiều nghĩa của các từ đơn giản. 2. **Viết** - Xuất ra các tài liệu dài (sách từ vựng ở định dạng CSV và Markdown) - Mục đích: Lưu sách từ vựng đã tạo dưới dạng tài liệu để người dùng dễ dàng tải xuống và sử dụng. - Yêu cầu: Nội dung đầu ra tương đối dài (500-2000 từ), cần được lưu vào tài liệu thay vì cửa sổ trò chuyện. **Các công cụ không cần thiết**: - imageGenerate (không cần tạo hình ảnh) - audioGenerate (không cần tạo âm thanh) - slidesGenerate (không cần tạo trình chiếu) - videoGenerate (không cần tạo video) --- ## Tài nguyên tham khảo **Không cần tài nguyên tham khảo bên ngoài**, AI xử lý dựa trên cơ sở kiến ​​thức ngôn ngữ tích hợp và dữ liệu tần suất từ. Để tăng cường chức năng, hãy cân nhắc thêm: - Danh sách tần suất từ ​​COCA (Corpus of Contemporary American English) - Danh sách tần suất từ ​​BNC (British National Corpus) - Danh sách từ vựng học thuật (AWL) - Từ điển cụm từ cố định (để trích xuất) (các cụm từ thông dụng) --- ## Gợi ý sử dụng 1. **Loại tài liệu đầu vào tốt nhất**: - Bài báo/bài viết học thuật (từ vựng phong phú, độ khó vừa phải) - Sách tiếng Anh gốc (từ vựng lớn, ngữ cảnh phong phú) - Sách giáo khoa/ghi chú bài giảng (phù hợp với người học ở trình độ tương ứng) - Tài liệu kỹ thuật/tài liệu API (chứa thuật ngữ kỹ thuật và từ viết tắt) 2. **Gợi ý để cải thiện chất lượng đầu ra**: - Kiểm tra xem PDF có phải là bản quét trước khi cung cấp; bản quét yêu cầu OCR. - Nếu chỉ cần các chương cụ thể, vui lòng chỉ định phạm vi trang trước. - **Đừng bỏ qua từ vựng cơ bản**: Các từ đơn giản (with, for, can, v.v.) thường có nhiều cách sử dụng và cụm từ kết hợp. 3. **Phương pháp nhập phần mềm học tập**: - **Anki**: Nhập CSV → Thiết lập ánh xạ trường (Từ → Trước, Định nghĩa → Sau) - **Quizlet**: Tạo bộ học tập → Nhập → Dán nội dung CSV - **Từ điển Ouloo**: Nhập danh sách từ vựng → Chọn tệp CSV 4. **Gợi ý chiến lược học tập**: - Từ vựng cơ bản (khoảng 280 từ): Tập trung vào các cụm từ cố định và cách sử dụng; đừng bỏ qua các từ chỉ vì chúng "đơn giản". - Từ vựng trung cấp (khoảng 150 từ): Từ vựng học thuật cốt lõi; tập trung vào việc nắm vững những từ này. - Từ vựng nâng cao (khoảng 60 từ): Thuật ngữ chuyên ngành; học có chọn lọc dựa trên lĩnh vực của bạn. --- ## Gợi ý kiểm tra **Kiểm tra theo kịch bản chuẩn**: - **Đầu vào**: Một bài báo học thuật 10 trang định dạng PDF - **Đầu ra dự kiến**: - Tổng số từ vựng: Khoảng 400-600 từ (trước đây chỉ có 85 từ, nay đã tăng đáng kể) - Cơ bản: Khoảng 50-60% (bao gồm từ vựng cơ bản, giới từ, đại từ, liên từ, v.v.) - Trung cấp: Khoảng 30-40% (các từ học thuật thông dụng) - Nâng cao: Khoảng 10-20% (thuật ngữ chuyên ngành) - Tệp CSV có thể được nhập bình thường vào Anki/Quizlet - **Bao gồm các từ đơn giản** Từ vựng** như with, for, can, they, v.v. **Kiểm tra tình huống giới hạn**: - **Đầu vào**: PDF được quét (định dạng hình ảnh) - **Xử lý dự kiến**: Phát hiện và nhắc người dùng "Đã phát hiện PDF được quét, vui lòng thực hiện nhận dạng OCR trước" - **Giải pháp thay thế**: Nếu người dùng vẫn muốn, hãy thử trích xuất văn bản (có thể trống hoặc bị lỗi) **Kiểm tra xác minh chất lượng**: - Kiểm tra ngẫu nhiên độ chính xác của phiên âm ngữ âm của 10 từ - Kiểm tra xem định nghĩa tiếng Trung có khớp với từ hay không - Xác minh xem câu ví dụ có phải là câu gốc hay không - Xác nhận xem việc khôi phục dạng từ có chính xác hay không (ví dụ: children → child) - **Xác nhận xem các từ đơn giản (ví dụ: with, for) có được bao gồm trong danh sách từ vựng hay không** --- ## Hướng dẫn tối ưu hóa **Nếu hiệu suất không đạt yêu cầu, hãy xem xét các điều chỉnh sau**: 1. **Điều chỉnh thêm số lượng từ được trích xuất**: - Hiện tại: Trích xuất 500 từ đầu tiên từ tài liệu ngắn và 2000 từ đầu tiên từ tài liệu dài - Có thể 1. Điều chỉnh để: Trích xuất 800 từ đầu tiên từ tài liệu ngắn và 3000 từ đầu tiên từ tài liệu dài. 2. **Thêm tính năng trích xuất cụm từ cố định**: - Trích xuất không chỉ các từ đơn lẻ mà còn cả các cụm từ cố định phổ biến (ví dụ: "work with", "depend on"). 3. **Thêm tính năng phân tích gốc và hậu tố:** - Thêm giải thích về gốc và hậu tố cho từ vựng nâng cao - Giúp người học hiểu về cấu tạo từ. 4. **Thêm tính năng gợi ý ôn tập:** - Tạo kế hoạch ôn tập dựa trên đường cong quên lãng Ebbinghaus - Gợi ý khoảng thời gian ôn tập cho từng cấp độ khó. 5. **Mở rộng định dạng đầu vào:** - Hỗ trợ nhiều định dạng tài liệu hơn như Word, EPUB và TXT - Hỗ trợ trích xuất trực tiếp từ URL web. 6. **Điều chỉnh độ khó cá nhân hóa:** - Tự động điều chỉnh tiêu chí phân cấp dựa trên trình độ tiếng Anh của người dùng - Người dùng có thể tùy chỉnh danh sách từ dừng. 7. **Thêm tính năng chú thích ngữ cảnh:** - Chú thích lĩnh vực/chủ đề cụ thể của mỗi từ trong tài liệu - Giúp người học hiểu cách sử dụng từ vựng chuyên ngành.

Find your next favorite skill

Explore more curated AI skills for research, creation, and everyday work.

Explore all skills