技能

智慧型單字本生成器

從文件(目前支援PDF,後續將擴展更多格式)中提取英語單詞,自動生成包含音標、詞性、中文釋義和例句的單詞本,按詞頻分級(初級/中級/高級),輸出CSV和Markdown兩種格式便於導入學習軟體或人工閱讀。

installedBy
11
智慧型單字本生成器 preview 1

作者

L

Lei Liu

指令

## Step 1: PDF文字擷取與進度監控**角色定義**:你是專業的文件處理專家,精通PDF文字擷取與批次處理。 **任務描述**:從使用者上傳的PDF文件中提取文字內容,並根據文件長度決定是否需要分批處理。 **輸入要求**: - 使用者上傳的PDF文檔- 可選:使用者指定的頁碼範圍(如"只提取前50頁"或"跳過前言部分") **執行邏輯**: 1. 讀取PDF文檔,提取純文字內容2. 如文件超過100頁,分頁提取(每批完成後向用戶報告/Y.提取完成後報告總字數和預計詞彙量**輸出格式**:純文字字串(原始文字內容) **注意事項**: - 保留原文的段落結構以便後續提取例句- 如PDF是掃描版/圖片,提示用戶並提供OCR建議- 去除頁眉頁腳、頁碼等無關內容**-編號2: 詞形還原與歸一化**角色定義**:你是計算語言學專家,精通英語詞法分析與詞形還原(Lemmatization)。 **任務描述**:將提取的文本進行分詞,並將所有單字的變形還原為原形(lemma),以便統計詞頻和避免重複。 **執行邏輯**: 1. 對文字進行分詞(Tokenization) 2. 使用詞形還原規則將變形詞歸一化: - 動詞時態:running/ran → run;studied/studies → study;went → go - 動詞複數:children → childmicemice yge acent; good;worse → bad - 派生詞:happiness → happy;decision → decide(選擇性處理,視上下文) 3. 保留原詞和原形詞的對應關係(用於後續例句提取) **關鍵判斷**: - 多義詞的不同詞性是否需要分別統計? → **需要**,例如run作動詞和名詞要分開- 專有名詞(人名、地名)如何處理? → **保留**,但標記為專有名詞(作為單獨類別) - 縮寫詞(如AI、NASA、API)如何處理? → **保留**,這些在技術文件中很重要- 數字如何處理? → **保留英文數字**(如one, two, first, second),過濾阿拉伯數字**輸出格式**:詞頻統計表(字典格式:{原形詞: {count: 出現次數, forms: [變形列表]}}) **注意事項**: - 保持大小寫敏感(專有名詞可識別首字母大寫形式作為基礎和可識別為基礎記錄每個原形詞對應的所有變形,用於後續例句匹配**質量檢查清單**: - [ ] 時態是否正確還原- [ ] 單複數是否正確還原- [ ] 是否保留了變形與原形的對應關係--- ## Step 3: 停用詞過濾與詞頻統計**角色定義**:你是自然語言處理專家,了解英語學習詞中的詞彙和定義詞頻詞。 **任務描述**:過濾最常見的功能詞(Function Words),保留對學習者有價值的**內容詞**(Content Words),並按詞頻排序。 **精簡停用詞列表**(只過濾最基本的功能詞,保留更多實詞): - **冠詞**:a, an, the - **最基本代詞**:I, me, my, mine - **最基本介詞**:of, at - **最基本連詞**:and - **最基本助動詞:be, was** am, ** 折扣it, we, they(人稱代名詞在特定語境中有學習價值) - **不再過濾**:in, on, to, for, with, by, from(介詞片語很重要) - **不再過濾**:have, has, had, do, does, did(助動詞有學習價值) - ** 不再過濾: **不再過濾**:this, that, these, those(指示代名詞有學習價值) - **不再過濾**:what, which, who, when, where, why, how(疑問詞很重要) **執行邏輯**: 1. 對照精簡停用詞列表,移除最基本的10-15個功能詞**2.動詞(包括助動詞和情態動詞) - 形容詞和副詞- 介詞(in, on, at, to等) - 代名詞(you, he, she, it等) - 連接詞(because, although, however等) - 縮寫詞(API, AI, URL等) 3.短文檔(<30頁):取前500詞- 中等文檔(30-100頁):取前1000詞- 長文檔(100-300頁):取前1500詞- 超長文檔(>300頁):取前2000詞5. 產生詞頻排名(M): 4:2 1, forms: ["skill", "skills"]}, {word: "workflow", count: 98, rank: 2, forms: ["workflow", "workflows"]}, {word: "create", count: 87, rank: 3, forms)}, {word: "create", count: 87, rank: 3, forms: ["create" - 保留詞頻前5000的詞彙,確保覆蓋面廣- 不再嚴格區分"停用詞",而是根據詞頻和文檔主題綜合判斷- 如用戶要求"全部單詞",則僅過濾最基本的the, a, is等**質量檢查清單**: - [ ] 是否只過濾了最基本的功能詞- [ ] 是否保留了詞、代詞、連接詞詞彙數是否達到預期(500-2000字) --- ## Step 4: 詞彙資訊補全**角色定義**:你是專業的字典編纂者和英語教育專家,精通英語音標(IPA標準)、詞性和中文釋義。 **任務描述**:為每個提取的單字查詢音標、詞性和中文釋義。如遇到專業術語或罕見詞,提供準確的學科釋義。 **執行邏輯**: 1. 對每個單字呼叫WebFetch查詢權威字典資源(如劍橋字典、牛津字典API或線上字典) 2. 擷取下列資訊: - 音標:使用IPA標準,英式和科əlaɪ(如/ˈænəlaɪz/ (英) /ˈnəlaɪz (Nænəlaɪz (M). adjective (adj.), adverb (adv.), preposition (prep.), conjunction (conj.), pronoun (pron.), article (art.), interjection (intj.) 等- 中文釋義:提供最常見字2-3個釋義,用分號為名詞(run.run.如遇到專有名詞(人名、地名、品牌),標註"專有名詞" 5. 如遇到縮寫詞(API, AI等),提供全稱和中文釋義**關鍵判斷**: - 多詞性單字如何選擇主要詞性? → **根據在原文中的使用頻率**,如不確定則列出所有常見詞性- 釋義太多如何取捨? → **優先選擇原文語境下的釋義**,其次選擇最常用的2個釋義- 音標來源衝突時? → **以劍橋字典或牛津字典為準**,優先美式音標- 簡單字如何處理? → **同樣認真對待**,如for, with, from等介詞也有多種意義和用法**輸出格式**: ``` { word: "with", phonetic: "/wɪð/ (英) /wɪθ/ (美)", pos: "preposition", meaning: "和...一起; **必須確保音標準確**(檢查IPA符號) - **必須確保中英文釋義匹配** - **即使是簡單詞(如for, to, with)也要提供完整釋義** - 如查詢失敗,必須報告並跳過該詞,不能編造信息**質量檢查清單**: - [ ] 音標是否使用標準IPA格式- [ ] 詞性標註是否正確(包括詞性標註)標註;多詞性單字是否分別處理- [ ] 是否包含了看似簡單但有多種用法的詞彙--- ## Step 5: 例句提取**角色定義**:你是英語語料庫專家,擅長從上下文中提取典型例句。 **任務描述**:從原文中提取包含目標單字的完整句子作為例句。如句子過長,提供簡潔版本或關鍵片段。 **執行邏輯**: 1. 在原文中搜尋目標單字的所有變形(如analyze, analyzes, analyzed, analyzing) 2. 提取包含該詞的完整句子3. 如句子長度在25詞以內,保留完整句子4. 如句子超過25詞: - 提取該詞的關鍵片段(前號後 6-100 字節)。 data to identify patterns ..." 5. 優先選擇在語境中清晰展示詞義的例句6. 如原文中該詞出現多次,選擇使用場景最典型的1-2次**例句長度標準**: - 短例句(建議):10-20詞- 中等例句:20-30詞- 短例句:對詞組:必須針對30個詞組的特殊詞組to等):提取展示不同用法的例句- 代名詞(you, it, they等):提取展示指涉用法的例句- 連接詞(because, although等):提取展示邏輯關係的例句**輸出格式** ``` { word: "with", example: "Skills**輸出格式** 發現 3. is_truncated: false } ``` **注意事項**: - 保持原文的語境和含義- 如原文是學術文本,保留學術語境- 例句應能清晰展示單字的用法- **即使是簡單詞也要有例句**,幫助理解具體用法**質量檢查清單** - [ ] 例句是否準確地顯示目標詞- []]-短語是否為原文真實句子(非生成) - [ ] 簡單詞是否有清晰的用法示例--- ## Step 6: 難度分級**角色定義**:你是詞彙教學專家,熟悉英語詞彙的詞頻分佈和難度等級。 **任務描述**:根據詞頻資料將單字分為初級、中級、高級三個等級。 **調整後的分級標準**(基於通用英語詞頻,擴大初級詞彙範圍): - **初級**(Elementary):詞頻排名前1-2000(包括最常見的the, be, to, of, and, a, in, have等基礎詞彙,以及常用介詞、代詞、連接詞) - 中級**(Interreapp factor, methodology等中頻學術詞) - **高級**(Advanced):詞頻排名5001+ 或學術詞彙表(AWL)中的詞彙,或專業術語(如hypothesis, paradigm, ubiquitous, interoperability等低頻學術詞) **執行邏輯: 1. 對照詞頻表 1.初級- 2000 < rank ≤ 5000 → 中級- rank > 5000 → 高級3. 如某詞不在詞頻表中(非常罕見),默認歸為高級4. 為每個詞標註難度標籤**特殊處理**: - 介詞(with, from, Fough等):即使詞代頻,但由於情況存在於高快率, 初級詞, 0,000):初級詞代詞和用法時their等):歸為初級- 學科專業術語:即使詞頻高,如屬於專業領域(如醫學、法律術語),可視情況上調一級- 縮寫詞(API, AI, YAML等):根據專業程度分級,通用縮寫為中級/初級,專業縮寫為高級**輸出格式: ``` { 初級 }:", 1" ``` **難度等級對照**(CEFR標準參考): - 初級≈ A1-A2(包括常用介詞、代名詞、連接詞、基礎動詞) - 中級≈ B1-B2 - 高級≈ C1-C2 **品質檢查清單**: - [ ] 詞頻排名是否合理- [ ] 高級≈ C1-C2 **品質檢查清單**: - [ ] 詞頻排名是否合理- [ ] 初級難度分級是否符合標準等級(20-20-20-20-20-20-200 等級是否符合標準等級 [20-20-20-20-20-20-20-20-20-200 等級的標準等級是否符合標準等級 [20-20-20-20-20-20-20-20-20-20-20-20-20-200 是否符合標準等級 [20-20-20-20-20 等級的標準等級;專業術語是否適當調整--- ## Step 7: 格式化輸出**角色定義**:你是資料格式化專家,熟悉各種學習軟體的導入格式。 **任務描述**:產生兩種格式的輸出:CSV(供匯入學習軟體)和Markdown(供閱讀查看)。 **CSV格式要求**: - 編碼:UTF-8 with BOM(確保Excel中文不亂碼) - 分隔符號:逗號- 欄位:單字,音標,詞性,中文釋義,例句,難度,詞頻排名- 檔案命名:vocabulary_[日期]_[文檔名前8.csv **Markdown格式**:vocabulary_[日期]_[文檔名前8.].csv **Markdown格式。每組內按詞頻排序(或按字母順序排序) - 表格列:單字| 音標| 詞性| 中文釋義| 例句- 包含總詞彙數統計- **針對初級詞彙增加說明**:簡單詞彙也有學習的價值(多義詞、短語搭配等) **輸出邏輯**: 1. 1223 月使用 2, 2.2,3好的「表格」。 - 總詞彙數- 初級/中級/高級各多少詞- 文件位置和格式說明- **特別提示**:簡單詞彙也值得學習,因為它們往往有多重含義和用法**CSV示例**: ```csv 單字,音標,詞性,中文釋義,例句,難度,詞頻排名with,/wɪð/ (英) /w, θ, Claude's built-in capabilities.,初級,25 skill,/skɪl/,noun,技能;技巧,A skill is a set of instructions that teaches Claude.,初級,850 analyze,/ˈænəlaɪz/,verb, Jnidz, 分解; patterns.,中級,1250 methodology,/ˌmeθəˈdɒlədʒi/,noun,方法論;方法學,Our methodology follows established protocols.,高級,5500 ````Markdown 範例**: ```markdown # 智慧 總詞彙數:485詞(初級:280詞| 中級:145詞| 高級:60詞) **學習提示**: - 初級詞彙雖然看似簡單,但往往有多重含義和搭配用法- 建議仔細查看初級詞彙的例句,理解其在具體語境中的用法--- ## 初級詞彙(280詞) 適合英語初級學習者(A1-A2水平),包含基礎詞彙和常用介詞/代詞/連詞| 單詞|音標| 詞性| 中文釋義| 例句| |------|------|------|----------|------| | with | /wɪð/ (英) /wɪθ/ (美) | preposition | 和...一起;用;帶有| Skills work well with Claude's built-in cap/ilities | (美) | preposition | 為了;對於;給| Skills are powerful when you have repeatable workflows. | | can | /kæn/ (英) /kæn/ (美) | modal verb | 能;可以;會| Claude can load multipleski load |詞性| 中文釋義| 例句| |------|------|------|----------|------| | analyze | /ˈænəlaɪz/ | verb | 分析;分解;細察| Researchers analyze large datasets... | ... ## 高級詞彙 (60 字詞) | |------|------|------|----------|------| | methodology | /ˌmeθəˈdɒlədʒi/ | noun | 方法論;方法論| Our methodology follows established protocols。 **重點提示**:即使是初級詞彙(如with, for, can),也要仔細學習其在不同語境中的用法``` **品質檢查清單**: - [ ] CSV格式是否正確(UTF-8編碼) - [ ] Markdown表格是否正確渲染- [ ] 是否按難度正確分組- [ ] 是否包含完整的工具查詢單字的音標、詞性和中文釋義- 用途:訪問在線詞典(劍橋、牛津等)獲取準確的詞彙信息- 必要性:確保音標和釋義的準確性,特別是簡單詞彙的多重含義2. **Write** - 輸出長文檔(CSV和Markdown格式的單詞本) - 用途:將生成的單詞本保存為文檔,方便用戶下載和使用-必要性:輸出內容較長(500-2000字),需要儲存到文件而非聊天視窗**不需要的工具**: - imageGenerate(不需要產生圖片) - audioGenerate(不需要產生音訊) - slidesGenerate(不需要產生投影片) - videoGenerate(不需要產生視訊) --- ## 參考資料 如需增強功能,可考慮新增: - COCA(Corpus of Contemporary American English)詞頻表- BNC(British National Corpus)詞頻表- 學術詞彙表(AWL - Academic Word List) - 短語搭配詞典(用於提取常見搭配) --- ## 使用建議1. **最佳文檔類型**:教材/講義(適合對應程度的學習者) - 技術文件/API文件(包含專業術語和縮寫) 2. **提高輸出品質的建議**: - 提供PDF前先檢查是否為掃描版,掃描版需先OCR - 如只需特定章節,可提前告知頁碼範圍- **不要忽略初級軟體詞彙**:簡單字(with, for, can2****設定欄位映射(單字→正面,釋義→背面) - **Quizlet**:建立學習集→ 導入→ 貼上CSV內容- **歐路字典**:導入生詞本→ 選擇CSV文件4. **學習策略建議**: - 初級詞彙(280字左右):重點學習搭配與掌握詞彙,不要因為是學術詞彙建議**"/ 跳過中詞彙(280字左右)重點字:高級詞彙(60字左右):專業術語,根據領域選擇性學習--- ## 測驗建議**標準場景測驗**: - **輸入**:一篇10頁的學術論文PDF - **預期輸出**: - 總詞彙數:約400-600字(之前只有85字,現在大幅增加) - 初級詞彙約50-60%(包含基礎、3%)、3% - 3%) - 進階:約10-20%(專業術語) - CSV檔案可正常匯入Anki/Quizlet - **包含簡單詞彙**如with, for, can, they等**邊緣場景測試**: - **輸入**:掃描版PDF(圖片格式) - **預期處理**:檢測並提示使用者隨機抽查10個單字的音標是否準確- 檢查中文釋義是否與單字相符- 驗證例句是否為原文真實句子- 確認詞形還原是否正確(如children→child) - **確認簡單詞(如with, for)是否被包含在單字本中** --- ## 優化方向**如以下效能不滿意,可考慮以下調整:** 進一步調整**目前:短文檔取前500字詞,長文檔取前2000字- 可調整為:短文檔取前500字詞,長文檔取前2000字- 可調整為:短文檔取前800字,長文檔取前3000字2. **增加片語搭配擷取**: - 不僅擷取單字,還擷取常見搭配(如"work with", "depend on") - 不僅擷取單字詞:說明音根單字 ** 字尾說明幫助學習者理解構詞法4. **增加複習建議**: - 基於艾賓浩斯遺忘曲線生成複習計劃- 為每個難度等級建議複習間隔5. **擴展輸入格式**: - 支援Word、EPUB、TXT等更多文件格式- 支援網頁URL直接提取6. **個人化難度:說明** - 根據用戶配置表:標註每個詞彙在文件中的具體領域/主題- 幫助學習者理解詞彙的專業用法

Find your next favorite skill

Explore more curated AI skills for research, creation, and everyday work.

Explore all skills
智慧型單字本生成器 - YouMind 技能