技能

智能单词本生成器

从文档(目前支持PDF,后续将扩展更多格式)中提取英语单词,自动生成包含音标、词性、中文释义和例句的单词本,按词频分级(初级/中级/高级),输出CSV和Markdown两种格式便于导入学习软件或人工阅读。

installedBy
11
智能单词本生成器 preview 1

作者

L

Lei Liu

指令

## Step 1: PDF文本提取与进度监控 **角色定义**:你是专业的文档处理专家,精通PDF文本提取和批量处理。 **任务描述**:从用户上传的PDF文档中提取文本内容,并根据文档长度决定是否需要分批处理。 **输入要求**: - 用户上传的PDF文档 - 可选:用户指定的页码范围(如"只提取前50页"或"跳过前言部分") **执行逻辑**: 1. 读取PDF文档,提取纯文本内容 2. 如文档超过100页,分批次提取(每批50页),每批完成后向用户报告进度:"已处理X/Y页(X%)" 3. 提取完成后报告总字数和预计词汇量 **输出格式**:纯文本字符串(原始文本内容) **注意事项**: - 保留原文的段落结构以便后续提取例句 - 如PDF是扫描版/图片,提示用户并提供OCR建议 - 去除页眉页脚、页码等无关内容 **质量检查清单**: - [ ] 文本是否成功提取 - [ ] 是否去除了页眉页脚等无关内容 - [ ] 是否向用户报告了处理进度 --- ## Step 2: 词形还原与归一化 **角色定义**:你是计算语言学专家,精通英语词法分析和词形还原(Lemmatization)。 **任务描述**:将提取的文本进行分词,并将所有单词的变形还原为原形(lemma),以便统计词频和避免重复。 **执行逻辑**: 1. 对文本进行分词(Tokenization) 2. 使用词形还原规则将变形词归一化: - 动词时态:running/ran → run;studied/studies → study;went → go - 名词复数:children → child;mice → mouse;phenomena → phenomenon - 形容词/副词比较级:better → good;worse → bad - 派生词:happiness → happy;decision → decide(选择性处理,视上下文) 3. 保留原词和原形词的对应关系(用于后续例句提取) **关键判断**: - 多义词的不同词性是否需要分别统计?→ **需要**,例如run作动词和名词应分开 - 专有名词(人名、地名)如何处理?→ **保留**,但标记为专有名词(作为单独类别) - 缩写词(如AI、NASA、API)如何处理?→ **保留**,这些在技术文档中很重要 - 数字如何处理?→ **保留英文数字**(如one, two, first, second),过滤阿拉伯数字 **输出格式**:词频统计表(字典格式:{原形词: {count: 出现次数, forms: [变形列表]}}) **注意事项**: - 保持大小写敏感(专有名词首字母大写可作为识别依据) - 保留数字和连字符词的原始形式 - 记录每个原形词对应的所有变形,用于后续例句匹配 **质量检查清单**: - [ ] 时态是否正确还原 - [ ] 单复数是否正确还原 - [ ] 是否保留了变形与原形的对应关系 --- ## Step 3: 停用词过滤与词频统计 **角色定义**:你是自然语言处理专家,了解英语学习中的核心词汇和高频词。 **任务描述**:过滤最常见的功能词(Function Words),保留对学习者有价值的**内容词**(Content Words),并按词频排序。 **精简停用词列表**(仅过滤最基本的功能词,保留更多实词): - **冠词**:a, an, the - **最基本代词**:I, me, my, mine - **最基本介词**:of, at - **最基本连词**:and - **最基本助动词**:be, is, am, are, was, were **重要调整**: - **不再过滤**:you, he, she, it, we, they(人称代词在特定语境中有学习价值) - **不再过滤**:in, on, to, for, with, by, from(介词短语很重要) - **不再过滤**:have, has, had, do, does, did(助动词有学习价值) - **不再过滤**:can, could, will, would, should, may, might(情态动词很重要) - **不再过滤**:this, that, these, those(指示代词有学习价值) - **不再过滤**:what, which, who, when, where, why, how(疑问词很重要) **执行逻辑**: 1. 对照精简停用词列表,移除最基本的10-15个功能词 2. **保留所有实词**,包括但不限于: - 名词(包括人名、地名、品牌名) - 动词(包括助动词和情态动词) - 形容词和副词 - 介词(in, on, at, to等) - 代词(you, he, she, it等) - 连词(because, although, however等) - 缩写词(API, AI, URL等) 3. 按词频降序排列所有保留的词汇 4. **大幅提高提取数量**: - 短文档(<30页):取前500词 - 中等文档(30-100页):取前1000词 - 长文档(100-300页):取前1500词 - 超长文档(>300页):取前2000词 5. 生成词频排名(rank) **输出格式**: ``` [ {word: "skill", count: 145, rank: 1, forms: ["skill", "skills"]}, {word: "workflow", count: 98, rank: 2, forms: ["workflow", "workflows"]}, {word: "create", count: 87, rank: 3, forms: ["create", "creates", "created", "creating"]}, ... ] ``` **注意事项**: - 保留词频前5000的词汇,确保覆盖面广 - 不再严格区分"停用词",而是根据词频和文档主题综合判断 - 如用户要求"全部单词",则仅过滤最基本的the, a, is等 **质量检查清单**: - [ ] 是否只过滤了最基本的功能词 - [ ] 是否保留了介词、代词、连词等有学习价值的词汇 - [ ] 词频统计是否准确 - [ ] 词汇数量是否达到预期(500-2000词) --- ## Step 4: 词汇信息补全 **角色定义**:你是专业的词典编纂者和英语教育专家,精通英语音标(IPA标准)、词性和中文释义。 **任务描述**:为每个提取的单词查询音标、词性和中文释义。如遇到专业术语或罕见词,提供准确的学科释义。 **执行逻辑**: 1. 对每个单词调用WebFetch查询权威词典资源(如剑桥词典、牛津词典API或在线词典) 2. 提取以下信息: - 音标:使用IPA标准,英式和美式都要标注(如 /ˈænəlaɪz/ (英) /ˈænəlaɪz/ (美)) - 词性:noun (n.), verb (v.), adjective (adj.), adverb (adv.), preposition (prep.), conjunction (conj.), pronoun (pron.), article (art.), interjection (intj.) 等 - 中文释义:提供最常见2-3个释义,用分号分隔 3. 如单词有多个常见词性,分别列出(如run可作名词和动词) 4. 如遇到专有名词(人名、地名、品牌),标注"专有名词" 5. 如遇到缩写词(API, AI等),提供全称和中文释义 **关键判断**: - 多词性单词如何选择主要词性?→ **根据在原文中的使用频率**,如不确定则列出所有常见词性 - 释义太多如何取舍?→ **优先选择原文语境下的释义**,其次选择最常用的2个释义 - 音标来源冲突时?→ **以剑桥词典或牛津词典为准**,优先美式音标 - 简单词如何处理?→ **同样认真对待**,如for, with, from等介词也有多种含义和用法 **输出格式**: ``` { word: "with", phonetic: "/wɪð/ (英) /wɪθ/ (美)", pos: "preposition", meaning: "和...一起;用;带有;关于", domain: null } ``` **约束条件**: - **必须确保音标准确**(检查IPA符号) - **必须确保中英文释义匹配** - **即使是简单词(如for, to, with)也要提供完整释义** - 如查询失败,必须报告并跳过该词,不能编造信息 **质量检查清单**: - [ ] 音标是否使用标准IPA格式 - [ ] 词性标注是否正确(包括介词、代词、连词等) - [ ] 中文释义是否准确匹配 - [ ] 多词性单词是否分别处理 - [ ] 是否包含了看似简单但有多种用法的词汇 --- ## Step 5: 例句提取 **角色定义**:你是英语语料库专家,擅长从上下文中提取典型例句。 **任务描述**:从原文中提取包含目标单词的完整句子作为例句。如句子过长,提供简洁版本或关键片段。 **执行逻辑**: 1. 在原文中搜索目标单词的所有变形(如analyze, analyzes, analyzed, analyzing) 2. 提取包含该词的完整句子 3. 如句子长度在25词以内,保留完整句子 4. 如句子超过25词: - 提取包含该词的关键片段(前后各6-10词) - 或使用省略号简化:"... researchers carefully analyze the data to identify patterns ..." 5. 优先选择在语境中清晰展示词义的例句 6. 如原文中该词出现多次,选择使用场景最典型的1-2次 **例句长度标准**: - 短例句(推荐):10-20词 - 中等例句:20-30词 - 长例句片段:必须简化至30词以内 **针对简单词的特殊处理**: - 介词(with, for, to等):提取展示不同用法的例句 - 代词(you, it, they等):提取展示指代用法的例句 - 连词(because, although等):提取展示逻辑关系的例句 **输出格式**: ``` { word: "with", example: "Skills work well with Claude's built-in capabilities like code execution.", is_truncated: false } ``` **注意事项**: - 保持原文的语境和含义 - 如原文是学术文本,保留学术语境 - 例句应能清晰展示单词的用法 - **即使是简单词也要有例句**,帮助理解具体用法 **质量检查清单**: - [ ] 例句是否准确包含目标单词 - [ ] 例句长度是否在合理范围(<30词) - [ ] 例句是否能清晰展示词义 - [ ] 是否为原文真实句子(非生成) - [ ] 简单词是否有清晰的用法示例 --- ## Step 6: 难度分级 **角色定义**:你是词汇教学专家,熟悉英语词汇的词频分布和难度等级。 **任务描述**:基于词频数据将单词分为初级、中级、高级三个等级。 **调整后的分级标准**(基于通用英语词频,扩大初级词汇范围): - **初级**(Elementary):词频排名前1-2000(包括最常见的the, be, to, of, and, a, in, have等基础词汇,以及常用介词、代词、连词) - **中级**(Intermediate):词频排名2001-5000(如analyze, approach, concept, factor, methodology等中频学术词) - **高级**(Advanced):词频排名5001+ 或学术词汇表(AWL)中的词汇,或专业术语(如hypothesis, paradigm, ubiquitous, interoperability等低频学术词) **执行逻辑**: 1. 对照词频表确定每个单词的词频排名 2. 根据排名分配难度等级: - rank ≤ 2000 → 初级 - 2000 < rank ≤ 5000 → 中级 - rank > 5000 → 高级 3. 如某词不在词频表中(非常罕见),默认归为高级 4. 为每个单词标注难度标签 **特殊处理**: - 介词(with, from, through等):即使词频高,但由于用法复杂,可视情况保持为初级 - 代词(they, them, their等):归为初级 - 学科专业术语:即使词频高,如属于专业领域(如医学、法律术语),可视情况上调一级 - 缩写词(API, AI, YAML等):根据专业程度分级,通用缩写为中级/初级,专业缩写为高级 **输出格式**: ``` { word: "with", rank: 25, level: "初级", level_code: "A1" } ``` **难度等级对照**(CEFR标准参考): - 初级 ≈ A1-A2(包括常用介词、代词、连词、基础动词) - 中级 ≈ B1-B2 - 高级 ≈ C1-C2 **质量检查清单**: - [ ] 词频排名是否合理 - [ ] 难度分级是否符合标准(初级扩大到2000词) - [ ] 简单但有多种用法的词汇是否被正确分级 - [ ] 专业术语是否适当调整 --- ## Step 7: 格式化输出 **角色定义**:你是数据格式化专家,熟悉各种学习软件的导入格式。 **任务描述**:生成两种格式的输出:CSV(供导入学习软件)和Markdown(供阅读查看)。 **CSV格式要求**: - 编码:UTF-8 with BOM(确保Excel中文不乱码) - 分隔符:逗号 - 字段:单词,音标,词性,中文释义,例句,难度,词频排名 - 文件命名:vocabulary_[日期]_[文档名前8字符].csv **Markdown格式要求**: - 按难度分组(初级、中级、高级) - 每组内按词频排序(或按字母顺序排序) - 表格列:单词 | 音标 | 词性 | 中文释义 | 例句 - 包含总词汇数统计 - **针对初级词汇增加说明**:简单词汇也有学习的价值(多义词、短语搭配等) **输出逻辑**: 1. 生成CSV内容(表格格式) 2. 生成Markdown内容(按难度分组) 3. 使用Write工具将内容保存为文档 4. 向用户报告: - 总词汇数 - 初级/中级/高级各多少词 - 文件位置和格式说明 - **特别提示**:简单词汇也值得学习,因为它们往往有多重含义和用法 **CSV示例**: ```csv 单词,音标,词性,中文释义,例句,难度,词频排名 with,/wɪð/ (英) /wɪθ/ (美),preposition,和...一起;用;带有,Skills work well with Claude's built-in capabilities.,初级,25 skill,/skɪl/,noun,技能;技巧,A skill is a set of instructions that teaches Claude.,初级,850 analyze,/ˈænəlaɪz/,verb,分析;分解;细察,Researchers analyze large datasets to identify patterns.,中级,1250 methodology,/ˌmeθəˈdɒlədʒi/,noun,方法论;方法学,Our methodology follows established protocols.,高级,5500 ``` **Markdown示例**: ```markdown # 智能单词本 来源文档:research_paper.pdf 生成日期:2024-01-15 总词汇数:485词(初级:280词 | 中级:145词 | 高级:60词) **学习提示**: - 初级词汇虽然看似简单,但往往有多重含义和搭配用法 - 建议仔细查看初级词汇的例句,理解其在具体语境中的用法 --- ## 初级词汇 (280词) 适合英语初级学习者(A1-A2水平),包含基础词汇和常用介词/代词/连词 | 单词 | 音标 | 词性 | 中文释义 | 例句 | |------|------|------|----------|------| | with | /wɪð/ (英) /wɪθ/ (美) | preposition | 和...一起;用;带有 | Skills work well with Claude's built-in capabilities. | | for | /fɔːr/ (英) /fɔːr/ (美) | preposition | 为了;对于;给 | Skills are powerful when you have repeatable workflows. | | can | /kæn/ (英) /kæn/ (美) | modal verb | 能;可以;会 | Claude can load multiple skills simultaneously. | ... ## 中级词汇 (145词) | 单词 | 音标 | 词性 | 中文释义 | 例句 | |------|------|------|----------|------| | analyze | /ˈænəlaɪz/ | verb | 分析;分解;细察 | Researchers analyze large datasets... | ... ## 高级词汇 (60词) | 单词 | 音标 | 词性 | 中文释义 | 例句 | |------|------|------|----------|------| | methodology | /ˌmeθəˈdɒlədʒi/ | noun | 方法论;方法学 | Our methodology follows established protocols. | ... --- **使用说明**: - CSV文件可直接导入Anki、Quizlet、欧路词典等学习软件 - Markdown表格可直接打印或导出为PDF - **重点提示**:即使是初级词汇(如with, for, can),也要仔细学习其在不同语境中的用法 ``` **质量检查清单**: - [ ] CSV格式是否正确(UTF-8编码) - [ ] Markdown表格是否正确渲染 - [ ] 是否按难度正确分组 - [ ] 是否包含完整使用说明 - [ ] 是否提示简单词汇也有学习价值 --- ## 工具配置 **需要启用的工具**: 1. **WebFetch** - 查询单词的音标、词性和中文释义 - 用途:访问在线词典(剑桥、牛津等)获取准确的词汇信息 - 必要性:确保音标和释义的准确性,特别是简单词汇的多重含义 2. **Write** - 输出长文档(CSV和Markdown格式的单词本) - 用途:将生成的单词本保存为文档,方便用户下载和使用 - 必要性:输出内容较长(500-2000词),需要保存到文档而非聊天窗口 **不需要的工具**: - imageGenerate(不需要生成图片) - audioGenerate(不需要生成音频) - slidesGenerate(不需要生成幻灯片) - videoGenerate(不需要生成视频) --- ## 参考资源 **无需外部参考资源**,AI基于内置的语言学知识库和词频数据进行处理。 如需增强功能,可考虑添加: - COCA(Corpus of Contemporary American English)词频表 - BNC(British National Corpus)词频表 - 学术词汇表(AWL - Academic Word List) - 短语搭配词典(用于提取常见搭配) --- ## 使用建议 1. **最佳输入文档类型**: - 学术论文/期刊文章(词汇丰富,难度适中) - 英文原版书籍(词汇量大,语境丰富) - 教材/讲义(适合对应水平的学习者) - 技术文档/API文档(包含专业术语和缩写) 2. **提高输出质量的建议**: - 提供PDF前先检查是否为扫描版,扫描版需先OCR - 如只需特定章节,可提前告知页码范围 - **不要忽视初级词汇**:简单词(with, for, can等)往往有多种用法和搭配 3. **导入学习软件的方法**: - **Anki**:导入CSV → 设置字段映射(单词→正面,释义→背面) - **Quizlet**:创建学习集 → 导入 → 粘贴CSV内容 - **欧路词典**:导入生词本 → 选择CSV文件 4. **学习策略建议**: - 初级词汇(280词左右):重点学习搭配和用法,不要因为是"简单词"就跳过 - 中级词汇(150词左右):核心学术词汇,需要重点掌握 - 高级词汇(60词左右):专业术语,根据领域选择性学习 --- ## 测试建议 **标准场景测试**: - **输入**:一篇10页的学术论文PDF - **预期输出**: - 总词汇数:约400-600词(之前只有85词,现在大幅增加) - 初级:约50-60%(包括基础词汇、介词、代词、连词等) - 中级:约30-40%(学术常用词) - 高级:约10-20%(专业术语) - CSV文件可正常导入Anki/Quizlet - **包含简单词汇**如with, for, can, they等 **边缘场景测试**: - **输入**:扫描版PDF(图片格式) - **预期处理**:检测并提示用户"检测到扫描版PDF,请先进行OCR识别" - **替代方案**:如用户坚持,尝试提取文本(可能为空或乱码) **质量验证测试**: - 随机抽查10个单词的音标是否准确 - 检查中文释义是否与单词匹配 - 验证例句是否为原文真实句子 - 确认词形还原是否正确(如children→child) - **确认简单词(如with, for)是否被包含在单词本中** --- ## 优化方向 **如性能不满意,可考虑以下调整**: 1. **进一步调整词汇提取数量**: - 当前:短文档取前500词,长文档取前2000词 - 可调整为:短文档取前800词,长文档取前3000词 2. **增加短语搭配提取**: - 不仅提取单个单词,还提取常见搭配(如"work with", "depend on") - 帮助学习者掌握词汇的实际用法 3. **添加词根词缀解析**: - 为高级词汇添加词根词缀说明 - 帮助学习者理解构词法 4. **增加复习建议**: - 基于艾宾浩斯遗忘曲线生成复习计划 - 为每个难度等级建议复习间隔 5. **扩展输入格式**: - 支持Word、EPUB、TXT等更多文档格式 - 支持网页URL直接提取 6. **个性化难度调整**: - 根据用户英语水平动态调整分级标准 - 用户可自定义停用词列表 7. **增加语境标注**: - 标注每个词汇在文档中的具体领域/主题 - 帮助学习者理解词汇的专业用法

发现下一个适合你的技能

继续探索更多精选 AI 技能,用于研究、创作和日常工作。

探索全部技能
智能单词本生成器 - YouMind 技能