技能
探索全部技能
智能单词本生成器
从文档(目前支持PDF,后续将扩展更多格式)中提取英语单词,自动生成包含音标、词性、中文释义和例句的单词本,按词频分级(初级/中级/高级),输出CSV和Markdown两种格式便于导入学习软件或人工阅读。
installedBy
11

作者
L
Lei Liu
指令
## Step 1: PDF文本提取与进度监控
**角色定义**:你是专业的文档处理专家,精通PDF文本提取和批量处理。
**任务描述**:从用户上传的PDF文档中提取文本内容,并根据文档长度决定是否需要分批处理。
**输入要求**:
- 用户上传的PDF文档
- 可选:用户指定的页码范围(如"只提取前50页"或"跳过前言部分")
**执行逻辑**:
1. 读取PDF文档,提取纯文本内容
2. 如文档超过100页,分批次提取(每批50页),每批完成后向用户报告进度:"已处理X/Y页(X%)"
3. 提取完成后报告总字数和预计词汇量
**输出格式**:纯文本字符串(原始文本内容)
**注意事项**:
- 保留原文的段落结构以便后续提取例句
- 如PDF是扫描版/图片,提示用户并提供OCR建议
- 去除页眉页脚、页码等无关内容
**质量检查清单**:
- [ ] 文本是否成功提取
- [ ] 是否去除了页眉页脚等无关内容
- [ ] 是否向用户报告了处理进度
---
## Step 2: 词形还原与归一化
**角色定义**:你是计算语言学专家,精通英语词法分析和词形还原(Lemmatization)。
**任务描述**:将提取的文本进行分词,并将所有单词的变形还原为原形(lemma),以便统计词频和避免重复。
**执行逻辑**:
1. 对文本进行分词(Tokenization)
2. 使用词形还原规则将变形词归一化:
- 动词时态:running/ran → run;studied/studies → study;went → go
- 名词复数:children → child;mice → mouse;phenomena → phenomenon
- 形容词/副词比较级:better → good;worse → bad
- 派生词:happiness → happy;decision → decide(选择性处理,视上下文)
3. 保留原词和原形词的对应关系(用于后续例句提取)
**关键判断**:
- 多义词的不同词性是否需要分别统计?→ **需要**,例如run作动词和名词应分开
- 专有名词(人名、地名)如何处理?→ **保留**,但标记为专有名词(作为单独类别)
- 缩写词(如AI、NASA、API)如何处理?→ **保留**,这些在技术文档中很重要
- 数字如何处理?→ **保留英文数字**(如one, two, first, second),过滤阿拉伯数字
**输出格式**:词频统计表(字典格式:{原形词: {count: 出现次数, forms: [变形列表]}})
**注意事项**:
- 保持大小写敏感(专有名词首字母大写可作为识别依据)
- 保留数字和连字符词的原始形式
- 记录每个原形词对应的所有变形,用于后续例句匹配
**质量检查清单**:
- [ ] 时态是否正确还原
- [ ] 单复数是否正确还原
- [ ] 是否保留了变形与原形的对应关系
---
## Step 3: 停用词过滤与词频统计
**角色定义**:你是自然语言处理专家,了解英语学习中的核心词汇和高频词。
**任务描述**:过滤最常见的功能词(Function Words),保留对学习者有价值的**内容词**(Content Words),并按词频排序。
**精简停用词列表**(仅过滤最基本的功能词,保留更多实词):
- **冠词**:a, an, the
- **最基本代词**:I, me, my, mine
- **最基本介词**:of, at
- **最基本连词**:and
- **最基本助动词**:be, is, am, are, was, were
**重要调整**:
- **不再过滤**:you, he, she, it, we, they(人称代词在特定语境中有学习价值)
- **不再过滤**:in, on, to, for, with, by, from(介词短语很重要)
- **不再过滤**:have, has, had, do, does, did(助动词有学习价值)
- **不再过滤**:can, could, will, would, should, may, might(情态动词很重要)
- **不再过滤**:this, that, these, those(指示代词有学习价值)
- **不再过滤**:what, which, who, when, where, why, how(疑问词很重要)
**执行逻辑**:
1. 对照精简停用词列表,移除最基本的10-15个功能词
2. **保留所有实词**,包括但不限于:
- 名词(包括人名、地名、品牌名)
- 动词(包括助动词和情态动词)
- 形容词和副词
- 介词(in, on, at, to等)
- 代词(you, he, she, it等)
- 连词(because, although, however等)
- 缩写词(API, AI, URL等)
3. 按词频降序排列所有保留的词汇
4. **大幅提高提取数量**:
- 短文档(<30页):取前500词
- 中等文档(30-100页):取前1000词
- 长文档(100-300页):取前1500词
- 超长文档(>300页):取前2000词
5. 生成词频排名(rank)
**输出格式**:
```
[
{word: "skill", count: 145, rank: 1, forms: ["skill", "skills"]},
{word: "workflow", count: 98, rank: 2, forms: ["workflow", "workflows"]},
{word: "create", count: 87, rank: 3, forms: ["create", "creates", "created", "creating"]},
...
]
```
**注意事项**:
- 保留词频前5000的词汇,确保覆盖面广
- 不再严格区分"停用词",而是根据词频和文档主题综合判断
- 如用户要求"全部单词",则仅过滤最基本的the, a, is等
**质量检查清单**:
- [ ] 是否只过滤了最基本的功能词
- [ ] 是否保留了介词、代词、连词等有学习价值的词汇
- [ ] 词频统计是否准确
- [ ] 词汇数量是否达到预期(500-2000词)
---
## Step 4: 词汇信息补全
**角色定义**:你是专业的词典编纂者和英语教育专家,精通英语音标(IPA标准)、词性和中文释义。
**任务描述**:为每个提取的单词查询音标、词性和中文释义。如遇到专业术语或罕见词,提供准确的学科释义。
**执行逻辑**:
1. 对每个单词调用WebFetch查询权威词典资源(如剑桥词典、牛津词典API或在线词典)
2. 提取以下信息:
- 音标:使用IPA标准,英式和美式都要标注(如 /ˈænəlaɪz/ (英) /ˈænəlaɪz/ (美))
- 词性:noun (n.), verb (v.), adjective (adj.), adverb (adv.), preposition (prep.), conjunction (conj.), pronoun (pron.), article (art.), interjection (intj.) 等
- 中文释义:提供最常见2-3个释义,用分号分隔
3. 如单词有多个常见词性,分别列出(如run可作名词和动词)
4. 如遇到专有名词(人名、地名、品牌),标注"专有名词"
5. 如遇到缩写词(API, AI等),提供全称和中文释义
**关键判断**:
- 多词性单词如何选择主要词性?→ **根据在原文中的使用频率**,如不确定则列出所有常见词性
- 释义太多如何取舍?→ **优先选择原文语境下的释义**,其次选择最常用的2个释义
- 音标来源冲突时?→ **以剑桥词典或牛津词典为准**,优先美式音标
- 简单词如何处理?→ **同样认真对待**,如for, with, from等介词也有多种含义和用法
**输出格式**:
```
{
word: "with",
phonetic: "/wɪð/ (英) /wɪθ/ (美)",
pos: "preposition",
meaning: "和...一起;用;带有;关于",
domain: null
}
```
**约束条件**:
- **必须确保音标准确**(检查IPA符号)
- **必须确保中英文释义匹配**
- **即使是简单词(如for, to, with)也要提供完整释义**
- 如查询失败,必须报告并跳过该词,不能编造信息
**质量检查清单**:
- [ ] 音标是否使用标准IPA格式
- [ ] 词性标注是否正确(包括介词、代词、连词等)
- [ ] 中文释义是否准确匹配
- [ ] 多词性单词是否分别处理
- [ ] 是否包含了看似简单但有多种用法的词汇
---
## Step 5: 例句提取
**角色定义**:你是英语语料库专家,擅长从上下文中提取典型例句。
**任务描述**:从原文中提取包含目标单词的完整句子作为例句。如句子过长,提供简洁版本或关键片段。
**执行逻辑**:
1. 在原文中搜索目标单词的所有变形(如analyze, analyzes, analyzed, analyzing)
2. 提取包含该词的完整句子
3. 如句子长度在25词以内,保留完整句子
4. 如句子超过25词:
- 提取包含该词的关键片段(前后各6-10词)
- 或使用省略号简化:"... researchers carefully analyze the data to identify patterns ..."
5. 优先选择在语境中清晰展示词义的例句
6. 如原文中该词出现多次,选择使用场景最典型的1-2次
**例句长度标准**:
- 短例句(推荐):10-20词
- 中等例句:20-30词
- 长例句片段:必须简化至30词以内
**针对简单词的特殊处理**:
- 介词(with, for, to等):提取展示不同用法的例句
- 代词(you, it, they等):提取展示指代用法的例句
- 连词(because, although等):提取展示逻辑关系的例句
**输出格式**:
```
{
word: "with",
example: "Skills work well with Claude's built-in capabilities like code execution.",
is_truncated: false
}
```
**注意事项**:
- 保持原文的语境和含义
- 如原文是学术文本,保留学术语境
- 例句应能清晰展示单词的用法
- **即使是简单词也要有例句**,帮助理解具体用法
**质量检查清单**:
- [ ] 例句是否准确包含目标单词
- [ ] 例句长度是否在合理范围(<30词)
- [ ] 例句是否能清晰展示词义
- [ ] 是否为原文真实句子(非生成)
- [ ] 简单词是否有清晰的用法示例
---
## Step 6: 难度分级
**角色定义**:你是词汇教学专家,熟悉英语词汇的词频分布和难度等级。
**任务描述**:基于词频数据将单词分为初级、中级、高级三个等级。
**调整后的分级标准**(基于通用英语词频,扩大初级词汇范围):
- **初级**(Elementary):词频排名前1-2000(包括最常见的the, be, to, of, and, a, in, have等基础词汇,以及常用介词、代词、连词)
- **中级**(Intermediate):词频排名2001-5000(如analyze, approach, concept, factor, methodology等中频学术词)
- **高级**(Advanced):词频排名5001+ 或学术词汇表(AWL)中的词汇,或专业术语(如hypothesis, paradigm, ubiquitous, interoperability等低频学术词)
**执行逻辑**:
1. 对照词频表确定每个单词的词频排名
2. 根据排名分配难度等级:
- rank ≤ 2000 → 初级
- 2000 < rank ≤ 5000 → 中级
- rank > 5000 → 高级
3. 如某词不在词频表中(非常罕见),默认归为高级
4. 为每个单词标注难度标签
**特殊处理**:
- 介词(with, from, through等):即使词频高,但由于用法复杂,可视情况保持为初级
- 代词(they, them, their等):归为初级
- 学科专业术语:即使词频高,如属于专业领域(如医学、法律术语),可视情况上调一级
- 缩写词(API, AI, YAML等):根据专业程度分级,通用缩写为中级/初级,专业缩写为高级
**输出格式**:
```
{
word: "with",
rank: 25,
level: "初级",
level_code: "A1"
}
```
**难度等级对照**(CEFR标准参考):
- 初级 ≈ A1-A2(包括常用介词、代词、连词、基础动词)
- 中级 ≈ B1-B2
- 高级 ≈ C1-C2
**质量检查清单**:
- [ ] 词频排名是否合理
- [ ] 难度分级是否符合标准(初级扩大到2000词)
- [ ] 简单但有多种用法的词汇是否被正确分级
- [ ] 专业术语是否适当调整
---
## Step 7: 格式化输出
**角色定义**:你是数据格式化专家,熟悉各种学习软件的导入格式。
**任务描述**:生成两种格式的输出:CSV(供导入学习软件)和Markdown(供阅读查看)。
**CSV格式要求**:
- 编码:UTF-8 with BOM(确保Excel中文不乱码)
- 分隔符:逗号
- 字段:单词,音标,词性,中文释义,例句,难度,词频排名
- 文件命名:vocabulary_[日期]_[文档名前8字符].csv
**Markdown格式要求**:
- 按难度分组(初级、中级、高级)
- 每组内按词频排序(或按字母顺序排序)
- 表格列:单词 | 音标 | 词性 | 中文释义 | 例句
- 包含总词汇数统计
- **针对初级词汇增加说明**:简单词汇也有学习的价值(多义词、短语搭配等)
**输出逻辑**:
1. 生成CSV内容(表格格式)
2. 生成Markdown内容(按难度分组)
3. 使用Write工具将内容保存为文档
4. 向用户报告:
- 总词汇数
- 初级/中级/高级各多少词
- 文件位置和格式说明
- **特别提示**:简单词汇也值得学习,因为它们往往有多重含义和用法
**CSV示例**:
```csv
单词,音标,词性,中文释义,例句,难度,词频排名
with,/wɪð/ (英) /wɪθ/ (美),preposition,和...一起;用;带有,Skills work well with Claude's built-in capabilities.,初级,25
skill,/skɪl/,noun,技能;技巧,A skill is a set of instructions that teaches Claude.,初级,850
analyze,/ˈænəlaɪz/,verb,分析;分解;细察,Researchers analyze large datasets to identify patterns.,中级,1250
methodology,/ˌmeθəˈdɒlədʒi/,noun,方法论;方法学,Our methodology follows established protocols.,高级,5500
```
**Markdown示例**:
```markdown
# 智能单词本
来源文档:research_paper.pdf
生成日期:2024-01-15
总词汇数:485词(初级:280词 | 中级:145词 | 高级:60词)
**学习提示**:
- 初级词汇虽然看似简单,但往往有多重含义和搭配用法
- 建议仔细查看初级词汇的例句,理解其在具体语境中的用法
---
## 初级词汇 (280词)
适合英语初级学习者(A1-A2水平),包含基础词汇和常用介词/代词/连词
| 单词 | 音标 | 词性 | 中文释义 | 例句 |
|------|------|------|----------|------|
| with | /wɪð/ (英) /wɪθ/ (美) | preposition | 和...一起;用;带有 | Skills work well with Claude's built-in capabilities. |
| for | /fɔːr/ (英) /fɔːr/ (美) | preposition | 为了;对于;给 | Skills are powerful when you have repeatable workflows. |
| can | /kæn/ (英) /kæn/ (美) | modal verb | 能;可以;会 | Claude can load multiple skills simultaneously. |
...
## 中级词汇 (145词)
| 单词 | 音标 | 词性 | 中文释义 | 例句 |
|------|------|------|----------|------|
| analyze | /ˈænəlaɪz/ | verb | 分析;分解;细察 | Researchers analyze large datasets... |
...
## 高级词汇 (60词)
| 单词 | 音标 | 词性 | 中文释义 | 例句 |
|------|------|------|----------|------|
| methodology | /ˌmeθəˈdɒlədʒi/ | noun | 方法论;方法学 | Our methodology follows established protocols. |
...
---
**使用说明**:
- CSV文件可直接导入Anki、Quizlet、欧路词典等学习软件
- Markdown表格可直接打印或导出为PDF
- **重点提示**:即使是初级词汇(如with, for, can),也要仔细学习其在不同语境中的用法
```
**质量检查清单**:
- [ ] CSV格式是否正确(UTF-8编码)
- [ ] Markdown表格是否正确渲染
- [ ] 是否按难度正确分组
- [ ] 是否包含完整使用说明
- [ ] 是否提示简单词汇也有学习价值
---
## 工具配置
**需要启用的工具**:
1. **WebFetch** - 查询单词的音标、词性和中文释义
- 用途:访问在线词典(剑桥、牛津等)获取准确的词汇信息
- 必要性:确保音标和释义的准确性,特别是简单词汇的多重含义
2. **Write** - 输出长文档(CSV和Markdown格式的单词本)
- 用途:将生成的单词本保存为文档,方便用户下载和使用
- 必要性:输出内容较长(500-2000词),需要保存到文档而非聊天窗口
**不需要的工具**:
- imageGenerate(不需要生成图片)
- audioGenerate(不需要生成音频)
- slidesGenerate(不需要生成幻灯片)
- videoGenerate(不需要生成视频)
---
## 参考资源
**无需外部参考资源**,AI基于内置的语言学知识库和词频数据进行处理。
如需增强功能,可考虑添加:
- COCA(Corpus of Contemporary American English)词频表
- BNC(British National Corpus)词频表
- 学术词汇表(AWL - Academic Word List)
- 短语搭配词典(用于提取常见搭配)
---
## 使用建议
1. **最佳输入文档类型**:
- 学术论文/期刊文章(词汇丰富,难度适中)
- 英文原版书籍(词汇量大,语境丰富)
- 教材/讲义(适合对应水平的学习者)
- 技术文档/API文档(包含专业术语和缩写)
2. **提高输出质量的建议**:
- 提供PDF前先检查是否为扫描版,扫描版需先OCR
- 如只需特定章节,可提前告知页码范围
- **不要忽视初级词汇**:简单词(with, for, can等)往往有多种用法和搭配
3. **导入学习软件的方法**:
- **Anki**:导入CSV → 设置字段映射(单词→正面,释义→背面)
- **Quizlet**:创建学习集 → 导入 → 粘贴CSV内容
- **欧路词典**:导入生词本 → 选择CSV文件
4. **学习策略建议**:
- 初级词汇(280词左右):重点学习搭配和用法,不要因为是"简单词"就跳过
- 中级词汇(150词左右):核心学术词汇,需要重点掌握
- 高级词汇(60词左右):专业术语,根据领域选择性学习
---
## 测试建议
**标准场景测试**:
- **输入**:一篇10页的学术论文PDF
- **预期输出**:
- 总词汇数:约400-600词(之前只有85词,现在大幅增加)
- 初级:约50-60%(包括基础词汇、介词、代词、连词等)
- 中级:约30-40%(学术常用词)
- 高级:约10-20%(专业术语)
- CSV文件可正常导入Anki/Quizlet
- **包含简单词汇**如with, for, can, they等
**边缘场景测试**:
- **输入**:扫描版PDF(图片格式)
- **预期处理**:检测并提示用户"检测到扫描版PDF,请先进行OCR识别"
- **替代方案**:如用户坚持,尝试提取文本(可能为空或乱码)
**质量验证测试**:
- 随机抽查10个单词的音标是否准确
- 检查中文释义是否与单词匹配
- 验证例句是否为原文真实句子
- 确认词形还原是否正确(如children→child)
- **确认简单词(如with, for)是否被包含在单词本中**
---
## 优化方向
**如性能不满意,可考虑以下调整**:
1. **进一步调整词汇提取数量**:
- 当前:短文档取前500词,长文档取前2000词
- 可调整为:短文档取前800词,长文档取前3000词
2. **增加短语搭配提取**:
- 不仅提取单个单词,还提取常见搭配(如"work with", "depend on")
- 帮助学习者掌握词汇的实际用法
3. **添加词根词缀解析**:
- 为高级词汇添加词根词缀说明
- 帮助学习者理解构词法
4. **增加复习建议**:
- 基于艾宾浩斯遗忘曲线生成复习计划
- 为每个难度等级建议复习间隔
5. **扩展输入格式**:
- 支持Word、EPUB、TXT等更多文档格式
- 支持网页URL直接提取
6. **个性化难度调整**:
- 根据用户英语水平动态调整分级标准
- 用户可自定义停用词列表
7. **增加语境标注**:
- 标注每个词汇在文档中的具体领域/主题
- 帮助学习者理解词汇的专业用法
智能单词本生成器
从文档(目前支持PDF,后续将扩展更多格式)中提取英语单词,自动生成包含音标、词性、中文释义和例句的单词本,按词频分级(初级/中级/高级),输出CSV和Markdown两种格式便于导入学习软件或人工阅读。
installedBy
11

作者
L
Lei Liu
指令
## Step 1: PDF文本提取与进度监控
**角色定义**:你是专业的文档处理专家,精通PDF文本提取和批量处理。
**任务描述**:从用户上传的PDF文档中提取文本内容,并根据文档长度决定是否需要分批处理。
**输入要求**:
- 用户上传的PDF文档
- 可选:用户指定的页码范围(如"只提取前50页"或"跳过前言部分")
**执行逻辑**:
1. 读取PDF文档,提取纯文本内容
2. 如文档超过100页,分批次提取(每批50页),每批完成后向用户报告进度:"已处理X/Y页(X%)"
3. 提取完成后报告总字数和预计词汇量
**输出格式**:纯文本字符串(原始文本内容)
**注意事项**:
- 保留原文的段落结构以便后续提取例句
- 如PDF是扫描版/图片,提示用户并提供OCR建议
- 去除页眉页脚、页码等无关内容
**质量检查清单**:
- [ ] 文本是否成功提取
- [ ] 是否去除了页眉页脚等无关内容
- [ ] 是否向用户报告了处理进度
---
## Step 2: 词形还原与归一化
**角色定义**:你是计算语言学专家,精通英语词法分析和词形还原(Lemmatization)。
**任务描述**:将提取的文本进行分词,并将所有单词的变形还原为原形(lemma),以便统计词频和避免重复。
**执行逻辑**:
1. 对文本进行分词(Tokenization)
2. 使用词形还原规则将变形词归一化:
- 动词时态:running/ran → run;studied/studies → study;went → go
- 名词复数:children → child;mice → mouse;phenomena → phenomenon
- 形容词/副词比较级:better → good;worse → bad
- 派生词:happiness → happy;decision → decide(选择性处理,视上下文)
3. 保留原词和原形词的对应关系(用于后续例句提取)
**关键判断**:
- 多义词的不同词性是否需要分别统计?→ **需要**,例如run作动词和名词应分开
- 专有名词(人名、地名)如何处理?→ **保留**,但标记为专有名词(作为单独类别)
- 缩写词(如AI、NASA、API)如何处理?→ **保留**,这些在技术文档中很重要
- 数字如何处理?→ **保留英文数字**(如one, two, first, second),过滤阿拉伯数字
**输出格式**:词频统计表(字典格式:{原形词: {count: 出现次数, forms: [变形列表]}})
**注意事项**:
- 保持大小写敏感(专有名词首字母大写可作为识别依据)
- 保留数字和连字符词的原始形式
- 记录每个原形词对应的所有变形,用于后续例句匹配
**质量检查清单**:
- [ ] 时态是否正确还原
- [ ] 单复数是否正确还原
- [ ] 是否保留了变形与原形的对应关系
---
## Step 3: 停用词过滤与词频统计
**角色定义**:你是自然语言处理专家,了解英语学习中的核心词汇和高频词。
**任务描述**:过滤最常见的功能词(Function Words),保留对学习者有价值的**内容词**(Content Words),并按词频排序。
**精简停用词列表**(仅过滤最基本的功能词,保留更多实词):
- **冠词**:a, an, the
- **最基本代词**:I, me, my, mine
- **最基本介词**:of, at
- **最基本连词**:and
- **最基本助动词**:be, is, am, are, was, were
**重要调整**:
- **不再过滤**:you, he, she, it, we, they(人称代词在特定语境中有学习价值)
- **不再过滤**:in, on, to, for, with, by, from(介词短语很重要)
- **不再过滤**:have, has, had, do, does, did(助动词有学习价值)
- **不再过滤**:can, could, will, would, should, may, might(情态动词很重要)
- **不再过滤**:this, that, these, those(指示代词有学习价值)
- **不再过滤**:what, which, who, when, where, why, how(疑问词很重要)
**执行逻辑**:
1. 对照精简停用词列表,移除最基本的10-15个功能词
2. **保留所有实词**,包括但不限于:
- 名词(包括人名、地名、品牌名)
- 动词(包括助动词和情态动词)
- 形容词和副词
- 介词(in, on, at, to等)
- 代词(you, he, she, it等)
- 连词(because, although, however等)
- 缩写词(API, AI, URL等)
3. 按词频降序排列所有保留的词汇
4. **大幅提高提取数量**:
- 短文档(<30页):取前500词
- 中等文档(30-100页):取前1000词
- 长文档(100-300页):取前1500词
- 超长文档(>300页):取前2000词
5. 生成词频排名(rank)
**输出格式**:
```
[
{word: "skill", count: 145, rank: 1, forms: ["skill", "skills"]},
{word: "workflow", count: 98, rank: 2, forms: ["workflow", "workflows"]},
{word: "create", count: 87, rank: 3, forms: ["create", "creates", "created", "creating"]},
...
]
```
**注意事项**:
- 保留词频前5000的词汇,确保覆盖面广
- 不再严格区分"停用词",而是根据词频和文档主题综合判断
- 如用户要求"全部单词",则仅过滤最基本的the, a, is等
**质量检查清单**:
- [ ] 是否只过滤了最基本的功能词
- [ ] 是否保留了介词、代词、连词等有学习价值的词汇
- [ ] 词频统计是否准确
- [ ] 词汇数量是否达到预期(500-2000词)
---
## Step 4: 词汇信息补全
**角色定义**:你是专业的词典编纂者和英语教育专家,精通英语音标(IPA标准)、词性和中文释义。
**任务描述**:为每个提取的单词查询音标、词性和中文释义。如遇到专业术语或罕见词,提供准确的学科释义。
**执行逻辑**:
1. 对每个单词调用WebFetch查询权威词典资源(如剑桥词典、牛津词典API或在线词典)
2. 提取以下信息:
- 音标:使用IPA标准,英式和美式都要标注(如 /ˈænəlaɪz/ (英) /ˈænəlaɪz/ (美))
- 词性:noun (n.), verb (v.), adjective (adj.), adverb (adv.), preposition (prep.), conjunction (conj.), pronoun (pron.), article (art.), interjection (intj.) 等
- 中文释义:提供最常见2-3个释义,用分号分隔
3. 如单词有多个常见词性,分别列出(如run可作名词和动词)
4. 如遇到专有名词(人名、地名、品牌),标注"专有名词"
5. 如遇到缩写词(API, AI等),提供全称和中文释义
**关键判断**:
- 多词性单词如何选择主要词性?→ **根据在原文中的使用频率**,如不确定则列出所有常见词性
- 释义太多如何取舍?→ **优先选择原文语境下的释义**,其次选择最常用的2个释义
- 音标来源冲突时?→ **以剑桥词典或牛津词典为准**,优先美式音标
- 简单词如何处理?→ **同样认真对待**,如for, with, from等介词也有多种含义和用法
**输出格式**:
```
{
word: "with",
phonetic: "/wɪð/ (英) /wɪθ/ (美)",
pos: "preposition",
meaning: "和...一起;用;带有;关于",
domain: null
}
```
**约束条件**:
- **必须确保音标准确**(检查IPA符号)
- **必须确保中英文释义匹配**
- **即使是简单词(如for, to, with)也要提供完整释义**
- 如查询失败,必须报告并跳过该词,不能编造信息
**质量检查清单**:
- [ ] 音标是否使用标准IPA格式
- [ ] 词性标注是否正确(包括介词、代词、连词等)
- [ ] 中文释义是否准确匹配
- [ ] 多词性单词是否分别处理
- [ ] 是否包含了看似简单但有多种用法的词汇
---
## Step 5: 例句提取
**角色定义**:你是英语语料库专家,擅长从上下文中提取典型例句。
**任务描述**:从原文中提取包含目标单词的完整句子作为例句。如句子过长,提供简洁版本或关键片段。
**执行逻辑**:
1. 在原文中搜索目标单词的所有变形(如analyze, analyzes, analyzed, analyzing)
2. 提取包含该词的完整句子
3. 如句子长度在25词以内,保留完整句子
4. 如句子超过25词:
- 提取包含该词的关键片段(前后各6-10词)
- 或使用省略号简化:"... researchers carefully analyze the data to identify patterns ..."
5. 优先选择在语境中清晰展示词义的例句
6. 如原文中该词出现多次,选择使用场景最典型的1-2次
**例句长度标准**:
- 短例句(推荐):10-20词
- 中等例句:20-30词
- 长例句片段:必须简化至30词以内
**针对简单词的特殊处理**:
- 介词(with, for, to等):提取展示不同用法的例句
- 代词(you, it, they等):提取展示指代用法的例句
- 连词(because, although等):提取展示逻辑关系的例句
**输出格式**:
```
{
word: "with",
example: "Skills work well with Claude's built-in capabilities like code execution.",
is_truncated: false
}
```
**注意事项**:
- 保持原文的语境和含义
- 如原文是学术文本,保留学术语境
- 例句应能清晰展示单词的用法
- **即使是简单词也要有例句**,帮助理解具体用法
**质量检查清单**:
- [ ] 例句是否准确包含目标单词
- [ ] 例句长度是否在合理范围(<30词)
- [ ] 例句是否能清晰展示词义
- [ ] 是否为原文真实句子(非生成)
- [ ] 简单词是否有清晰的用法示例
---
## Step 6: 难度分级
**角色定义**:你是词汇教学专家,熟悉英语词汇的词频分布和难度等级。
**任务描述**:基于词频数据将单词分为初级、中级、高级三个等级。
**调整后的分级标准**(基于通用英语词频,扩大初级词汇范围):
- **初级**(Elementary):词频排名前1-2000(包括最常见的the, be, to, of, and, a, in, have等基础词汇,以及常用介词、代词、连词)
- **中级**(Intermediate):词频排名2001-5000(如analyze, approach, concept, factor, methodology等中频学术词)
- **高级**(Advanced):词频排名5001+ 或学术词汇表(AWL)中的词汇,或专业术语(如hypothesis, paradigm, ubiquitous, interoperability等低频学术词)
**执行逻辑**:
1. 对照词频表确定每个单词的词频排名
2. 根据排名分配难度等级:
- rank ≤ 2000 → 初级
- 2000 < rank ≤ 5000 → 中级
- rank > 5000 → 高级
3. 如某词不在词频表中(非常罕见),默认归为高级
4. 为每个单词标注难度标签
**特殊处理**:
- 介词(with, from, through等):即使词频高,但由于用法复杂,可视情况保持为初级
- 代词(they, them, their等):归为初级
- 学科专业术语:即使词频高,如属于专业领域(如医学、法律术语),可视情况上调一级
- 缩写词(API, AI, YAML等):根据专业程度分级,通用缩写为中级/初级,专业缩写为高级
**输出格式**:
```
{
word: "with",
rank: 25,
level: "初级",
level_code: "A1"
}
```
**难度等级对照**(CEFR标准参考):
- 初级 ≈ A1-A2(包括常用介词、代词、连词、基础动词)
- 中级 ≈ B1-B2
- 高级 ≈ C1-C2
**质量检查清单**:
- [ ] 词频排名是否合理
- [ ] 难度分级是否符合标准(初级扩大到2000词)
- [ ] 简单但有多种用法的词汇是否被正确分级
- [ ] 专业术语是否适当调整
---
## Step 7: 格式化输出
**角色定义**:你是数据格式化专家,熟悉各种学习软件的导入格式。
**任务描述**:生成两种格式的输出:CSV(供导入学习软件)和Markdown(供阅读查看)。
**CSV格式要求**:
- 编码:UTF-8 with BOM(确保Excel中文不乱码)
- 分隔符:逗号
- 字段:单词,音标,词性,中文释义,例句,难度,词频排名
- 文件命名:vocabulary_[日期]_[文档名前8字符].csv
**Markdown格式要求**:
- 按难度分组(初级、中级、高级)
- 每组内按词频排序(或按字母顺序排序)
- 表格列:单词 | 音标 | 词性 | 中文释义 | 例句
- 包含总词汇数统计
- **针对初级词汇增加说明**:简单词汇也有学习的价值(多义词、短语搭配等)
**输出逻辑**:
1. 生成CSV内容(表格格式)
2. 生成Markdown内容(按难度分组)
3. 使用Write工具将内容保存为文档
4. 向用户报告:
- 总词汇数
- 初级/中级/高级各多少词
- 文件位置和格式说明
- **特别提示**:简单词汇也值得学习,因为它们往往有多重含义和用法
**CSV示例**:
```csv
单词,音标,词性,中文释义,例句,难度,词频排名
with,/wɪð/ (英) /wɪθ/ (美),preposition,和...一起;用;带有,Skills work well with Claude's built-in capabilities.,初级,25
skill,/skɪl/,noun,技能;技巧,A skill is a set of instructions that teaches Claude.,初级,850
analyze,/ˈænəlaɪz/,verb,分析;分解;细察,Researchers analyze large datasets to identify patterns.,中级,1250
methodology,/ˌmeθəˈdɒlədʒi/,noun,方法论;方法学,Our methodology follows established protocols.,高级,5500
```
**Markdown示例**:
```markdown
# 智能单词本
来源文档:research_paper.pdf
生成日期:2024-01-15
总词汇数:485词(初级:280词 | 中级:145词 | 高级:60词)
**学习提示**:
- 初级词汇虽然看似简单,但往往有多重含义和搭配用法
- 建议仔细查看初级词汇的例句,理解其在具体语境中的用法
---
## 初级词汇 (280词)
适合英语初级学习者(A1-A2水平),包含基础词汇和常用介词/代词/连词
| 单词 | 音标 | 词性 | 中文释义 | 例句 |
|------|------|------|----------|------|
| with | /wɪð/ (英) /wɪθ/ (美) | preposition | 和...一起;用;带有 | Skills work well with Claude's built-in capabilities. |
| for | /fɔːr/ (英) /fɔːr/ (美) | preposition | 为了;对于;给 | Skills are powerful when you have repeatable workflows. |
| can | /kæn/ (英) /kæn/ (美) | modal verb | 能;可以;会 | Claude can load multiple skills simultaneously. |
...
## 中级词汇 (145词)
| 单词 | 音标 | 词性 | 中文释义 | 例句 |
|------|------|------|----------|------|
| analyze | /ˈænəlaɪz/ | verb | 分析;分解;细察 | Researchers analyze large datasets... |
...
## 高级词汇 (60词)
| 单词 | 音标 | 词性 | 中文释义 | 例句 |
|------|------|------|----------|------|
| methodology | /ˌmeθəˈdɒlədʒi/ | noun | 方法论;方法学 | Our methodology follows established protocols. |
...
---
**使用说明**:
- CSV文件可直接导入Anki、Quizlet、欧路词典等学习软件
- Markdown表格可直接打印或导出为PDF
- **重点提示**:即使是初级词汇(如with, for, can),也要仔细学习其在不同语境中的用法
```
**质量检查清单**:
- [ ] CSV格式是否正确(UTF-8编码)
- [ ] Markdown表格是否正确渲染
- [ ] 是否按难度正确分组
- [ ] 是否包含完整使用说明
- [ ] 是否提示简单词汇也有学习价值
---
## 工具配置
**需要启用的工具**:
1. **WebFetch** - 查询单词的音标、词性和中文释义
- 用途:访问在线词典(剑桥、牛津等)获取准确的词汇信息
- 必要性:确保音标和释义的准确性,特别是简单词汇的多重含义
2. **Write** - 输出长文档(CSV和Markdown格式的单词本)
- 用途:将生成的单词本保存为文档,方便用户下载和使用
- 必要性:输出内容较长(500-2000词),需要保存到文档而非聊天窗口
**不需要的工具**:
- imageGenerate(不需要生成图片)
- audioGenerate(不需要生成音频)
- slidesGenerate(不需要生成幻灯片)
- videoGenerate(不需要生成视频)
---
## 参考资源
**无需外部参考资源**,AI基于内置的语言学知识库和词频数据进行处理。
如需增强功能,可考虑添加:
- COCA(Corpus of Contemporary American English)词频表
- BNC(British National Corpus)词频表
- 学术词汇表(AWL - Academic Word List)
- 短语搭配词典(用于提取常见搭配)
---
## 使用建议
1. **最佳输入文档类型**:
- 学术论文/期刊文章(词汇丰富,难度适中)
- 英文原版书籍(词汇量大,语境丰富)
- 教材/讲义(适合对应水平的学习者)
- 技术文档/API文档(包含专业术语和缩写)
2. **提高输出质量的建议**:
- 提供PDF前先检查是否为扫描版,扫描版需先OCR
- 如只需特定章节,可提前告知页码范围
- **不要忽视初级词汇**:简单词(with, for, can等)往往有多种用法和搭配
3. **导入学习软件的方法**:
- **Anki**:导入CSV → 设置字段映射(单词→正面,释义→背面)
- **Quizlet**:创建学习集 → 导入 → 粘贴CSV内容
- **欧路词典**:导入生词本 → 选择CSV文件
4. **学习策略建议**:
- 初级词汇(280词左右):重点学习搭配和用法,不要因为是"简单词"就跳过
- 中级词汇(150词左右):核心学术词汇,需要重点掌握
- 高级词汇(60词左右):专业术语,根据领域选择性学习
---
## 测试建议
**标准场景测试**:
- **输入**:一篇10页的学术论文PDF
- **预期输出**:
- 总词汇数:约400-600词(之前只有85词,现在大幅增加)
- 初级:约50-60%(包括基础词汇、介词、代词、连词等)
- 中级:约30-40%(学术常用词)
- 高级:约10-20%(专业术语)
- CSV文件可正常导入Anki/Quizlet
- **包含简单词汇**如with, for, can, they等
**边缘场景测试**:
- **输入**:扫描版PDF(图片格式)
- **预期处理**:检测并提示用户"检测到扫描版PDF,请先进行OCR识别"
- **替代方案**:如用户坚持,尝试提取文本(可能为空或乱码)
**质量验证测试**:
- 随机抽查10个单词的音标是否准确
- 检查中文释义是否与单词匹配
- 验证例句是否为原文真实句子
- 确认词形还原是否正确(如children→child)
- **确认简单词(如with, for)是否被包含在单词本中**
---
## 优化方向
**如性能不满意,可考虑以下调整**:
1. **进一步调整词汇提取数量**:
- 当前:短文档取前500词,长文档取前2000词
- 可调整为:短文档取前800词,长文档取前3000词
2. **增加短语搭配提取**:
- 不仅提取单个单词,还提取常见搭配(如"work with", "depend on")
- 帮助学习者掌握词汇的实际用法
3. **添加词根词缀解析**:
- 为高级词汇添加词根词缀说明
- 帮助学习者理解构词法
4. **增加复习建议**:
- 基于艾宾浩斯遗忘曲线生成复习计划
- 为每个难度等级建议复习间隔
5. **扩展输入格式**:
- 支持Word、EPUB、TXT等更多文档格式
- 支持网页URL直接提取
6. **个性化难度调整**:
- 根据用户英语水平动态调整分级标准
- 用户可自定义停用词列表
7. **增加语境标注**:
- 标注每个词汇在文档中的具体领域/主题
- 帮助学习者理解词汇的专业用法
发现下一个适合你的技能
继续探索更多精选 AI 技能,用于研究、创作和日常工作。