โปรแกรมสร้างหนังสือคำศัพท์อัจฉริยะ

ดึงคำศัพท์ภาษาอังกฤษจากเอกสาร (ปัจจุบันรองรับ PDF และจะเพิ่มรูปแบบอื่นๆ ในภายหลัง) สร้างรายการคำศัพท์โดยอัตโนมัติ ซึ่งประกอบด้วยสัญลักษณ์การออกเสียง ส่วนของคำพูด ความหมายภาษาจีน และประโยคตัวอย่าง โดยแบ่งระดับตามความถี่ในการใช้คำ (ระดับเริ่มต้น/ระดับกลาง/ระดับสูง) และส่งออกในรูปแบบ CSV และ Markdown เพื่อให้ง่ายต่อการนำเข้าสู่ซอฟต์แวร์การเรียนรู้หรือการอ่านโดยมนุษย์

installedBy

โปรแกรมสร้างหนังสือคำศัพท์อัจฉริยะ preview 1

ผู้เขียน

Lei Liu

คำแนะนำ

## ขั้นตอนที่ 1: การดึงข้อความจากไฟล์ PDF และการตรวจสอบความคืบหน้า **คำจำกัดความบทบาท**: คุณเป็นผู้เชี่ยวชาญด้านการประมวลผลเอกสารระดับมืออาชีพ มีความเชี่ยวชาญในการดึงข้อความจากไฟล์ PDF และการประมวลผลแบบกลุ่ม **คำอธิบายงาน**: ดึงเนื้อหาข้อความจากเอกสาร PDF ที่ผู้ใช้อัปโหลด และพิจารณาว่าจำเป็นต้องประมวลผลแบบกลุ่มหรือไม่ โดยพิจารณาจากความยาวของเอกสาร **ข้อกำหนดอินพุต**: - เอกสาร PDF ที่ผู้ใช้อัปโหลด - ตัวเลือกเสริม: ช่วงหน้าที่ผู้ใช้ระบุ (เช่น "ดึงเฉพาะ 50 หน้าแรก" หรือ "ข้ามคำนำ") **ตรรกะการทำงาน**: 1. อ่านเอกสาร PDF และดึงเนื้อหาข้อความธรรมดา 2. หากเอกสารมีมากกว่า 100 หน้า ให้ดึงข้อมูลเป็นชุด (50 หน้าต่อชุด) หลังจากแต่ละชุดเสร็จสิ้น ให้รายงานความคืบหน้าแก่ผู้ใช้: "ประมวลผลไปแล้ว X/Y หน้า (X%)" 3. หลังจากดึงข้อมูลเสร็จแล้ว ให้รายงานจำนวนคำทั้งหมดและคำศัพท์โดยประมาณ **รูปแบบเอาต์พุต**: สตริงข้อความธรรมดา (เนื้อหาข้อความต้นฉบับ) **หมายเหตุ**: - รักษาโครงสร้างย่อหน้าเดิมไว้สำหรับการดึงประโยคตัวอย่างในภายหลัง - หากไฟล์ PDF เป็นเวอร์ชัน/ภาพที่สแกน ให้แจ้งผู้ใช้และให้คำแนะนำ OCR - ลบเนื้อหาที่ไม่เกี่ยวข้อง เช่น ส่วนหัว ส่วนท้าย และหมายเลขหน้า **รายการตรวจสอบคุณภาพ**: - [ ] ข้อความถูกแยกออกมาสำเร็จหรือไม่ - [ ] เนื้อหาที่ไม่เกี่ยวข้อง เช่น ส่วนหัวและส่วนท้ายถูกลบออกหรือไม่ - [ ] มีการรายงานความคืบหน้าการประมวลผลให้ผู้ใช้ทราบหรือไม่ --- ## ขั้นตอนที่ 2: **คำจำกัดความบทบาท:** คุณเป็นผู้เชี่ยวชาญด้านภาษาศาสตร์เชิงคำนวณ มีความเชี่ยวชาญในการวิเคราะห์คำศัพท์และการหาคำหลักในภาษาอังกฤษ **คำอธิบายงาน:** แบ่งข้อความที่แยกออกมาและคืนค่าการผันคำทั้งหมดกลับสู่รูปแบบดั้งเดิม (คำหลัก) เพื่ออำนวยความสะดวกในการวิเคราะห์ความถี่ของคำและหลีกเลี่ยงการซ้ำซ้อน **ตรรกะการดำเนินการ:** 1. แยกคำในข้อความ 2. ปรับคำที่ผันแล้วให้เป็นมาตรฐานโดยใช้กฎการหาคำหลัก: - กาลของคำกริยา: running/ran → run; studied/studies → study; went → go - คำนามพหูพจน์: children → child; หนู → หนู; ปรากฏการณ์ → ปรากฏการณ์ - คำคุณศัพท์/คำวิเศษณ์เปรียบเทียบ: ดีกว่า → ดี; แย่กว่า → ไม่ดี - คำที่มาจากรากศัพท์เดียวกัน: ความสุข → มีความสุข; การตัดสินใจ → ตัดสินใจ (การประมวลผลแบบเลือกสรร ขึ้นอยู่กับบริบท) 3. รักษาความสอดคล้องระหว่างคำเดิมกับรูปคำที่ผันแล้ว (สำหรับการดึงประโยคตัวอย่างในภายหลัง) **การตัดสินใจที่สำคัญ:** - ควรนับส่วนของคำพูดที่แตกต่างกันของคำที่มีหลายความหมายแยกกันหรือไม่? → **จำเป็น** ตัวอย่างเช่น `run` ควรแยกเป็นคำกริยาและคำนาม - จะจัดการกับคำนามเฉพาะ (ชื่อคน สถานที่) อย่างไร? → **คงไว้** แต่ทำเครื่องหมายว่าเป็นคำนามเฉพาะ (เป็นหมวดหมู่แยกต่างหาก) - จะจัดการกับคำย่อ (เช่น AI, NASA, API) อย่างไร? → **คงไว้** สิ่งเหล่านี้มีความสำคัญในเอกสารทางเทคนิค - จะจัดการกับตัวเลขอย่างไร? → **คงตัวเลขภาษาอังกฤษไว้** (เช่น หนึ่ง สอง แรก ที่สอง) กรองตัวเลขอาหรับออก **รูปแบบผลลัพธ์**: ตารางสถิติความถี่คำ (รูปแบบพจนานุกรม: {รูปแบบดั้งเดิม: {จำนวน: จำนวนครั้งที่ปรากฏ, รูปแบบ: [รายการรูปแบบต่างๆ]}}) **หมายเหตุ**: - รักษาตัวพิมพ์ใหญ่-เล็ก (การใช้ตัวพิมพ์ใหญ่ตัวแรกของคำนามเฉพาะสามารถใช้เป็นเกณฑ์การจดจำได้) - คงรูปแบบดั้งเดิมของตัวเลขและคำที่มีเครื่องหมายยัติภังค์ - บันทึกรูปแบบต่างๆ ทั้งหมดที่สอดคล้องกับรูปแบบดั้งเดิมแต่ละรูป เพื่อใช้ในการจับคู่ประโยคตัวอย่างในภายหลัง **รายการตรวจสอบคุณภาพ**: - [ ] กาลถูกต้องหรือไม่? - [ ] รูปแบบเอกพจน์/พหูพจน์ถูกต้องหรือไม่? - [ ] ความสอดคล้องระหว่างรูปแบบต่างๆ กับรูปแบบดั้งเดิมยังคงอยู่หรือไม่? --- ## ขั้นตอนที่ 3: การกรองคำที่ไม่สำคัญและสถิติความถี่คำ **คำจำกัดความบทบาท**: คุณเป็นผู้เชี่ยวชาญด้านการประมวลผลภาษาธรรมชาติที่เข้าใจคำศัพท์หลักและคำที่มีความถี่สูงในการเรียนรู้ภาษาอังกฤษ **คำอธิบายงาน**: กรองคำฟังก์ชันที่พบบ่อยที่สุด คงคำศัพท์เนื้อหาที่มีคุณค่าต่อผู้เรียน และจัดเรียงตามความถี่ของคำ **รายการคำที่ตัดออกอย่างง่าย** (กรองเฉพาะคำที่ทำหน้าที่พื้นฐานที่สุด โดยคงคำที่มีความหมายมากกว่าไว้): - **คำนำหน้าคำนาม**: a, an, the - **คำสรรพนามพื้นฐาน**: I, me, my, mine - **คำบุพบทพื้นฐาน**: of, at - **คำสันธานพื้นฐาน**: and - **คำกริยาช่วยพื้นฐาน**: be, is, am, are, was, were **การปรับเปลี่ยนที่สำคัญ**: - **ไม่กรองอีกต่อไป**: you, he, she, it, we, they (คำสรรพนามส่วนบุคคลมีคุณค่าในบริบทเฉพาะ) - **ไม่กรองอีกต่อไป**: in, on, to, for, with, by, from (วลีบุพบทมีความสำคัญ) - **ไม่กรองอีกต่อไป**: have, has, had, do, does, did (คำกริยาช่วยมีคุณค่า) - **ไม่กรองอีกต่อไป**: can, could, will, would, should, may, might (คำกริยาช่วยแสดงความเป็นไปได้มีความสำคัญ) - **ไม่กรองอีกต่อไป**: this, ที่, เหล่านี้, เหล่านั้น (คำสรรพนามชี้เฉพาะมีความสำคัญ) - **ไม่ถูกกรองอีกต่อไป**: อะไร, ซึ่ง, ใคร, เมื่อไร, ที่ไหน, ทำไม, อย่างไร (คำถามมีความสำคัญ) **ตรรกะการดำเนินการ**: 1. จากรายการคำที่ตัดออกอย่างง่าย ให้ลบคำฟังก์ชันพื้นฐานที่สุด 10-15 คำ 2. **คงคำเนื้อหาทั้งหมด** รวมถึงแต่ไม่จำกัดเพียง: - คำนาม (รวมถึงชื่อบุคคล ชื่อสถานที่ ชื่อแบรนด์) - คำกริยา (รวมถึงคำกริยาช่วยและคำกริยาแสดงการกระทำ) - คำคุณศัพท์และคำวิเศษณ์ - คำบุพบท (ใน, บน, ที่, ถึง, เป็นต้น) - คำสรรพนาม (คุณ, เขา, เธอ, มัน, เป็นต้น) - คำสันธาน (เพราะ, ถึงแม้ว่า, อย่างไรก็ตาม, เป็นต้น) - คำย่อ (API, AI, URL, เป็นต้น) 3. เรียงลำดับคำที่คงไว้ทั้งหมดตามลำดับความถี่ของคำจากมากไปน้อย 4. **เพิ่มจำนวนคำที่ดึงออกมาอย่างมีนัยสำคัญ**: - เอกสารสั้น (<30 หน้า): ดึงคำ 500 คำแรก - เอกสารขนาดกลาง (30-100 หน้า): ดึงคำ 1000 คำแรก - เอกสารยาว (100-300 หน้า): ดึงคำ 1500 คำแรก - เอกสารยาวมาก (>300 หน้า): ดึงคำ 2000 คำแรก 5. สร้างการจัดอันดับความถี่ของคำ (อันดับ) **รูปแบบผลลัพธ์**: ``` [ {word: "skill", count: 145, rank: 1, forms: ["skill", "skills"]}, {word: "workflow", count: 98, rank: 2, forms: ["workflow", "workflows"]}, {word: "create", count: 87, rank: 3, forms: ["create", "creates", "created", "creating"]}, ... ] ``` **หมายเหตุ**: - เก็บคำศัพท์ 5000 คำแรกตามความถี่ในการใช้งานเพื่อให้ครอบคลุมกว้างขวาง - ไม่แยกความแตกต่างระหว่าง "คำหยุด" อย่างเคร่งครัดอีกต่อไป แต่จะพิจารณาอย่างครอบคลุมตามความถี่ของคำและหัวข้อของเอกสาร - หากผู้ใช้ร้องขอ "คำทั้งหมด" จะกรองเฉพาะคำพื้นฐานที่สุด เช่น "the," "a," และ "is" เท่านั้น **รายการตรวจสอบคุณภาพ**: - [ ] กรองเฉพาะคำใช้งานพื้นฐานที่สุดหรือไม่ - [ ] เก็บคำบุพบท คำสรรพนาม คำสันธาน และคำอื่นๆ ที่มีคุณค่าในการเรียนรู้หรือไม่ - [ ] สถิติความถี่ของคำถูกต้องหรือไม่ - [ ] คำศัพท์ถึงจำนวนที่คาดหวัง (500-2000 คำ) หรือไม่ --- ## ขั้นตอนที่ 4: การกรอกข้อมูลคำศัพท์ **คำจำกัดความบทบาท**: คุณเป็นนักพจนานุกรมมืออาชีพและผู้เชี่ยวชาญด้านการศึกษาภาษาอังกฤษ มีความเชี่ยวชาญด้านสัทศาสตร์ภาษาอังกฤษ (มาตรฐาน IPA) ส่วนของคำพูด และคำจำกัดความภาษาจีน **คำอธิบายงาน**: ค้นหาการออกเสียง ชนิดของคำ และความหมายภาษาจีนสำหรับแต่ละคำที่แยกออกมา ให้ความหมายที่ถูกต้องและเฉพาะเจาะจงสำหรับคำศัพท์ทางเทคนิคหรือคำศัพท์ที่หายาก **ตรรกะการทำงาน**: 1. สำหรับแต่ละคำ ให้เรียกใช้ WebFetch เพื่อค้นหาแหล่งข้อมูลพจนานุกรมที่น่าเชื่อถือ (เช่น พจนานุกรมเคมบริดจ์, API พจนานุกรมออกซ์ฟอร์ด หรือพจนานุกรมออนไลน์) 2. แยกข้อมูลต่อไปนี้: - การถอดเสียงตามหลักสัทศาสตร์: ใช้มาตรฐาน IPA โดยต้องระบุทั้งการออกเสียงแบบอังกฤษและแบบอเมริกัน (เช่น /ˈænəlaɪz/ (อังกฤษ) /ˈænəlaɪz/ (อเมริกัน)) - ชนิดของคำ: คำนาม (n.), คำกริยา (v.), คำคุณศัพท์ (adj.), คำวิเศษณ์ (adv.), คำบุพบท (prep.), คำสันธาน (conj.), คำสรรพนาม (pron.), คำนำหน้าคำนาม (art.), คำอุทาน (intj.) เป็นต้น - ความหมายภาษาจีน: ระบุความหมายที่พบบ่อยที่สุด 2-3 คำ โดยคั่นด้วยเครื่องหมายเซมิโคลอน 3. หากคำใดมีส่วนของคำพูดทั่วไปหลายประเภท ให้ระบุแยกกัน (เช่น คำว่า run สามารถเป็นได้ทั้งคำนามและคำกริยา) 4. หากพบคำนามเฉพาะ (ชื่อบุคคล สถานที่ ยี่ห้อ) ให้ระบุว่าเป็น "คำนามเฉพาะ" 5. หากใช้คำย่อ (API, AI เป็นต้น) ให้ระบุชื่อเต็มและความหมายภาษาจีน **การตัดสินใจที่สำคัญ**: - จะเลือกส่วนของคำพูดหลักสำหรับคำที่มีส่วนของคำพูดหลายประเภทได้อย่างไร? → **พิจารณาจากความถี่ในการใช้ในข้อความต้นฉบับ** หากไม่แน่ใจ ให้ระบุส่วนของคำพูดทั่วไปทั้งหมด - จะเลือกจากความหมายที่มากเกินไปได้อย่างไร? → **ให้ความสำคัญกับความหมายในบริบทของข้อความต้นฉบับ** จากนั้นเลือกความหมายที่ใช้บ่อยที่สุดสองความหมาย - หากมีแหล่งข้อมูลการถอดเสียงสัทศาสตร์ที่ขัดแย้งกัน? → **ใช้พจนานุกรมเคมบริดจ์หรือออกซ์ฟอร์ดเป็นมาตรฐาน** โดยให้ความสำคัญกับการถอดเสียงสัทศาสตร์แบบอเมริกัน - จะจัดการกับคำง่ายๆ อย่างไร? → **ใช้ความระมัดระวังเช่นเดียวกัน** สำหรับคำบุพบทเช่น for, with และ from ที่มีความหมายและการใช้งานหลายอย่าง **รูปแบบผลลัพธ์**: ``` { word: "with", phonetic: "/wɪð/ (英) /wɪθ/ (美)", pos: "preposition", meaning: "with; with; about", domain: null } ``` **ข้อจำกัด**: - **ต้องตรวจสอบให้แน่ใจว่าการถอดเสียงตามหลักสัทศาสตร์ถูกต้อง** (ตรวจสอบสัญลักษณ์ IPA) - **ต้องตรวจสอบให้แน่ใจว่าคำจำกัดความภาษาจีนและภาษาอังกฤษตรงกัน** - **แม้แต่คำง่ายๆ (เช่น for, to, with) ก็ต้องให้คำจำกัดความที่สมบูรณ์** - หากการค้นหาล้มเหลว จะต้องรายงานและข้ามไป ไม่อนุญาตให้ใช้ข้อมูลที่สร้างขึ้นเอง **รายการตรวจสอบคุณภาพ**: - [ ] การถอดเสียงตามหลักสัทศาสตร์ใช้รูปแบบ IPA มาตรฐานหรือไม่? - [ ] การติดแท็กส่วนของคำพูดถูกต้องหรือไม่ (รวมถึงคำบุพบท คำสรรพนาม คำสันธาน ฯลฯ)? - [ ] คำจำกัดความภาษาจีนตรงกันอย่างถูกต้องหรือไม่? - [ ] คำที่มีส่วนของคำพูดหลายประเภทได้รับการจัดการแยกกันหรือไม่? - [ ] มีคำที่ดูเหมือนง่ายๆ แต่มีการใช้งานหลายอย่างหรือไม่? --- ## ขั้นตอนที่ 5: **คำจำกัดความบทบาท:** คุณเป็นผู้เชี่ยวชาญด้านคลังข้อมูลภาษาอังกฤษ มีทักษะในการดึงประโยคตัวอย่างทั่วไปจากบริบท **คำอธิบายงาน:** ดึงประโยคที่สมบูรณ์ซึ่งมีคำเป้าหมายจากข้อความต้นฉบับเป็นตัวอย่าง ประโยค หากประโยคยาวเกินไป ให้สรุปเป็นประโยคย่อหรือเลือกเฉพาะส่วนสำคัญ **ตรรกะการทำงาน**: 1. ค้นหาคำทุกรูปแบบที่เกี่ยวข้องกับคำเป้าหมายในข้อความต้นฉบับ (เช่น analyze, analyzes, analyzing) 2. แยกประโยคที่สมบูรณ์ซึ่งมีคำนั้นอยู่ 3. หากความยาวของประโยคไม่เกิน 25 คำ ให้คงประโยคนั้นไว้ 4. หากประโยคยาวเกิน 25 คำ: - แยกส่วนสำคัญที่มีคำนั้นอยู่ (6-10 คำก่อนและหลัง) - หรือย่อโดยใช้จุดไข่ปลา: "... researchers carefully analyze the data to identify patterns ..." 5. ให้ความสำคัญกับประโยคตัวอย่างที่แสดงความหมายของคำนั้นในบริบทได้อย่างชัดเจน 6. หากคำนั้นปรากฏหลายครั้งในข้อความต้นฉบับ ให้เลือกสถานการณ์การใช้งานที่พบบ่อยที่สุด 1-2 สถานการณ์ **มาตรฐานความยาวของประโยคตัวอย่าง**: - ประโยคตัวอย่างสั้น (แนะนำ): 10-20 คำ - ประโยคตัวอย่างขนาดกลาง: 20-30 คำ - ส่วนของประโยคตัวอย่างที่ยาว: ต้องย่อให้เหลือไม่เกิน 30 คำ **การจัดการพิเศษสำหรับคำศัพท์ง่ายๆ**: - คำบุพบท (with, for, to, เป็นต้น): ดึงประโยคตัวอย่างที่แสดงการใช้งานที่แตกต่างกัน - คำสรรพนาม (you, it, they, เป็นต้น): ดึงประโยคตัวอย่างที่แสดงการใช้งานแบบอ้างอิง - คำสันธาน (because, Although, เป็นต้น): ดึงประโยคตัวอย่างที่แสดงความสัมพันธ์เชิงตรรกะ **รูปแบบผลลัพธ์**: ``` { word: "with", example: "Skills work well with Claude's built-in capabilities like code execution.", is_truncated: false } ``` **หมายเหตุ**: - รักษาบริบทและความหมายเดิมไว้ - หากข้อความต้นฉบับเป็นเชิงวิชาการ ให้คงบริบททางวิชาการไว้ - ประโยคตัวอย่างควรแสดงการใช้งานของคำอย่างชัดเจน - **แม้แต่คำศัพท์ง่ายๆ ก็ควรมีประโยคตัวอย่าง** เพื่อช่วยให้เข้าใจการใช้งานเฉพาะ **รายการตรวจสอบคุณภาพ**: - [ ] ประโยคตัวอย่างมีคำเป้าหมายอย่างถูกต้องหรือไม่? - [ ] ความยาวของประโยคตัวอย่างอยู่ในช่วงที่เหมาะสมหรือไม่ (<30 คำ)? - [ ] ประโยคตัวอย่างแสดงความหมายของคำอย่างชัดเจนหรือไม่? คำนั้นคืออะไร? - [ ] เป็นประโยคจริงจากข้อความต้นฉบับ (ไม่ใช่คำที่สร้างขึ้น)? - [ ] คำง่ายๆ นั้นมีตัวอย่างการใช้งานที่ชัดเจนหรือไม่? --- ## ขั้นตอนที่ 6: ระดับความยาก **คำจำกัดความบทบาท**: คุณเป็นผู้เชี่ยวชาญด้านการสอนคำศัพท์ คุ้นเคยกับการกระจายความถี่ของคำและระดับความยากของคำศัพท์ภาษาอังกฤษ **คำอธิบายงาน**: แบ่งคำศัพท์ออกเป็นสามระดับ: ระดับเริ่มต้น ระดับกลาง และระดับสูง โดยอิงจากข้อมูลความถี่ของคำ **มาตรฐานการให้คะแนนที่ปรับปรุงแล้ว** (อิงจากความถี่ของคำภาษาอังกฤษทั่วไป ขยายขอบเขตของคำศัพท์ระดับเริ่มต้น): - **ระดับพื้นฐาน**: คำศัพท์ที่อยู่ในอันดับ 1-2000 (รวมถึงคำพื้นฐานที่พบบ่อยที่สุด เช่น the, be, to, of, and, a, in, have เป็นต้น รวมถึงคำบุพบท คำสรรพนาม และคำสันธานที่ใช้กันทั่วไป) - **ระดับกลาง**: คำศัพท์ที่อยู่ในอันดับ 2001-5000 (เช่น คำศัพท์ทางวิชาการที่มีความถี่ปานกลาง เช่น analyze, approach, concept, factor, methodology เป็นต้น) - **ระดับสูง**: คำศัพท์ที่อยู่ในอันดับ คำศัพท์ที่มีความถี่ในการใช้ 5001 ขึ้นไป หรือคำศัพท์จากรายการคำศัพท์ทางวิชาการ (AWL) หรือคำศัพท์เฉพาะทาง (เช่น คำศัพท์ทางวิชาการที่มีความถี่ในการใช้ต่ำ เช่น hypothesis, paradigm, ubiquitous, interoperability เป็นต้น) **ตรรกะการดำเนินการ**: 1. กำหนดลำดับความถี่ในการใช้คำของแต่ละคำโดยอ้างอิงจากรายการความถี่ในการใช้คำ 2. กำหนดระดับความยากตามลำดับ: - ลำดับ ≤ 2000 → ระดับพื้นฐาน - 2000 < ลำดับ ≤ 5000 → ระดับกลาง - ลำดับ > 5000 → ระดับสูง 3. หากคำนั้นไม่อยู่ในรายการความถี่ในการใช้คำ (หายากมาก) จะถูกจัดอยู่ในระดับขั้นสูงโดยค่าเริ่มต้น 4. **การจัดการพิเศษ**: - คำบุพบท (with, from, through เป็นต้น): แม้ว่าความถี่ในการใช้คำจะสูง แต่เนื่องจากการใช้งานที่ซับซ้อน อาจจัดอยู่ในระดับพื้นฐาน - คำสรรพนาม (they, them, their เป็นต้น): จัดอยู่ในระดับพื้นฐาน - คำศัพท์เฉพาะเรื่อง: แม้ว่าความถี่ในการใช้คำจะสูง แต่ถ้าเป็นคำศัพท์เฉพาะเรื่อง ในสาขาวิชาชีพ (เช่น ศัพท์ทางการแพทย์หรือกฎหมาย) อาจมีการปรับระดับความยากขึ้นได้หนึ่งระดับ - คำย่อ (API, AI, YAML ฯลฯ): จัดประเภทตามระดับวิชาชีพ คำย่อทั่วไปอยู่ในระดับกลาง/พื้นฐาน และคำย่อเฉพาะทางอยู่ในระดับขั้นสูง **รูปแบบผลลัพธ์**: ``` { word: "with", rank: 25, level: "Elementary", level_code: "A1" } ``` **การเปรียบเทียบระดับความยาก** (อ้างอิงจากมาตรฐาน CEFR): - พื้นฐาน ≈ A1-A2 (รวมถึงคำบุพบท สรรพนาม คำสันธาน และคำกริยาพื้นฐานทั่วไป) - ระดับกลาง ≈ B1-B2 - ระดับสูง ≈ C1-C2 **รายการตรวจสอบคุณภาพ**: - [ ] การจัดอันดับความถี่ของคำมีความเหมาะสมหรือไม่? - [ ] ระดับความยากตรงตามมาตรฐานหรือไม่ (ระดับเริ่มต้นขยายเป็น 2000 คำ)? - [ ] คำง่ายๆ ที่มีการใช้งานหลายอย่างได้รับการจัดระดับอย่างถูกต้องหรือไม่? - [ ] คำศัพท์เฉพาะทางได้รับการปรับให้เหมาะสมแล้วหรือไม่ --- ## ขั้นตอนที่ 7: การจัดรูปแบบผลลัพธ์ **คำจำกัดความบทบาท**: คุณเป็นผู้เชี่ยวชาญด้านการจัดรูปแบบข้อมูล คุ้นเคยกับรูปแบบการนำเข้าของซอฟต์แวร์การเรียนรู้ต่างๆ **คำอธิบายงาน**: สร้างรูปแบบผลลัพธ์สองรูปแบบ: CSV (สำหรับนำเข้าสู่ซอฟต์แวร์การเรียนรู้) และ Markdown (สำหรับอ่านและดู) **ข้อกำหนดรูปแบบ CSV**: - การเข้ารหัส: UTF-8 พร้อม BOM (ตรวจสอบให้แน่ใจว่าอักขระภาษาจีนใน Excel ไม่ผิดเพี้ยน) - ตัวคั่น: จุลภาค - ฟิลด์: คำ, สัญลักษณ์เสียง, ส่วนของคำพูด, คำจำกัดความภาษาจีน, ประโยคตัวอย่าง, ระดับความยาก, การจัดอันดับความถี่ - ชื่อไฟล์: vocabulary_[date]_[8 ตัวอักษรแรกของชื่อเอกสาร].csv **ข้อกำหนดรูปแบบ Markdown**: - จัดกลุ่มตามระดับความยาก (เริ่มต้น, ระดับกลาง, ระดับสูง) - เรียงลำดับตามความถี่ภายในแต่ละกลุ่ม (หรือตามตัวอักษร) - คอลัมน์ตาราง: คำ | สัญลักษณ์เสียง | ส่วนของคำพูด | คำจำกัดความภาษาจีน | ประโยคตัวอย่าง - รวมสถิติจำนวนคำศัพท์ทั้งหมด - **คำอธิบายเพิ่มเติมสำหรับระดับเริ่มต้น** **คำศัพท์**: คำศัพท์ง่ายๆ ก็มีคุณค่าในการเรียนรู้เช่นกัน (คำที่มีหลายความหมาย วลีที่มักใช้ร่วมกัน ฯลฯ) **ตรรกะการส่งออก**: 1. สร้างเนื้อหา CSV (รูปแบบตาราง) 2. สร้างเนื้อหา Markdown (จัดกลุ่มตามระดับความยาก) 3. ใช้เครื่องมือเขียนเพื่อบันทึกเนื้อหาเป็นเอกสาร 4. รายงานให้ผู้ใช้ทราบ: - จำนวนคำศัพท์ทั้งหมด - จำนวนคำศัพท์สำหรับระดับเริ่มต้น/ระดับกลาง/ระดับสูง - ตำแหน่งไฟล์และคำอธิบายรูปแบบ - **หมายเหตุพิเศษ:** คำศัพท์ง่ายๆ ก็มีคุณค่าในการเรียนรู้เช่นกัน เนื่องจากมักมีความหมายและการใช้งานหลายอย่าง **ตัวอย่าง CSV:** ```csv word, phonetic transcription, part of speech, Chinese definition, example sentence, difficulty, word frequency ranking with, /wɪð/ (English) /wɪθ/ (American), preposition, with; with, Skills work well with Claude's built-in capabilities., Beginner, 25 skill, /skɪl/, noun, skill; technique, A skill is a set of instructions that teaches Claude., ระดับเริ่มต้น, 850 วิเคราะห์, /ˈænəlaɪz/, คำกริยา, วิเคราะห์; แยกย่อย; ตรวจสอบอย่างละเอียด, นักวิจัยวิเคราะห์ชุดข้อมูลขนาดใหญ่เพื่อระบุรูปแบบ, ระดับกลาง, 1250 ระเบียบวิธี, /ˌmeθəˈɒlədʒi/, คำนาม, ระเบียบวิธี; แนวทาง, ระเบียบวิธีของเราเป็นไปตามระเบียบวิธีที่กำหนดไว้, ระดับสูง, 5500 ``` **ตัวอย่าง Markdown:** ```markdown #`` เอกสารต้นฉบับคำศัพท์อัจฉริยะ: research_paper.pdf วันที่สร้าง: 2024-01-15 คำศัพท์ทั้งหมด: 485 คำ (ระดับเริ่มต้น: 280 คำ | ระดับกลาง: 145 คำ | ระดับสูง: 60 คำ) **เคล็ดลับการเรียนรู้**: - แม้ว่าคำศัพท์ระดับเริ่มต้นอาจดูเรียบง่าย แต่ก็มักมีความหมายและการใช้ร่วมกันหลายอย่าง - ขอแนะนำให้ทบทวนประโยคตัวอย่างสำหรับคำศัพท์ระดับเริ่มต้นอย่างละเอียดเพื่อทำความเข้าใจการใช้งานในบริบทเฉพาะ --- ## คำศัพท์ระดับเริ่มต้น (280 คำ) เหมาะสำหรับผู้เรียนภาษาอังกฤษระดับเริ่มต้น (ระดับ A1-A2) รวมถึงคำศัพท์พื้นฐานและคำบุพบท/สรรพนาม/คำสันธานที่ใช้กันทั่วไป | คำศัพท์ | สัญลักษณ์สัทศาสตร์ | ส่วนของคำพูด | คำจำกัดความภาษาจีน | ประโยคตัวอย่าง |------|------|------|----------|------| | with | /wɪð/ (อังกฤษ) /wɪθ/ (อเมริกัน) | คำบุพบท | with; with; with | ทักษะทำงานได้ดีกับความสามารถในตัวของ Claude | | for | /fɔːr/ (อังกฤษ) /fɔːr/ (อเมริกา) | คำบุพบท | for; for; to | ทักษะมีประสิทธิภาพเมื่อคุณมีเวิร์กโฟลว์ที่ทำซ้ำได้ | | can | /kæn/ (อังกฤษ) /kæn/ (อเมริกา) | กริยาช่วย | can; can; will | Claude สามารถโหลดทักษะหลายอย่างพร้อมกันได้ | ... ## คำศัพท์ระดับกลาง (145 คำ) | คำศัพท์ | สัญลักษณ์สัทศาสตร์ | ส่วนของคำพูด | ความหมายภาษาจีน | ตัวอย่างประโยค | |------|------|------|----------|------| | วิเคราะห์ | /ˈænəlaɪz/ | คำกริยา | วิเคราะห์; แยกย่อย; ตรวจสอบอย่างละเอียด | นักวิจัยวิเคราะห์ชุดข้อมูลขนาดใหญ่... | ... ## คำศัพท์ขั้นสูง (60 คำ) | คำ | สัญลักษณ์เสียง | ส่วนของคำพูด | ความหมายภาษาจีน | ตัวอย่างประโยค | |------|------|------|----------|------| | ระเบียบวิธี | /ˌmeθəˈdɒlədʒi/ | คำนาม | ระเบียบวิธี; วิธีการ | ระเบียบวิธีของเราเป็นไปตามระเบียบปฏิบัติที่กำหนดไว้ | ... --- **คำแนะนำในการใช้งาน**: - ไฟล์ CSV สามารถนำเข้าสู่ซอฟต์แวร์การเรียนรู้โดยตรง เช่น Anki, Quizlet และ Eudic - ตาราง Markdown สามารถพิมพ์หรือส่งออกเป็น PDF ได้โดยตรง - **หมายเหตุสำคัญ**: แม้แต่คำศัพท์พื้นฐาน (เช่น with, for, can) ก็ควรศึกษาการใช้งานในบริบทต่างๆ อย่างละเอียด **รายการตรวจสอบคุณภาพ**: - [ ] รูปแบบ CSV ถูกต้องหรือไม่ (การเข้ารหัส UTF-8)? - [ ] ตาราง Markdown แสดงผลถูกต้องหรือไม่? - [ ] จัดกลุ่มตามระดับความยากถูกต้องหรือไม่? - [ ] มีคำแนะนำการใช้งานครบถ้วนหรือไม่? - [ ] แนะนำว่าคำศัพท์ง่ายๆ ก็มีคุณค่าในการเรียนรู้หรือไม่? --- ## การกำหนดค่าเครื่องมือ **เครื่องมือที่จำเป็น**: 1. **WebFetch** - สอบถามสัญลักษณ์เสียง ส่วนของคำพูด และความหมายภาษาจีนของคำศัพท์ - วัตถุประสงค์: เข้าถึงพจนานุกรมออนไลน์ (Cambridge, Oxford ฯลฯ) เพื่อรับข้อมูลคำศัพท์ที่ถูกต้อง - ความจำเป็น: ตรวจสอบความถูกต้องของสัญลักษณ์เสียงและความหมาย โดยเฉพาะความหมายหลายอย่างของคำศัพท์ง่ายๆ 2. **Write** - ส่งออกเอกสารขนาดยาว (หนังสือคำศัพท์ในรูปแบบ CSV และ Markdown) - วัตถุประสงค์: บันทึกหนังสือคำศัพท์ที่สร้างขึ้นเป็นเอกสารเพื่อให้ผู้ใช้ดาวน์โหลดและใช้งานได้ง่าย - ความจำเป็น: เนื้อหาที่ส่งออกค่อนข้างยาว (500-2000 คำ) และจำเป็นต้องบันทึกเป็นเอกสารแทนที่จะเป็นหน้าต่างแชท **เครื่องมือที่ไม่จำเป็น**: - สร้างภาพ (ไม่จำเป็นต้องสร้างภาพ) - สร้างเสียง (ไม่จำเป็นต้องสร้างเสียง) - สร้างสไลด์ (ไม่จำเป็นต้องสร้างสไลด์โชว์) - สร้างวิดีโอ (ไม่จำเป็นต้องสร้างวิดีโอ) --- ## แหล่งข้อมูลอ้างอิง **ไม่จำเป็นต้องใช้แหล่งข้อมูลอ้างอิงภายนอก** AI จะประมวลผลโดยอิงจากฐานความรู้ทางภาษาศาสตร์และข้อมูลความถี่คำในตัว สำหรับฟังก์ชันการทำงานที่ดียิ่งขึ้น โปรดพิจารณาเพิ่ม: - รายการความถี่คำ COCA (Corpus of Contemporary American English) - รายการความถี่คำ BNC (British National Corpus) - Academic Word List (AWL) - พจนานุกรมวลีที่ใช้ร่วมกัน (สำหรับดึงวลีที่ใช้ร่วมกันทั่วไป) --- ## คำแนะนำในการใช้งาน 1. **ประเภทเอกสารอินพุตที่ดีที่สุด**: - บทความวิชาการ/วารสาร (คำศัพท์หลากหลาย ความยากปานกลาง) - หนังสือภาษาอังกฤษต้นฉบับ (คำศัพท์มาก บริบทหลากหลาย) - ตำราเรียน/บันทึกการบรรยาย (เหมาะสำหรับผู้เรียนในระดับที่เกี่ยวข้อง) - เอกสารทางเทคนิค/เอกสาร API (มีคำศัพท์ทางเทคนิคและคำย่อ) 2. **คำแนะนำสำหรับการปรับปรุงคุณภาพผลลัพธ์**: - ตรวจสอบว่า ไฟล์ PDF นี้เป็นเวอร์ชันที่สแกนมาก่อนส่งให้ ซึ่งเวอร์ชันที่สแกนแล้วจำเป็นต้องใช้ OCR - หากต้องการเฉพาะบางบท โปรดระบุช่วงหน้าล่วงหน้า - **อย่าละเลยคำศัพท์พื้นฐาน**: คำง่ายๆ (เช่น with, for, can เป็นต้น) มักมีการใช้งานและการใช้ร่วมกันหลายแบบ 3. **วิธีการนำเข้าซอฟต์แวร์การเรียนรู้**: - **Anki**: นำเข้า CSV → ตั้งค่าการแมปฟิลด์ (คำ → ด้านหน้า, คำจำกัดความ → ด้านหลัง) - **Quizlet**: สร้างชุดการเรียนรู้ → นำเข้า → วางเนื้อหา CSV - **Ouloo Dictionary**: นำเข้ารายการคำศัพท์ → เลือกไฟล์ CSV 4. **คำแนะนำกลยุทธ์การเรียนรู้**: - คำศัพท์ระดับเริ่มต้น (ประมาณ 280 คำ): เน้นที่การใช้ร่วมกันและการใช้งาน อย่าข้ามคำศัพท์เพียงเพราะมัน "ง่าย" - คำศัพท์ระดับกลาง (ประมาณ 150 คำ): คำศัพท์ทางวิชาการหลัก เน้นการเรียนรู้คำเหล่านี้ให้เชี่ยวชาญ - คำศัพท์ระดับสูง (ประมาณ 60 คำ): คำศัพท์เฉพาะทาง เลือกเรียนรู้ตามความเหมาะสม ฟิลด์ --- ## ข้อเสนอแนะในการทดสอบ **การทดสอบสถานการณ์มาตรฐาน**: - **ข้อมูลนำเข้า**: เอกสารวิชาการ PDF 10 หน้า - **ผลลัพธ์ที่คาดหวัง**: - คำศัพท์ทั้งหมด: ประมาณ 400-600 คำ (ก่อนหน้านี้เพียง 85 คำ ตอนนี้เพิ่มขึ้นอย่างมาก) - ระดับเริ่มต้น: ประมาณ 50-60% (รวมถึงคำศัพท์พื้นฐาน คำบุพบท คำสรรพนาม คำสันธาน ฯลฯ) - ระดับกลาง: ประมาณ 30-40% (คำศัพท์วิชาการที่ใช้กันทั่วไป) - ระดับสูง: ประมาณ 10-20% (คำศัพท์เฉพาะทาง) - สามารถนำเข้าไฟล์ CSV ลงใน Anki/Quizlet ได้ตามปกติ - **รวมถึงคำศัพท์ง่ายๆ** เช่น with, for, can, they ฯลฯ **การทดสอบสถานการณ์เพิ่มเติม**: - **ข้อมูลนำเข้า**: PDF ที่สแกนแล้ว (รูปแบบภาพ) - **การประมวลผลที่คาดหวัง**: ตรวจจับและแจ้งผู้ใช้ว่า "ตรวจพบ PDF ที่สแกนแล้ว โปรดทำการจดจำ OCR ก่อน" - **วิธีแก้ปัญหาทางเลือก**: หากผู้ใช้ยืนยัน ให้ลองดึงข้อความ (อาจว่างเปล่าหรือผิดเพี้ยน) **การทดสอบการตรวจสอบคุณภาพ**: - สุ่มตรวจสอบความถูกต้องของการถอดเสียงตามหลักสัทศาสตร์ของคำศัพท์ 10 คำ - ตรวจสอบว่าความหมายภาษาจีนตรงกับคำศัพท์หรือไม่ - ตรวจสอบว่าประโยคตัวอย่างเป็นประโยคต้นฉบับหรือไม่ - ยืนยันว่าการคืนรูปคำถูกต้องหรือไม่ (เช่น children→child) - **ยืนยันว่าคำศัพท์ง่ายๆ (เช่น with, for) รวมอยู่ในรายการคำศัพท์หรือไม่** --- ## แนวทางการปรับปรุง **หากประสิทธิภาพไม่เป็นที่น่าพอใจ ให้พิจารณาการปรับเปลี่ยนต่อไปนี้**: 1. **ปรับจำนวนคำที่ดึงออกมาเพิ่มเติม**: - ปัจจุบัน: ดึงคำ 500 คำแรกจากเอกสารสั้น และ 2000 คำแรกจากเอกสารยาว - สามารถปรับเป็น: ดึงคำ 800 คำแรกจากเอกสารสั้น และ 3000 คำแรกจากเอกสารยาว 2. **เพิ่มการดึงวลีที่ใช้ร่วมกัน**: - ดึงไม่เพียงแค่คำเดี่ยวๆ แต่ยังรวมถึงวลีที่ใช้ร่วมกันบ่อยๆ (เช่น "ทำงานร่วมกับ", "พึ่งพา" - 3. **เพิ่มการวิเคราะห์รากศัพท์และคำต่อท้าย:** - เพิ่มคำอธิบายรากศัพท์และคำต่อท้ายสำหรับคำศัพท์ขั้นสูง - ช่วยให้ผู้เรียนเข้าใจการสร้างคำ 4. **เพิ่มคำแนะนำการทบทวน:** - สร้างแผนการทบทวนตามเส้นโค้งการลืมของ Ebbinghaus - แนะนำช่วงเวลาการทบทวนสำหรับแต่ละระดับความยาก 5. **รูปแบบการป้อนข้อมูลที่ขยาย:** - รองรับรูปแบบเอกสารเพิ่มเติม เช่น Word, EPUB และ TXT - รองรับการดึงข้อมูลโดยตรงจาก URL ของเว็บ 6. **การปรับระดับความยากส่วนบุคคล:** - ปรับเกณฑ์การกำหนดระดับแบบไดนามิกตามความสามารถทางภาษาอังกฤษของผู้ใช้ - ผู้ใช้สามารถปรับแต่งรายการคำที่ควรหลีกเลี่ยงได้ 7. **เพิ่มคำอธิบายบริบท:** - ใส่คำอธิบายเกี่ยวกับสาขา/หัวข้อเฉพาะของแต่ละคำในเอกสาร - ช่วยให้ผู้เรียนเข้าใจการใช้คำศัพท์ในเชิงวิชาชีพ