## Paso 1: Extracción de texto PDF y supervisión del progreso **Definición del rol**: Usted es un experto profesional en procesamiento de documentos, competente en la extracción de texto PDF y el procesamiento por lotes. **Descripción de la tarea**: Extraiga el contenido de texto de los documentos PDF cargados por el usuario y determine si el procesamiento por lotes es necesario según la longitud del documento. **Requisitos de entrada**: - Documento PDF cargado por el usuario - Opcional: Rango de páginas especificado por el usuario (p. ej., "Extraer solo las primeras 50 páginas" u "Omitir el prefacio") **Lógica de ejecución**: 1. Lea el documento PDF y extraiga el contenido de texto sin formato. 2. Si el documento supera las 100 páginas, extraiga en lotes (50 páginas por lote). Después de completar cada lote, informe el progreso al usuario: "X/Y páginas procesadas (X%)". 3. Después de la extracción, informe el número total de palabras y el vocabulario estimado. **Formato de salida**: Cadena de texto sin formato (contenido del texto original) **Notas**: - Conserve la estructura original del párrafo para la posterior extracción de oraciones de ejemplo. - Si el PDF es una versión/imagen escaneada, avise al usuario y proporciónele sugerencias de OCR. - Elimine contenido irrelevante como encabezados, pies de página y números de página. **Lista de verificación de calidad**: - [ ] Si el texto se extrajo correctamente - [ ] Si se eliminó contenido irrelevante como encabezados y pies de página - [ ] Si se informó al usuario sobre el progreso del procesamiento--- ## Paso 2: **Definición del rol:** Usted es un experto en lingüística computacional, competente en análisis léxico y lematización del inglés. **Descripción de la tarea:** Segmente el texto extraído y restaure todas las flexiones de las palabras a sus formas originales (lema) para facilitar el análisis de frecuencia de palabras y evitar repeticiones. **Lógica de ejecución:** 1. Tokenice el texto. 2. Normalice las palabras con flexiones utilizando reglas de lematización: - Tiempos verbales: running/ran → run; learned/studies → study; went → go - Plurales de sustantivos: children → child; mice → mouse; fenómeno → fenómeno - Adjetivos/adverbios comparativos: mejor → bueno; peor → malo - Palabras derivadas: felicidad → feliz; decisión → decidir (procesamiento selectivo, dependiendo del contexto) 3. Preservar la correspondencia entre la palabra original y su forma flexionada (para la posterior extracción de oraciones de ejemplo). **Juicio clave:** - ¿Deberían contarse por separado las diferentes partes del discurso de las palabras polisémicas? → **Necesidades**, por ejemplo, `run` debería separarse como verbo y sustantivo. - ¿Cómo manejar los nombres propios (nombres de personas, lugares)? → **Conservar**, pero marcarlos como nombres propios (como una categoría separada). - ¿Cómo manejar las abreviaturas (como AI, NASA, API)? → **Conservar**, estas son importantes en la documentación técnica. - ¿Cómo manejar los números? → **Conservar los numerales en inglés** (p. ej., uno, dos, primero, segundo), filtrar los numerales arábigos. **Formato de salida**: Tabla de estadísticas de frecuencia de palabras (formato del diccionario: {forma original: {count: número de ocurrencias, formas: [lista de variantes]}}) **Notas**: - Mantenga la distinción entre mayúsculas y minúsculas (se puede usar mayúscula en la primera letra de los nombres propios como criterio de reconocimiento) - Conserve las formas originales de los números y las palabras con guion - Registre todas las variaciones correspondientes a cada forma original para la posterior coincidencia de oraciones de ejemplo. **Lista de verificación de calidad**: - [ ] ¿Se restauró correctamente el tiempo verbal? - [ ] ¿Se restauró correctamente la forma singular/plural? - [ ] ¿Se conserva la correspondencia entre las variaciones y la forma original? --- ## Paso 3: Filtrado de palabras de detención y estadísticas de frecuencia de palabras **Definición del rol**: Usted es un experto en procesamiento del lenguaje natural que comprende el vocabulario central y las palabras de alta frecuencia en el aprendizaje del inglés. **Descripción de la tarea**: Filtre las palabras funcionales más comunes, conserve las palabras de contenido que son valiosas para los estudiantes y ordénelas por frecuencia de palabras. **Lista simplificada de palabras vacías** (filtra solo las palabras de función más básicas, conservando más palabras de contenido): - **Artículos**: a, an, the - **Pronombres básicos**: I, me, my, mine - **Preposiciones básicas**: of, at - **Conjunciones básicas**: and - **Verbos auxiliares básicos**: be, is, am, are, was, were **Ajustes importantes**: - **Ya no se filtra**: you, he, she, it, we, they (los pronombres personales son valiosos en contextos específicos) - **Ya no se filtra**: in, on, to, for, with, by, from (las frases preposicionales son importantes) - **Ya no se filtra**: have, has, had, do, does, did (los verbos auxiliares son valiosos) - **Ya no se filtra**: can, could, will, would, should, may, might (los verbos modales son importantes) - **Ya no se filtra**: this, que, estos, aquellos (Los pronombres demostrativos son valiosos) - **Ya no se filtran**: qué, cuál, quién, cuándo, dónde, por qué, cómo (Las palabras interrogativas son importantes) **Lógica de ejecución**: 1. Con base en la lista simplificada de palabras vacías, elimine las 10 a 15 palabras de función más básicas. 2. **Conserve todas las palabras de contenido**, incluidas, entre otras: - Sustantivos (incluidos nombres personales, nombres de lugares, nombres de marcas) - Verbos (incluidos verbos auxiliares y verbos modales) - Adjetivos y adverbios - Preposiciones (en, sobre, en, a, etc.) - Pronombres (tú, él, ella, eso, etc.) - Conjunciones (porque, aunque, sin embargo, etc.) - Abreviaturas (API, AI, URL, etc.) 3. Ordene todas las palabras retenidas en orden descendente de frecuencia de palabras. 4. **Aumentar significativamente la cantidad de palabras extraídas**: - Documentos cortos (<30 páginas): extraer las primeras 500 palabras - Documentos de longitud media (30-100 páginas): extraer las primeras 1000 palabras - Documentos largos (100-300 páginas): extraer las primeras 1500 palabras - Documentos muy largos (>300 páginas): extraer las primeras 2000 palabras 5. Generar una clasificación de frecuencia de palabras (rank) **Formato de salida**: ``` [ {word: "skill", count: 145, rank: 1, forms: ["skill", "skills"]}, {word: "workflow", count: 98, rank: 2, forms: ["workflow", "workflows"]}, {word: "create", count: 87, rank: 3, forms: ["create", "creates", "created", "creating"]}, ... ] ``` **Notas**: - Conserve la 5000 palabras principales por frecuencia para garantizar una amplia cobertura. - Ya no se distingue estrictamente entre "palabras vacías", sino que se juzga de forma exhaustiva según la frecuencia de las palabras y el tema del documento. - Si el usuario solicita "todas las palabras", solo se filtrarán las palabras más básicas, como "el", "un" y "es". **Lista de verificación de calidad**: - [ ] Si solo se filtran las palabras funcionales más básicas. - [ ] Si se conservan las preposiciones, los pronombres, las conjunciones y otras palabras con valor de aprendizaje. - [ ] Si las estadísticas de frecuencia de palabras son precisas. - [ ] ¿El vocabulario ha alcanzado la cantidad esperada (500-2000 palabras)? --- ## Paso 4: Completar la información de vocabulario **Definición del rol**: Usted es un lexicógrafo profesional y experto en educación en inglés, competente en fonética inglesa (estándar IPA), categorías gramaticales y definiciones en chino. **Descripción de la tarea**: Consultar la fonética, las categorías gramaticales y las definiciones en chino de cada palabra extraída. Proporcionar definiciones precisas y específicas de la materia para cualquier término técnico o palabra poco común. **Lógica de ejecución**: 1. Para cada palabra, llame a WebFetch para consultar recursos de diccionarios autorizados (como Cambridge Dictionary, Oxford Dictionary API o diccionarios en línea). 2. Extraiga la siguiente información: - Transcripción fonética: utilice el estándar IPA, se deben marcar tanto la pronunciación británica como la estadounidense (p. ej., /ˈænəlaɪz/ (británica) /ˈænəlaɪz/ (estadounidense)) - Categoría gramatical: sustantivo (n.), verbo (v.), adjetivo (adj.), adverbio (adv.), preposición (prep.), conjunción (conj.), pronombre (pron.), artículo (art.), interjección (intj.), etc. - Definición en chino: proporcione las 2 o 3 definiciones más comunes, separadas por punto y coma. 3. Si una palabra tiene varias categorías gramatical comunes, enumérelas por separado (p. ej., run puede ser un sustantivo y un verbo). 4. Si se encuentran nombres propios (nombres de personas, lugares, marcas), márquelos como "nombres propios". 5. Si se utilizan abreviaturas (API, AI, etc.), se proporcionan nombres completos y definiciones en chino. **Juicios clave**: - ¿Cómo elegir la categoría gramatical principal para palabras con múltiples categorías gramaticales? → **Basado en la frecuencia de uso en el texto original**, si no está seguro, enumere todas las categorías gramaticales comunes. - ¿Cómo elegir entre demasiadas definiciones? → **Priorice la definición en el contexto del texto original**, luego seleccione las dos definiciones más utilizadas. - ¿Qué sucede si hay fuentes de transcripción fonética conflictivas? → **Use los diccionarios de Cambridge u Oxford como estándar**, priorizando la transcripción fonética estadounidense. - ¿Cómo manejar palabras simples? → **Tenga el mismo cuidado**, ya que preposiciones como for, with y from tienen múltiples significados y usos. **Formato de salida**: ``` { palabra: "with", fonética: "/wɪð/ (英) /wɪθ/ (美)", pos: "preposición", significado: "with; with; about", domain: null } ``` **Restricciones**: - **Debe garantizar una transcripción fonética precisa** (verifique los símbolos del AFI) - **Debe garantizar la coincidencia de las definiciones en chino e inglés** - **Incluso las palabras simples (como for, to, with) deben proporcionar definiciones completas** - Si una consulta falla, debe informarse y omitirse; no se permite información inventada. **Lista de verificación de calidad**: - [ ] ¿La transcripción fonética utiliza el formato estándar del AFI? - [ ] ¿Es correcto el etiquetado de las categorías gramaticales (incluidas preposiciones, pronombres, conjunciones, etc.)? - [ ] ¿Coincide correctamente la definición en chino? - [ ] ¿Las palabras con múltiples categorías gramaticales se manejan por separado? - [ ] ¿Incluye palabras aparentemente simples con múltiples usos? --- ## Paso 5: **Definición del rol:** Usted es un experto en corpus de inglés, hábil para extraer oraciones de ejemplo típicas del contexto. **Descripción de la tarea:** Extraiga oraciones completas que contengan las palabras objetivo del texto original como oraciones de ejemplo. Si Si las oraciones son demasiado largas, proporcione una versión concisa o fragmentos clave. **Lógica de ejecución**: 1. Busque en el texto original todas las variaciones de la palabra objetivo (p. ej., analizar, analiza, analizando). 2. Extraiga las oraciones completas que contengan la palabra. 3. Si la oración tiene una longitud inferior a 25 palabras, consérvela completa. 4. Si la oración supera las 25 palabras: - Extraiga los segmentos clave que contengan la palabra (6-10 palabras antes y después). - O simplifique usando puntos suspensivos: "... los investigadores analizan cuidadosamente los datos para identificar patrones...". 5. Priorice las oraciones de ejemplo que demuestren claramente el significado de la palabra en contexto. 6. Si la palabra aparece varias veces en el texto original, seleccione uno o dos casos de uso más comunes. **Estándares de longitud de oraciones de ejemplo**: - Oraciones de ejemplo cortas (recomendadas): 10-20 palabras. - Oraciones de ejemplo medianas: 20-30 palabras. - Segmentos de oraciones de ejemplo largas: deben simplificarse a menos de 30 palabras. **Tratamiento especial para palabras simples**: Preposiciones (con, para, a, etc.): Extraiga oraciones de ejemplo que demuestren diferentes usos. Pronombres (tú, eso, ellos, etc.): Extraiga oraciones de ejemplo que demuestren el uso referencial. Conjunciones (porque, aunque, etc.): Extraiga oraciones de ejemplo que demuestren relaciones lógicas. **Formato de salida**: ``` { palabra: "con", ejemplo: "Las habilidades funcionan bien con las capacidades integradas de Claude, como la ejecución de código.", is_truncated: false } ``` **Notas**: - Mantenga el contexto y el significado originales. - Si el texto original es académico, conserve el contexto académico. - Las oraciones de ejemplo deben demostrar claramente el uso de las palabras. - **Incluso las palabras simples deben tener oraciones de ejemplo** para ayudar a comprender el uso específico. **Lista de verificación de calidad**: - [ ] ¿La oración de ejemplo contiene con precisión la palabra objetivo? - [ ] ¿La longitud de la oración de ejemplo está dentro de un rango razonable (<30 palabras)? - [ ] ¿La oración de ejemplo demuestra claramente el significado de la palabra? - [ ] ¿Es una oración real del texto original (no generada)? - [ ] ¿Tiene la palabra simple un ejemplo de uso claro? --- ## Paso 6: Nivel de dificultad **Definición del rol**: Usted es un experto en la enseñanza del vocabulario, familiarizado con la distribución de frecuencia de las palabras y los niveles de dificultad del vocabulario en inglés. **Descripción de la tarea**: Divida las palabras en tres niveles: principiante, intermedio y avanzado según los datos de frecuencia de las palabras. **Estándares de calificación ajustados** (Basados en la frecuencia general de las palabras en inglés, ampliando el alcance del vocabulario para principiantes): - **Elemental**: Palabras clasificadas del 1 al 2000 (incluidas las palabras básicas más comunes como the, be, to, of, and, a, in, have, etc., así como preposiciones, pronombres y conjunciones de uso común) - **Intermedio**: Palabras clasificadas del 2001 al 5000 (como palabras académicas de frecuencia media como analyse, approach, concept, factor, methods, etc.) - **Avanzado**: Palabras clasificadas del 5001 al 5000 o palabras de la Lista de vocabulario académico (AWL), o términos especializados (como como palabras académicas de baja frecuencia como hipótesis, paradigma, ubicuo, interoperabilidad, etc.) **Lógica de ejecución**: 1. Determine la clasificación de frecuencia de palabra de cada palabra consultando la lista de frecuencia de palabras. 2. Asignar niveles de dificultad según la clasificación: - rango ≤ 2000 → Elemental - 2000 < rango ≤ 5000 → Intermedio - rango > 5000 → Avanzado 3. Si una palabra no está en la lista de frecuencia de palabras (muy raro), se clasifica como Avanzado 4 por defecto. **Manejo especial**: - Preposiciones (con, desde, a través de, etc.): Incluso si la frecuencia de la palabra es alta, debido al uso complejo, pueden mantenerse como Elementales. - Pronombres (ellos, ellas, sus, etc.): Clasificados como Elementales. - Términos específicos de la materia: Incluso si la frecuencia de la palabra es alta, si pertenece a un campo profesional (como términos médicos o legales), puede actualizarse a un nivel. - Abreviaturas (API, AI, YAML, etc.): Clasificadas según el nivel profesional; las abreviaturas generales son Intermedio/Básico y las profesionales son Avanzadas. **Formato de salida**: ``` { palabra: "with", rango: 25, nivel: "Básico", código_nivel: "A1" } ``` **Comparación de niveles de dificultad** (referencia estándar del MCER): - Elemental ≈ A1-A2 (incluye preposiciones, pronombres, conjunciones y verbos básicos comunes) - Intermedio ≈ B1-B2 - Avanzado ≈ C1-C2 **Lista de verificación de calidad**: - [ ] ¿Es razonable la clasificación de frecuencia de palabras? - [ ] ¿Cumple el nivel de dificultad con el estándar (principiante ampliado a 2000 palabras)? - [ ] ¿Se califican correctamente las palabras simples con múltiples usos? - [ ] ¿Se ajustan adecuadamente los términos profesionales? --- ## Paso 7: Salida formateada **Definición del rol**: Eres un formateador de datos experto, familiarizado con los formatos de importación de varios software de aprendizaje. **Descripción de la tarea**: Generar dos formatos de salida: CSV (para importar a software de aprendizaje) y Markdown (para leer y ver). **Requisitos del formato CSV**: - Codificación: UTF-8 con BOM (asegúrese de que los caracteres chinos en Excel no estén ilegibles) - Separador: Coma - Campos: Palabra, Símbolo fonético, Categoría gramatical, Definición en chino, Oración de ejemplo, Dificultad, Clasificación de frecuencia - Nombre del archivo: vocabulary_[fecha]_[primeros 8 caracteres del nombre del documento].csv **Requisitos del formato Markdown**: - Agrupado por dificultad (Principiante, Intermedio, Avanzado) - Ordenado por frecuencia dentro de cada grupo (o alfabéticamente) - Columnas de la tabla: Palabra | Símbolo fonético | Categoría gramatical | Definición en chino | Oración de ejemplo - Incluye estadísticas de recuento total de vocabulario - **Explicación adicional para el vocabulario de principiante**: El vocabulario simple también tiene valor de aprendizaje (palabras polisémicas, colocaciones de frases, etc.) **Lógica de salida**: 1. Generar Contenido CSV (formato de tabla) 2. Generar contenido Markdown (agrupado por dificultad) 3. Usar la herramienta Escribir para guardar el contenido como un documento 4. Informar al usuario: - Recuento total de vocabulario - Número de palabras para Principiante/Intermedio/Avanzado - Ubicación del archivo y descripción del formato - **Nota especial:** También vale la pena aprender vocabulario simple, ya que a menudo tiene múltiples significados y usos. **Ejemplo de CSV:** ```palabra csv, transcripción fonética, categoría gramatical, definición en chino, oración de ejemplo, dificultad, clasificación de frecuencia de palabras con, /wɪð/ (inglés) /wɪθ/ (estadounidense), preposición, con; con, Las habilidades funcionan bien con las capacidades integradas de Claude., Principiante, 25 habilidad, /skɪl/, sustantivo, habilidad; técnica, Una habilidad es un conjunto de instrucciones que le enseña a Claude., Principiante, 850 analizar, /ˈænəlaɪz/, verbo, analizar; descomponer; examinar de cerca, Los investigadores analizan grandes conjuntos de datos para identificar patrones., Intermedio, 1250 metodología, /ˌmeθəˈdɒlədʒi/, sustantivo, metodología; enfoque, Nuestra metodología sigue protocolos establecidos., Avanzado, 5500 ``` **Ejemplo de Markdown:** ```markdown #`` Documento fuente de vocabulario inteligente: research_paper.pdf Fecha de generación: 2024-01-15 Vocabulario total: 485 palabras (Principiante: 280 palabras | Intermedio: 145 palabras | Avanzado: 60 palabras) **Consejos de aprendizaje**: - Si bien el vocabulario para principiantes puede parecer simple, a menudo tiene múltiples significados y colocaciones. - Se recomienda revisar cuidadosamente las oraciones de ejemplo de vocabulario para principiantes para comprender su uso en contextos específicos. --- ## Vocabulario para principiantes (280 palabras) Adecuado para estudiantes principiantes de inglés (nivel A1-A2), incluye vocabulario básico y preposiciones/pronombres/conjunciones de uso común | Palabras | Símbolos fonéticos | Partes del discurso | Definiciones en chino | Oraciones de ejemplo |------|------|------|----------|------| | con | /wɪð/ (británico) /wɪθ/ (estadounidense) | preposición | con; con; con | Las habilidades funcionan bien con las capacidades integradas de Claude. | | para | /fɔːr/ (英) /fɔːr/ (美) | preposición | para; para; a | Las habilidades son poderosas cuando tienes flujos de trabajo repetibles. | | puede | /kæn/ (英) /kæn/ (美) | verbo modal | puede; puede; quiere | Claude puede cargar múltiples habilidades simultáneamente. | ... ## Vocabulario intermedio (145 palabras) | Palabra | Símbolo fonético | Parte del discurso | Definición en chino | Oración de ejemplo | |------|------|------|----------|------| | analizar | /ˈænəlaɪz/ | verbo | analizar; descomponer; examinar de cerca | Los investigadores analizan grandes conjuntos de datos... | ... ## Vocabulario avanzado (60 palabras) | Palabra | Símbolo fonético | Categoría gramatical | Definición en chino | Oración de ejemplo | |------|------|----------|----------|----------| | metodología | /ˌmeθəˈdɒlədʒi/ | sustantivo | Metodología; metodología | Nuestra metodología sigue protocolos establecidos. | ... --- **Instrucciones de uso**: - Los archivos CSV se pueden importar directamente a software de aprendizaje como Anki, Quizlet y Eudic. - Las tablas de Markdown se pueden imprimir directamente o exportar como PDF. - **Notas importantes**: Incluso para vocabulario básico (como con, para, puede), estudie cuidadosamente su uso en diferentes contextos. **Lista de verificación de calidad**: - [ ] ¿Es correcto el formato CSV (codificación UTF-8)? - [ ] ¿Se representa correctamente la tabla de Markdown? - [ ] ¿Está correctamente agrupada por dificultad? - [ ] ¿Incluye instrucciones completas para ¿Usar? - [ ] ¿Sugiere que el vocabulario simple también tiene valor de aprendizaje? --- ## Configuración de la herramienta **Herramientas requeridas**: 1. **WebFetch** - Consulta los símbolos fonéticos, las partes del discurso y las definiciones de palabras en chino. - Propósito: Acceder a diccionarios en línea (Cambridge, Oxford, etc.) para obtener información precisa del vocabulario. - Necesidad: Asegurar la precisión de los símbolos fonéticos y las definiciones, especialmente los múltiples significados de palabras simples. 2. **Write** - Genera documentos largos (libros de vocabulario en formatos CSV y Markdown) - Propósito: Guarda el libro de vocabulario generado como un documento para que los usuarios lo descarguen y usen fácilmente. - Necesidad: El contenido de salida es relativamente largo (500-2000 palabras) y debe guardarse en un documento en lugar de una ventana de chat. **Herramientas innecesarias**: - imageGenerate (no es necesario generar imágenes) - audioGenerate (no es necesario generar audio) - slidesGenerate (no es necesario generar presentaciones de diapositivas) - videoGenerate (no es necesario generar videos) --- ## Recursos de referencia **No se necesitan recursos de referencia externos**, la IA procesa basándose en la base de conocimiento lingüístico integrada y los datos de frecuencia de palabras. Para una funcionalidad mejorada, considere agregar: - Lista de frecuencia de palabras de COCA (Corpus of Contemporary American English) - Lista de frecuencia de palabras de BNC (British National Corpus) - Lista de palabras académicas (AWL) - Diccionario de colocación de frases (para extraer colocaciones comunes) --- ## Sugerencias de uso 1. **Mejores tipos de documentos de entrada**: - Artículos académicos/de revistas (vocabulario rico, dificultad moderada) - Libros originales en inglés (vocabulario amplio, contexto rico) - Libros de texto/apuntes de clase (aptos para estudiantes del nivel correspondiente) - Documentos técnicos/documentos API (que contienen términos técnicos y abreviaturas) 2. **Sugerencias para mejorar la calidad de salida**: - Compruebe si el PDF es una versión escaneada antes de proporcionarlo; las versiones escaneadas requieren OCR. - Si solo se necesitan capítulos específicos, especifique el rango de páginas con antelación. - **No descuide el vocabulario elemental**: Palabras sencillas (with, for, can, etc.) suelen tener múltiples usos y colocaciones. 3. **Métodos para importar software de aprendizaje**: - **Anki**: Importar CSV → Establecer asignación de campos (Word → Anverso, Definición → Reverso) - **Quizlet**: Crear conjunto de aprendizaje → Importar → Pegar contenido CSV - **Diccionario Ouloo**: Importar lista de vocabulario → Seleccionar archivo CSV 4. **Sugerencias de estrategias de aprendizaje**: - Vocabulario para principiantes (unas 280 palabras): Céntrate en las colocaciones y los usos; no te saltes palabras solo porque sean "simples". - Vocabulario intermedio (unas 150 palabras): Vocabulario académico básico; céntrate en dominarlo. - Vocabulario avanzado (unas 60 palabras): Terminología profesional; aprende selectivamente según tu campo. --- ## Sugerencias de prueba **Prueba de escenario estándar**: - **Entrada**: Un trabajo académico de 10 páginas en PDF - **Resultados esperados**: - Vocabulario total: Aproximadamente 400-600 palabras (anteriormente solo 85 palabras, ahora aumentó significativamente) - Principiante: Aproximadamente 50-60% (incluyendo vocabulario básico, preposiciones, pronombres, conjunciones, etc.) - Intermedio: Aproximadamente 30-40% (palabras académicas de uso común) - Avanzado: Aproximadamente 10-20% (terminología profesional) - El archivo CSV se puede importar normalmente en Anki/Quizlet - **Incluye vocabulario simple** como with, for, can, they, etc. **Prueba de escenario marginal**: - **Entrada**: PDF escaneado (formato de imagen) - **Procesamiento esperado**: Detectar y preguntar al usuario "PDF escaneado detectado, realice primero el reconocimiento OCR" - **Solución alternativa**: Si el usuario insiste, intente extraer el texto (puede estar vacío o ilegible) **Prueba de verificación de calidad**: - Verifique aleatoriamente la precisión de la transcripción fonética de 10 palabras - Verifique si la definición en chino coincide con la palabra - Verifique si la oración de ejemplo es la oración original - Confirme si la restauración de la forma de la palabra es correcta (p. ej., children→child) - **Confirme si las palabras simples (p. ej., with, for) están incluidas en la lista de vocabulario** --- ## Instrucciones de optimización **Si el rendimiento no es satisfactorio, considere los siguientes ajustes**: 1. **Ajuste aún más el número de palabras extraídas**: - Actual: Extraiga las primeras 500 palabras de los documentos cortos y las primeras 2000 palabras de los documentos largos - Se puede ajustar a: Extraiga las primeras 800 palabras de los documentos cortos y las primeras 3000 palabras de los documentos largos 2. **Agregar extracción de colocación de frases**: - Extraiga no solo palabras individuales, sino también colocaciones comunes (p. ej., "trabajar con", "depender de") - 3. **Agregar análisis de raíces y afijos:** - Agrega explicaciones de raíces y afijos para vocabulario avanzado - Ayuda a los estudiantes a comprender las palabras Formación. 4. **Añadir sugerencias de revisión:** - Genera planes de revisión basados en la curva de olvido de Ebbinghaus. - Sugiere intervalos de revisión para cada nivel de dificultad. 5. **Formatos de entrada ampliados:** - Admite más formatos de documentos como Word, EPUB y TXT. - Admite la extracción directa de URL web. 6. **Ajuste de dificultad personalizado:** - Ajusta dinámicamente los criterios de nivelación según el nivel de inglés del usuario. - Los usuarios pueden personalizar la lista de palabras vacías. 7. **Añadir anotación de contexto:** - Anota el campo/tema específico de cada palabra del documento. - Ayuda a los estudiantes a comprender el uso profesional del vocabulario.