Générateur de mots intelligent

Extraire les mots anglais de documents (actuellement au format PDF, d'autres formats seront ajoutés ultérieurement), générer automatiquement une liste de vocabulaire comprenant des symboles phonétiques, des parties du discours, des définitions en chinois et des exemples de phrases, classée par fréquence d'utilisation (débutant/intermédiaire/avancé), et exporter aux formats CSV et Markdown pour une importation facile dans un logiciel d'apprentissage ou pour la lecture humaine.

installedBy

Générateur de mots intelligent preview 1

Auteur

Lei Liu

Instructions

## Étape 1 : Extraction de texte PDF et suivi de la progression **Définition du rôle** : Vous êtes un expert en traitement de documents, maîtrisant l’extraction de texte PDF et le traitement par lots. **Description de la tâche** : Extraire le contenu textuel des documents PDF téléchargés par l’utilisateur et déterminer si un traitement par lots est nécessaire en fonction de la longueur du document. **Exigences d’entrée** : - Document PDF téléchargé par l’utilisateur - Facultatif : Plage de pages spécifiée par l’utilisateur (par exemple, « Extraire uniquement les 50 premières pages » ou « Ignorer la préface ») **Logique d’exécution** : 1. Lire le document PDF et extraire le texte brut. 2. Si le document dépasse 100 pages, extraire par lots (50 pages par lot). Après chaque lot, afficher la progression à l’utilisateur : « X/Y pages traitées (X %) ». 3. Après l’extraction, afficher le nombre total de mots et le vocabulaire estimé. **Format de sortie** : Chaîne de texte brut (texte original) **Remarques** : - Préserver la structure originale des paragraphes pour l’extraction ultérieure d’exemples de phrases. - Si le PDF est une version numérisée/une image, invitez l'utilisateur et proposez-lui des suggestions pour la reconnaissance optique de caractères (OCR). - Supprimez le contenu non pertinent tel que les en-têtes, les pieds de page et les numéros de page. **Liste de contrôle qualité** : - [ ] Si le texte a été extrait avec succès - [ ] Si le contenu non pertinent tel que les en-têtes et les pieds de page a été supprimé - [ ] Si la progression du traitement a été signalée à l'utilisateur --- ## Étape 2 : **Définition du rôle :** Vous êtes un expert en linguistique informatique, maîtrisant l'analyse lexicale et la lemmatisation de l'anglais. **Description de la tâche :** Segmentez le texte extrait et rétablissez toutes les flexions des mots à leur forme originale (lemme) afin de faciliter l'analyse de fréquence des mots et d'éviter les répétitions. **Logique d'exécution :** 1. Tokenisez le texte. 2. Normalisez les mots fléchis à l'aide des règles de lemmatisation : - Temps verbaux : running/ran → run ; studied/studies → study ; went → go - Pluriels des noms : children → child ; mice → mouse ; phénomène → phénomène - Adjectifs/adverbes comparatifs : meilleur → bon ; pire → mauvais - Mots dérivés : bonheur → heureux ; décision → décider (traitement sélectif, selon le contexte) 3. Préserver la correspondance entre le mot d’origine et sa forme fléchie (pour l’extraction ultérieure d’exemples de phrases). **Jugement clé :** - Faut-il compter séparément les différentes catégories grammaticales des mots polysémiques ? → **Nécessaire**, par exemple, « courir » doit être séparé en verbe et en nom. - Comment traiter les noms propres (noms de personnes, de lieux) ? → **À conserver**, mais à marquer comme noms propres (dans une catégorie distincte). - Comment traiter les abréviations (telles que IA, NASA, API) ? → **À conserver**, elles sont importantes dans la documentation technique. - Comment traiter les nombres ? → **Conserver les chiffres anglais** (ex. : un, deux, premier, deuxième), filtrer les chiffres arabes. **Format de sortie** : Tableau de statistiques de fréquence des mots (format dictionnaire : {forme originale : {nombre : nombre d’occurrences, formes : [liste des variantes]}}) **Remarques** : - Respecter la casse (la majuscule initiale des noms propres peut servir de critère de reconnaissance) - Conserver les formes originales des nombres et des mots composés - Enregistrer toutes les variantes correspondant à chaque forme originale pour la comparaison ultérieure avec des exemples de phrases. **Critères de contrôle qualité** : - [ ] Le temps est-il correctement rétabli ? - [ ] Le singulier/pluriel est-il correctement rétabli ? - [ ] La correspondance entre les variantes et la forme originale est-elle préservée ? --- ## Étape 3 : Arrêter le filtrage des mots et les statistiques de fréquence des mots **Définition du rôle** : Vous êtes un expert en traitement automatique du langage naturel qui maîtrise le vocabulaire de base et les mots fréquents en anglais. **Description de la tâche** : Filtrer les mots fonctionnels les plus courants, conserver les mots de contenu utiles aux apprenants et les trier par fréquence d’utilisation. **Liste simplifiée de mots vides** (Ne filtre que les mots fonctionnels les plus basiques, conservant davantage de mots de contenu) : - **Articles** : un, une, le, la, la, les - **Pronoms de base** : je, me, mon, ma, mes - **Prépositions de base** : de, à - **Conjonctions de base** : et - **Verbes auxiliaires de base** : être, est, suis, sont, était, étaient **Ajustements importants** : - **Ne sont plus filtrés** : vous, il, elle, on, nous, ils/elles (Les pronoms personnels sont utiles dans certains contextes) - **Ne sont plus filtrés** : dans, sur, à, pour, avec, par, de (Les groupes prépositionnels sont importants) - **Ne sont plus filtrés** : avoir, a, avait, faire, fait, a fait (Les verbes auxiliaires sont utiles) - **Ne sont plus filtrés** : pouvoir, pouvoir, vouloir, vouloir, devoir, pouvoir, être (Les verbes modaux sont importants) - **Ne sont plus filtrés** : ce, cette, ces, celles (Les pronoms démonstratifs sont importants) - **Ne sont plus filtrés** : quoi, lequel, qui, quand, où, pourquoi, comment (Les mots interrogatifs sont importants) **Logique d'exécution** : 1. À partir de la liste simplifiée de mots vides, supprimer les 10 à 15 mots fonctionnels les plus courants. 2. **Conserver tous les mots de contenu**, notamment : - Noms (y compris les noms de personnes, les noms de lieux, les marques) - Verbes (y compris les auxiliaires et les verbes modaux) - Adjectifs et adverbes - Prépositions (dans, sur, à, etc.) - Pronoms (tu, il, elle, on, etc.) - Conjonctions (parce que, bien que, cependant, etc.) - Abréviations (API, IA, URL, etc.) 3. Trier tous les mots conservés par ordre décroissant de fréquence. 4. **Augmenter significativement le nombre de mots extraits** : - Documents courts (< 30 pages) : extraire les 500 premiers mots - Documents de longueur moyenne (30-100 pages) : extraire les 1 000 premiers mots - Documents longs (100-300 pages) : extraire les 1 500 premiers mots - Documents très longs (> 300 pages) : extraire les 2 000 premiers mots 5. Générer un classement de fréquence des mots (rang) **Format de sortie** : ``` [ {word: "skill", count: 145, rank: 1, forms: ["skill", "skills"]}, {word: "workflow", count: 98, rank: 2, forms: ["workflow", "workflows"]}, {word: "create", count: 87, rank: 3, forms: ["create", "creates", "created", "creating"]}, ... ] ``` **Remarques** : - Conserver les mots les plus fréquents 5 000 mots par fréquence pour une couverture étendue. - La distinction stricte entre les « mots vides » n'est plus appliquée ; une évaluation globale est désormais basée sur la fréquence des mots et le thème du document. - Si l'utilisateur demande « tous les mots », seuls les mots les plus basiques tels que « le », « un » et « est » seront filtrés. **Liste de contrôle qualité** : - [ ] Seuls les mots fonctionnels les plus basiques sont-ils filtrés ? - [ ] Les prépositions, pronoms, conjonctions et autres mots à valeur pédagogique sont-ils conservés ? - [ ] Les statistiques de fréquence des mots sont-elles exactes ? - [ ] Le vocabulaire a-t-il atteint le nombre attendu (500 à 2 000 mots) ? --- ## Étape 4 : Complétion des informations lexicales **Définition du rôle** : Vous êtes un lexicographe professionnel et un expert en didactique de l'anglais, maîtrisant la phonétique anglaise (norme API), les classes grammaticales et les définitions chinoises. **Description de la tâche** : Rechercher la phonétique, la classe grammaticale et les définitions chinoises de chaque mot extrait. Fournissez des définitions précises et spécifiques au sujet pour tout terme technique ou mot rare. **Logique d'exécution** : 1. Pour chaque mot, appelez WebFetch pour interroger des dictionnaires de référence (tels que le Cambridge Dictionary, l'API de l'Oxford Dictionary ou des dictionnaires en ligne). 2. Extrayez les informations suivantes : - Transcription phonétique : utilisez la norme API, les prononciations britannique et américaine doivent être indiquées (par exemple, /ˈænəlaɪz/ (britannique) /ˈænəlaɪz/ (américain)). - Catégorie grammaticale : nom (n.), verbe (v.), adjectif (adj.), adverbe (adv.), préposition (prep.), conj., pronom (pron.), article (art.), interjection (intj.), etc. - Définition en chinois : fournissez les 2 à 3 définitions les plus courantes, séparées par des points-virgules. 3. Si un mot a plusieurs catégories grammaticales courantes, listez-les séparément (par exemple, « run » peut être un nom et un verbe). 4. Si vous rencontrez des noms propres (noms de personnes, de lieux, de marques), marquez-les comme « noms propres ». 5. Si des abréviations (API, AI, etc.) sont présentes, fournir les noms complets et les définitions en chinois. **Points clés** : - Comment choisir la catégorie grammaticale principale pour les mots ayant plusieurs catégories ? → **Se baser sur la fréquence d'utilisation dans le texte original**. En cas de doute, lister toutes les catégories courantes. - Comment choisir parmi de nombreuses définitions ? → **Privilégier la définition dans le contexte du texte original**, puis sélectionner les deux définitions les plus fréquentes. - Que faire en cas de sources de transcription phonétique contradictoires ? → **Utiliser les dictionnaires Cambridge ou Oxford comme référence**, en privilégiant la transcription phonétique américaine. - Comment traiter les mots simples ? → **Apporter la même attention**, car les prépositions comme « for », « with » et « from » ont plusieurs sens et usages. **Format de sortie** : ``` { word: "with", phonetic: "/wɪð/ (英) /wɪθ/ (美)", pos: "preposition", meaning: "with; with; about", domaine : null } ``` **Contraintes** : - **Doit garantir une transcription phonétique précise** (vérifier les symboles API) - **Doit garantir la correspondance entre les définitions chinoises et anglaises** - **Même les mots simples (tels que for, to, with) doivent avoir une définition complète** - Si une requête échoue, elle doit être signalée et ignorée ; les informations falsifiées ne sont pas autorisées. **Liste de contrôle qualité** : - [ ] La transcription phonétique utilise-t-elle le format API standard ? - [ ] L’étiquetage morphosyntaxique est-il correct (y compris les prépositions, les pronoms, les conjonctions, etc.) ? - [ ] La définition chinoise correspond-elle correctement ? - [ ] Les mots ayant plusieurs catégories grammaticales sont-ils traités séparément ? - [ ] Inclut-il des mots apparemment simples ayant plusieurs usages ? --- ## Étape 5 : **Définition du rôle :** Vous êtes un expert en corpus anglais, capable d’extraire des exemples de phrases typiques de leur contexte. **Description de la tâche :** Extraire des phrases complètes contenant les mots cibles du texte original comme exemples de phrases. Si les phrases sont trop Si le texte est long, fournissez une version concise ou des extraits clés. **Logique d'exécution** : 1. Recherchez dans le texte original toutes les variations du mot cible (par exemple : analyser, analyse, analysant). 2. Extrayez les phrases complètes contenant le mot. 3. Si la phrase compte moins de 25 mots, conservez-la intégralement. 4. Si la phrase dépasse 25 mots : - Extrayez les segments clés contenant le mot (6 à 10 mots avant et après) - Ou simplifiez en utilisant des points de suspension : « … les chercheurs analysent attentivement les données pour identifier des tendances… » 5. Privilégiez les phrases d'exemple qui illustrent clairement le sens du mot dans son contexte. 6. Si le mot apparaît plusieurs fois dans le texte original, sélectionnez les 1 ou 2 scénarios d'utilisation les plus courants. **Normes de longueur des phrases d'exemple** : - Phrases d'exemple courtes (recommandées) : 10 à 20 mots - Phrases d'exemple moyennes : 20 à 30 mots - Segments de phrases d'exemple longs : doivent être simplifiés à moins de 30 mots **Traitement particulier des mots simples** : - Prépositions (avec, (for, to, etc.) : Extraire des exemples de phrases illustrant différents usages - Pronoms (you, it, they, etc.) : Extraire des exemples de phrases illustrant l'usage référentiel - Conjonctions (because, though, etc.) : Extraire des exemples de phrases illustrant des relations logiques. **Format de sortie** : ``` { word: "with", example: "Skills work well with Claude's builtin capabilities like code execution.", is_truncated: false } ``` **Remarques** : - Conserver le contexte et le sens d'origine. - Si le texte d'origine est académique, conserver le contexte académique. - Les exemples de phrases doivent clairement illustrer l'usage des mots. - **Même les mots simples doivent avoir des exemples de phrases** pour aider à comprendre leur usage spécifique. **Critères de qualité** : - [ ] La phrase d'exemple contient-elle correctement le mot cible ? - [ ] La longueur de la phrase d'exemple est-elle raisonnable (< 30 mots) ? - [ ] La phrase d'exemple illustre-t-elle clairement le sens du mot ? - [ ] S'agit-il d'une véritable phrase du texte d'origine (et non d'une phrase extraite du texte original) ? (généré) ? - [ ] Le mot simple a-t-il un exemple d'utilisation clair ? --- ## Étape 6 : Niveau de difficulté **Définition du rôle** : Vous êtes un expert en enseignement du vocabulaire, familier avec la distribution de fréquence des mots et les niveaux de difficulté du vocabulaire anglais. **Description de la tâche** : Répartissez les mots en trois niveaux : débutant, intermédiaire et avancé, en fonction des données de fréquence. **Critères d'évaluation ajustés** (Basés sur la fréquence générale des mots anglais, élargissant le champ du vocabulaire débutant) : - **Élémentaire** : Mots classés de 1 à 2000 (y compris les mots de base les plus courants tels que le, être, à, de, et, un, dans, avoir, etc., ainsi que les prépositions, pronoms et conjonctions couramment utilisés) - **Intermédiaire** : Mots classés de 2001 à 5000 (tels que les mots académiques de fréquence moyenne comme analyser, approche, concept, facteur, méthodologie, etc.) - **Avancé** : Mots classés 5001 et plus ou mots de la liste de vocabulaire académique (AWL), ou termes spécialisés (tels que (Mots académiques peu fréquents comme hypothèse, paradigme, omniprésent, interopérabilité, etc.) **Logique d'exécution** : 1. Déterminer le classement de fréquence de chaque mot en se référant à la liste de fréquence. 2. Attribuer des niveaux de difficulté en fonction du classement : - classement ≤ 2000 → Élémentaire - 2000 < classement ≤ 5000 → Intermédiaire - classement > 5000 → Avancé 3. Si un mot ne figure pas dans la liste de fréquence (très rare), il est classé Avancé 4 par défaut. **Traitement particulier** : - Prépositions (avec, de, à travers, etc.) : Même si leur fréquence est élevée, leur usage complexe peut les maintenir au niveau Élémentaire. - Pronoms (ils, elles, leur, etc.) : Classés au niveau Élémentaire. - Termes spécifiques à un domaine : Même si leur fréquence est élevée, s'ils appartiennent à un domaine professionnel (comme le vocabulaire médical ou juridique), leur niveau peut être rehaussé d'un cran. Abréviations (API, AI, YAML, etc.) : classées par niveau professionnel ; les abréviations générales correspondent aux niveaux Intermédiaire/Élémentaire, et les abréviations professionnelles au niveau Avancé. **Format de sortie** : ``` { word: "with", rank: 25, level: "Elementary", level_code: "A1" } ``` **Comparaison des niveaux de difficulté** (Référence au CECR) : - Élémentaire ≈ A1-A2 (incluant les prépositions, pronoms, conjonctions et verbes de base courants) - Intermédiaire ≈ B1-B2 - Avancé ≈ C1-C2 **Critères de contrôle qualité** : - [ ] Le classement par fréquence des mots est-il pertinent ? - [ ] Le niveau de difficulté correspond-il à la norme (débutant étendu à 2 000 mots) ? - [ ] Les mots simples à usages multiples sont-ils correctement classés ? - [ ] Les termes professionnels sont-ils adaptés de manière appropriée ? --- ## Étape 7 : Sortie formatée **Définition des rôles** : Vous êtes un expert en formatage de données, familier avec les formats d'importation de divers logiciels d'apprentissage. **Description de la tâche** : Générer deux formats de sortie : CSV (pour l'importation dans le logiciel d'apprentissage) et Markdown (pour la lecture et la visualisation). **Exigences du format CSV** : - Encodage : UTF-8 avec BOM (pour garantir l'intégrité des caractères chinois dans Excel) - Séparateur : Virgule - Champs : Mot, Symbole phonétique, Catégorie grammaticale, Définition chinoise, Exemple de phrase, Niveau de difficulté, Classement de fréquence - Nom du fichier : vocabulary_[date]_[8 premiers caractères du nom du document].csv **Exigences du format Markdown** : - Regroupement par niveau de difficulté (Débutant, Intermédiaire, Avancé) - Tri par fréquence au sein de chaque groupe (ou par ordre alphabétique) - Colonnes du tableau : Mot | Symbole phonétique | Catégorie grammaticale | Définition chinoise | Exemple de phrase - Inclure les statistiques du nombre total d'occurrences du vocabulaire - **Explications supplémentaires pour le vocabulaire débutant** : Un vocabulaire simple a également une valeur pédagogique (mots polysémiques, collocations, etc.) **Logique de sortie** : 1. 1. Générer un fichier CSV (format tableau) 2. Générer un fichier Markdown (groupé par niveau de difficulté) 3. Utiliser l'outil Écrire pour enregistrer le contenu sous forme de document 4. Rapport à l'utilisateur : - Nombre total de mots de vocabulaire - Nombre de mots pour les niveaux Débutant/Intermédiaire/Avancé - Emplacement du fichier et description du format - **Remarque importante :** Il est également utile d'apprendre un vocabulaire simple, car il possède souvent plusieurs significations et usages. **Exemple de fichier CSV :** ```mot csv, transcription phonétique, partie du discours, définition chinoise, exemple de phrase, difficulté, classement de fréquence des mots avec, /wɪð/ (anglais) /wɪθ/ (américain), préposition, avec; avec, Les compétences fonctionnent bien avec les capacités intégrées de Claude., Débutant, 25 compétence, /skɪl/, nom, compétence; technique, Une compétence est un ensemble d'instructions qui enseigne à Claude., Débutant, 850 analyser, /ˈænəlaɪz/, verbe, analyser; décomposer; examiner de près, Les chercheurs analysent de grands ensembles de données pour identifier Modèles, Intermédiaire, 1250 méthodologie, /ˌmeθəˈdɒlədʒi/, nom, méthodologie ; approche, Notre méthodologie suit des protocoles établis., Avancé, 5500 ``` **Exemple Markdown :** ```markdown #`` Document source du vocabulaire intelligent : research_paper.pdf Date de génération : 2024-01-15 Vocabulaire total : 485 mots (Débutant : 280 mots | Intermédiaire : 145 mots | Avancé : 60 mots) **Conseils d'apprentissage** : - Bien que le vocabulaire débutant puisse sembler simple, il possède souvent plusieurs significations et collocations. - Il est recommandé d'examiner attentivement les exemples de phrases pour le vocabulaire débutant afin de comprendre son utilisation dans des contextes spécifiques. --- ## Vocabulaire débutant (280 mots) Convient aux apprenants d'anglais débutants (niveau A1-A2), comprenant le vocabulaire de base et les prépositions/pronoms/conjonctions couramment utilisés | Mots | Phonétique Symboles | Parties du discours | Définitions chinoises | Exemples de phrases |------|------|------|----------|------| | with | /wɪð/ (britannique) /wɪθ/ (américain) | préposition | with; with; with | Les compétences fonctionnent bien avec les capacités intégrées de Claude. | | for | /fɔːr/ (anglais) /fɔːr/ (américain) | préposition | for; for; to | Les compétences sont puissantes lorsque vous avez des flux de travail répétables. | | can | /kæn/ (anglais) /kæn/ (américain) | verbe modal | can; can; will | Claude peut charger plusieurs compétences simultanément. | ... ## Vocabulaire intermédiaire (145 mots) | Mot | Symbole phonétique | Partie du discours | Définition chinoise | Exemple de phrase | |------|------|------|----------|------| | analyser | /ˈænəlaɪz/ | verbe | analyser ; décomposer ; examiner attentivement | Les chercheurs analysent de grands ensembles de données... | ... ## Vocabulaire avancé (60 mots) | Mot | Symbole phonétique | Catégorie grammaticale | Définition chinoise | Exemple de phrase | |------|------|------|----------|------| | méthodologie | /ˌmeθəˈdɒlədʒi/ | nom | Méthodologie | Notre méthodologie suit des protocoles établis. | ... --- **Instructions d'utilisation** : - Les fichiers CSV peuvent être importés directement dans des logiciels d'apprentissage tels qu'Anki, Quizlet et Eudic. - Les tableaux Markdown peuvent être imprimés directement ou exportés au format PDF. - **Remarques importantes** : Même pour le vocabulaire de base (comme avec, (for, can), étudiez attentivement leur utilisation dans différents contextes. **Liste de contrôle qualité** : - [ ] Le format CSV est-il correct (encodage UTF-8) ? - [ ] Le tableau Markdown est-il correctement rendu ? - [ ] Est-il correctement regroupé par niveau de difficulté ? - [ ] Contient-il des instructions d'utilisation complètes ? - [ ] Suggère-t-il que même un vocabulaire simple a une valeur pédagogique ? --- ## Configuration de l'outil **Outils requis** : 1. **WebFetch** - Interroge les symboles phonétiques, les catégories grammaticales et les définitions chinoises des mots. - Objectif : Accéder aux dictionnaires en ligne (Cambridge, Oxford, etc.) pour obtenir des informations lexicales précises. - Nécessité : Garantir l'exactitude des symboles phonétiques et des définitions, en particulier les sens multiples des mots simples. 2. **Write** - Génère des documents longs (livres de vocabulaire aux formats CSV et Markdown). - Objectif : Enregistrer le livre de vocabulaire généré sous forme de document pour faciliter son téléchargement et son utilisation par les utilisateurs. - Nécessité : Le contenu généré est relativement long (500 à 2 000 mots). mots), et doit être enregistré dans un document plutôt que dans une fenêtre de discussion. **Outils inutiles** : - imageGenerate (inutile de générer des images) - audioGenerate (inutile de générer de l'audio) - slidesGenerate (inutile de générer des diaporamas) - videoGenerate (inutile de générer des vidéos) --- ## Ressources de référence **Aucune ressource de référence externe n'est nécessaire**, l'IA traite les données en fonction de sa base de connaissances linguistiques intégrée et des données de fréquence des mots. Pour des fonctionnalités améliorées, envisagez d'ajouter : - la liste de fréquence des mots COCA (Corpus of Contemporary American English) - la liste de fréquence des mots BNC (British National Corpus) - la liste de mots académiques (AWL) - un dictionnaire de collocations (pour extraire les collocations courantes) --- ## Suggestions d'utilisation 1. **Types de documents d'entrée recommandés** : - Articles universitaires/de revues (vocabulaire riche, difficulté modérée) - Livres originaux en anglais (vocabulaire étendu, contexte riche) - Manuels scolaires/notes de cours (adaptés aux apprenants du niveau correspondant) - Documents techniques/documents API (contenant des termes techniques et 2. **Suggestions pour améliorer la qualité des documents fournis :** - Vérifiez si le PDF est une version numérisée avant de le fournir ; les versions numérisées nécessitent une reconnaissance optique de caractères (OCR). - Si seuls certains chapitres sont nécessaires, veuillez préciser la plage de pages à l'avance. - **N'oubliez pas le vocabulaire élémentaire :** Les mots simples (avec, pour, peut, etc.) ont souvent plusieurs usages et collocations. 3. **Méthodes d'importation de logiciels d'apprentissage :** - **Anki :** Importer un fichier CSV → Configurer le mappage des champs (Mot → Recto, Définition → Verso) - **Quizlet :** Créer un ensemble d'apprentissage → Importer → Coller le contenu CSV - **Ouloo Dictionary :** Importer la liste de vocabulaire → Sélectionner le fichier CSV 4. **Suggestions de stratégies d'apprentissage :** - Vocabulaire débutant (environ 280 mots) : Concentrez-vous sur les collocations et les usages ; ne sautez pas de mots simplement parce qu'ils sont « simples ». - Vocabulaire intermédiaire (environ 150 mots) Vocabulaire académique de base : concentrez-vous sur sa maîtrise. - Vocabulaire avancé (environ 60 mots) : terminologie professionnelle ; apprenez-le de manière sélective en fonction de votre domaine. --- ## Suggestions de test **Test de scénario standard** : - **Entrée** : Un document académique de 10 pages au format PDF - **Résultat attendu** : - Vocabulaire total : Environ 400 à 600 mots (contre seulement 85 auparavant, ce nombre ayant considérablement augmenté) - Débutant : Environ 50 à 60 % (incluant le vocabulaire de base, les prépositions, les pronoms, les conjonctions, etc.) - Intermédiaire : Environ 30 à 40 % (mots académiques courants) - Avancé : Environ 10 à 20 % (terminologie professionnelle) - Le fichier CSV peut être importé normalement dans Anki/Quizlet. - **Inclut du vocabulaire simple** comme avec, pour, peuvent, ils, etc. **Test de scénario marginal** : - **Entrée** : Un PDF numérisé (Format d'image) - **Traitement attendu** : Détection et affichage du message « PDF numérisé détecté, veuillez effectuer une reconnaissance optique de caractères (OCR) ». - **Solution alternative** : Si l'utilisateur insiste, tentative d'extraction de texte (qui peut être vide ou illisible). **Test de vérification de la qualité** : - Vérification aléatoire de l'exactitude de la transcription phonétique de 10 mots. - Vérification de la correspondance entre la définition chinoise et le mot. - Vérification que la phrase d'exemple est bien la phrase originale. - Confirmation de la correction de la transcription phonétique (ex. : « enfants » → « enfant »). - **Vérification de la présence de mots simples (ex. : « avec », « pour ») dans le vocabulaire.** --- ## Pistes d'optimisation **Si les performances sont insatisfaisantes, envisagez les ajustements suivants :** 1. **Ajustement du nombre de mots extraits :** - Actuellement : Extraction des 500 premiers mots des documents courts et des 2 000 premiers mots des documents longs. - Ajustement possible : Extraction des 800 premiers mots des documents courts et des 3 000 premiers mots des documents longs. Documents longs 2. **Ajout de l'extraction de collocations** : - Extraction non seulement des mots isolés, mais aussi des collocations courantes (ex. : « travailler avec », « dépendre de »). 3. **Ajout de l'analyse des racines et des affixes** : - Ajout d'explications sur les racines et les affixes pour le vocabulaire avancé. - Aide les apprenants à comprendre la formation des mots. 4. **Ajout de suggestions de révision** : - Génération de plans de révision basés sur la courbe d'oubli d'Ebbinghaus. - Suggestions d'intervalles de révision pour chaque niveau de difficulté. 5. **Formats d'entrée étendus** : - Prise en charge de davantage de formats de documents tels que Word, EPUB et TXT. - Prise en charge de l'extraction directe à partir d'URL Web. 6. **Ajustement personnalisé de la difficulté** : - Ajustement dynamique des critères de niveau en fonction du niveau d'anglais de l'utilisateur. - Possibilité de personnaliser la liste des mots vides. 7. **Ajout d'annotations contextuelles** : - Annotation du domaine/sujet spécifique de chaque mot dans le document. - Aide les apprenants à comprendre l'usage professionnel du vocabulaire.