Les modèles récents d’apprentissage supervisé permettent d’atteindre de très bonne performance à un coût moindre dans les tâches liées au traitement de texte.
Dans cet article, nous allons présenter la librairie spaCy, qui s’est imposée dans l’écosystème des data scientists pour le NLP (Natural Language Processing). Un exemple concret d’extraction d’informations nous guidera pour la prise en main. Nous aborderons ensuite un sujet plus complexe : l’analyse des erreurs et comment la recherche d’incertitude permet d’augmenter la précision de manière substantielle ainsi que la satisfaction de l’utilisateur final, face à un système d’apprentissage supervisé.
Le sujet sera traité en langage Python et détaillé dans l’ordre suivant : définition de la tâche et première solution retenue, choix du modèle NER (Reconnaissance d’Entités Nommées), analyse des erreurs et quantification d’incertitude pour améliorer les résultats.
1. Problème et première approche
Le problème proposé est le suivant : extraire automatiquement des informations précises depuis un corpus de documents PDF non normalisé....
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première