Extraire automatiquement des informations dans un texte avec spaCy

Magazine
Marque
GNU/Linux Magazine
Numéro
248
Mois de parution
mai 2021
Spécialités


Résumé

Les modèles récents d’apprentissage supervisé permettent d’atteindre de très bonne performance à un coût moindre dans les tâches liées au traitement de texte.


Dans cet article, nous allons présenter la librairie spaCy, qui s’est imposée dans l’écosystème des data scientists pour le NLP (Natural Language Processing). Un exemple concret d’extraction d’informations nous guidera pour la prise en main. Nous aborderons ensuite un sujet plus complexe : l’analyse des erreurs et comment la recherche d’incertitude permet d’augmenter la précision de manière substantielle ainsi que la satisfaction de l’utilisateur final, face à un système d’apprentissage supervisé.

Le sujet sera traité en langage Python et détaillé dans l’ordre suivant : définition de la tâche et première solution retenue, choix du modèle NER (Reconnaissance d’Entités Nommées), analyse des erreurs et quantification d’incertitude pour améliorer les résultats.

1. Problème et première approche

Le problème proposé est le suivant : extraire automatiquement des informations précises depuis un corpus de documents PDF non normalisé....

Cet article est réservé aux abonnés. Il vous reste 94% à découvrir.
à partir de 21,65€ HT/mois/lecteur pour un accès 5 lecteurs à toute la plateforme
J'en profite


Articles qui pourraient vous intéresser...

Cotation automatique d’un questionnaire manuscrit

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
115
Mois de parution
juillet 2021
Spécialités
Résumé

Suivant le public visé, l’acquisition de données peut encore se faire via un support papier pour des raisons de commodité. Le problème avec le papier, c’est que l’on peut difficilement automatiser l’analyse des données ! À moins que l’on ne se penche sur une solution mettant en œuvre la reconnaissance de symboles...

Python : comment utiliser les context managers ?

Magazine
Marque
GNU/Linux Magazine
Numéro
250
Mois de parution
juillet 2021
Spécialités
Résumé

Vous les utilisez peut être sans le savoir, ou distraitement : les context managers sont mis en œuvre grâce à la syntaxe with ... as. Ils sont peu utilisés en tant que mécanisme à part entière, mais peuvent avoir un grand intérêt dans l’architecture d’un code. Cet article va vous les présenter et vous expliquer comment les utiliser.

Petite introduction à OpenShift

Magazine
Marque
GNU/Linux Magazine
Numéro
250
Mois de parution
juillet 2021
Spécialités
Résumé

Livrer rapidement les applications et accélérer le cycle de développement logiciel est l’un des objectifs principaux de tout développeur qui souhaite se focaliser sur le développement et la conception de son code, sans avoir à se soucier des infrastructures sous-jacentes. Dans cet article, nous évoquons la plateforme Redhat OpenShift Container Platform, et nous détaillons comment déployer rapidement des applications conteneurisées de façon simple, rapide et automatisée.

Hyperautomatisation d’un serveur d’intégration continue à l’aide d’Ansible et de Podman

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
115
Mois de parution
juillet 2021
Spécialités
Résumé

Dans cette ère de l’automatisation poussée et le déploiement d’applications sur des infrastructures Cloud, la valeur d’un système se juge de plus en plus sur sa capacité à être intégralement mis en place sans intervention humaine. Nous allons donc explorer dans cet article un tel cas d’étude, en proposant d’automatiser entièrement l’installation d’un serveur d’intégration continue (Jenkins) à l’aide d’Ansible et de Podman !