BOITES A OUTIL 1 ET 2

Notre projet pour ce semestre se résume comme suit:





Le travail est composé de 4 étapes.
BAO 1

Notre corpus de travail est constitué de fils RSS du journal le monde dont on aura la version en XML et en Txt pour chaque article récupérée. Les fils RSS sont les flux d'informations gratuites sur des sites internet dont nous pouvons obtenir le titre, l'article, son résumé et d'autres liens qui peuvent se joindre à l'article.
Le format du fil RSS est en fichier XML qui a sa propre structure, nous verrons ci-après ses caractéristiques:
- Déclaration de fichier xml
< ?xml version= ’1.0’  encoding=’UTF-8’ ?> 
Nous avons une "Balise channel" qui donne une information sur le type d’information  qu’on va rencontrer dans le RSS ainsi que sa version.
</rss> : fin du RSS
-Contenu: les balises contenant du texte
<title>
<description>

Le BAO 1 sera donc une étape qui se chargera de la filtration des éléments textes qui nous intéressent dans les fils RSS et du nettoyage des textes. Nous pouvons le traiter à partir de 2 scripts:




1ère méthode:  nous faisons appel à XML RSS pour faire le travail d’extraction des parties textes de notre corpus.

Voici donc l’aperçu des fichiers résultats en TXT et en XML.




2ème méthode script:  nous mettons en oeuvre toutes les procédures de filtration et de nettoyage à partir des expressions régulières (REGXP).
Nous commençons d'abord par traiter un seul fichier RSS.

A- Script traitant un seul fichier RSS



Et nous obtenons un fichier de sortie TXT.




B- Script traitant l'ensemble d'un repértoire RSS



RESULTATS




BAO 2

Méthode 1 -TREETAGGER
La première méthode consiste à faire appel à treetager (lien  vers le site de treetagger)   qui nous permet de faire l’étiquetage des contenus textuelles des fichiers XML obtenus dans BAO1 . Nous aurons donc en sortie des fichiers XML taggés à l'aide d'un script fourni  "treetagger2xml".  
Cette étiquetage consiste à extraire chaque mot du texte et à en faire une étiquetage MORPHOSYNTAXIQUE. Les mots sont donc associés à des étiquettes selon leur fonction dans la phrase en cas d’ambiguïté, on aura donc par exemple des ADJ - NOM...






 Fichiers Resultats
DOSSIER DE TRAVAIL





APPERCUE DES FICHIERS

Amélioration du fichier de sortie de BAO1



ÉTIQUETAGE TREETAGER