SIGLé 2010
Lisez-moi : Sommaire
Liste des Fichiers (encodage UTF8)
Programme principal
- gramProp.pl
Code prolog, noyau du système SIGLé, réalisant la détection des propositions du français à partir d'un résultat de chunking
Commande (swi-prolog) : analyser('Fichier_source.txt', 'Fichier_cible.txt').
(L'exemple de Fichier_souce est "Exemple/Exemple_source.txt" et celui de Fichier_cible est "Exemple/Exemple_cible.txt")
Scripts de post-traitement
- pl2prop
Script transformant le résultat Prolog en format xml avec des textes
Commande : ./pl2prop Fichier_cible.txt, Fichier_chunk.txt
(L'exemple de Fichier_chunk est "Exemple/Exemple_chunk.txt")
Résultat : le script fournit le fichier résultat nommé "prop.xml", affichable sous la forme de boîtes à l'aide de la feuille de style "fstyPROP.css" (cf. "Comment lire les fichiers prop.xml". L'exemple de prop.xml est "Exemple/Exemple_cible_prop.xml")
- preMizole
Script transformant le premier format xml en deuxième format xml intermédiaire
Commande : ./preMizole prop.xml, prop2.xml
(L'exemple de prop2.xml est "Exemple/Exemple_cible_prop2.xml")
- Répertoire PreMizole2
- prop2xml (Fichier exécutable C++, complilé sous GCC 4.2.1 (Mac OS 10.6.2))
Programme transformant le deuxième format xml en format xml final (cf. "Comment lire les fichiers prop3.xml")
Commande : ./prop2xml prop2.xml, prop3.xml
(L'exemple de prop3.xml est "Exemple/Exemple_cible_prop3.xml")
Fichiers d'exemple
- Répertoire Exemple
Répertoire contenant un exemple de l'ensemble des fichiers sources et résultats d'analyse
- Exemple_chunk.txt
Fichier contenant le texte segmenté en chunk
- Exemple_source.txt
Fichier entré pour SIGLé, créé à partir de "Exemple_chunk.txt"
- Exemple_cible.txt
Fichier sorti du SIGLé, résultat d'analyse du fichier "Exemple_source.txt"
- Exemple_cible_prop.txt
Fichier contenant le texte segmenté en propositions, créé par le script "pl2prop" à partir de "Exemple_cible.txt" et "Exemple_chunk.txt", affichable sous la forme de boîtes à l'aide de la feuille de style "fstyPROP.css" (cf. "Comment lire les fichiers prop.xml")
- Exemple_cible_prop2.txt (afficher le code source)
Fichier contenant le texte segmenté en propositions dans un format xml intermédiaire, créé par le script "preMizole" à partir de "Exemple_cible_prop.xml"
- Exemple_cible_prop3.txt (afficher le code source)
Fichier contenant le texte segmenté en propositions au format xml, créé par le programme "prop2xml" à partir de "Exemple_cible_prop2.xml" (cf. "Comment lire les fichiers prop3.xml")
- fstyPROP.css
Feuille de style permettant l'affichage du résultat sous la forme de boîtes
Comment lire les fichiers "prop.xml"
[ ex. Exemple/Exemple_cible_prop.xml ]
- Toutes les phrases sont encadrées par une ligne jaune et précédées par leur numéro d'identification
- Toutes les sous-phrases détectées sont encadrées par une ligne fine noire
- Toutes les subordonnées sont encadrées avec le connecteur qui les introduit, sur un fond bleu, par une ligne épaisse de différente couleur selon leur type :
- bleu : subordonnées déterminantes (relatives ou complétives déterminant le GN)
- noire (épaisse) : subordonnées post-verbales (complétives ou interrogatives)
- rouge : subordonnées périphériques (circonstancielles)
- verte : subordonnées nominales dans une position autre que post-verbale (relatives sans antécédant ou interrogatives)
- grise : subordonnées détachées-insérées (incidentes ou incises)
- Les éléments extra-prédicatifs détachés en tête sont encadrées par une ligne épaisse orange
- Les phrases dont l'analyse a échoué sont encadrées par une ligne fine rose
- Note : on peut consulter le résultat plus précis (étiquettes des mots et des chunks) en affichant le code source de la page
Comment lire les fichiers "prop3.xml"
[ ex. Exemple/Exemple_cible_prop.xml (afficher le code source) ]
Signification des balises
- s : phrases
- id : numéro d'identification
- nbprop : nombre de propositions contenues
- prop : propositions
- id : numéro d'identification
- pere : numéro d'identification de la proposition régissante
- fils : numéros d'identification des propositions régies, séparés par point-virgule
- etq : type de proposition
- racine : proposition racine (principale)
- propcrd : proposition coordonnée
- subR : subordonnée déterminante (relative)
- subP : subordonnée périphérique (circonstancielle)
- subQ : subordonnée post-verbale (complétive ou interrogative)
- subSN : subordonnées nominales dans une position autre que post-verbale (relatives sans antécédant ou interrogatives)
- Inc : subordonnée détachée-insérée (incidente ou incise)
- ED : élément extra-prédicatif détaché en tête
- non_proposition : structure sans verbe ou phrase dont l'analyse a échoué
- phrid : numéro d'identification de la phrase à laquelle elle appartient
- txt1 : texte constituant la proposition
- Les propositions subordonnées qu'elle contient et qui sont extraites sont remplacées par une séquence [@TYPE], TYPE indiquant le type de subordonnée extraite (ex. [@subQ] = subordonnée post-verbale)
Publications concernées
- Typologie des subordonnées et des connecteurs en vue de la détection automatique des propositions syntaxiques du français, Description linguistique pour le traitement automatique du français, Cahiers du Cental, 2009 (Étude linguistique)
- Détection automatique des propositions syntaxiques du français, TALN 2006, Louvain (Belgique), 2006 (Aspect informatique)
Pour des descriptions détaillées du système, merci de consulter dans ma thèse les sections concernées suivantes :
- Ch. 9 : NOTRE SYSTÈME DE DÉTECTION AUTOMATIQUE DES PROPOSITIONS FRANÇAISES : SIGLé
- Annexe B : GRAMMAIRE POUR LA DÉTECTION DES PROPOSITIONS DU FRANÇAIS
- Annexe C : SIGLé
Créé le 01 mars 2010
Yayoi NAKAMURA-DELLOYE
Page perso : www.yayoi.fr
yayoi(a)yayoi POINT fr
postdoctorante
Équipe/projet ALPAGE, INRIA-Rocquencourt