Annotation microsyntaxique

Description

L’annotation syntaxique comprend conceptuellement trois niveaux d’analyse : morphosyntaxique, microsyntaxique et macrosyntaxique.

L’annotation morphosyntaxique correspond à un découpage en mots et, pour chaque mot, sont spécifiés le lemme et la partie du discours. Cette annotation est distribué avec l’annotation microsyntaxique.

L’annotation microsyntaxique s’articule autour de (i)  un arbre de dépendance entre les mots avec une distinction sujet, objet, oblique, ajout pour les dépendants d’un verbe et un marquage des prédicats complexes; et (ii) l’annotation des entassements. Les entassements font l’objet d’une annotation fonctionnelle à sept valeurs : coordination standard, coordination hyperonymique, intensification, reformulation, disfluence, double formulation et négociation. Tous les mots reçoivent une fonction syntaxe, y compris les segments disfluents. Nous avons ainsi une annotation fine des entassements paradigmatiques, incluant coordinations, reformulations et disfluences.

L’annotation microsyntaxique a été encodée en dépendance. Une version en constituance en est dérivée. Voir aussi la version en flux de dépendance.

Une annotation macrosyntaxique indépendante donne le découpage en unités illocutoires avec, pour chacune, l’identification du noyau (portant la force illocutoire), des pré- et post-noyaux, des parenthèses et des marqueurs de discours. Certaines relations syntaxiques sont prises en charge au niveau macrosyntaxique (par exemple, simplement dans l’exemple suivant est considéré comme non régi et sera donc indépendant au niveau microsyntaxique).

Tutoriels / Guides d’annotation

Télécharger la version française

Download English version

1) Annotation en dépendance

Exemple: simplement vous êtes un peu plus jeune que moi

Copie écran Arborator

Dependency Treebank au format tabulaire (descriptif inclus)

1) graphe de dépendance complet avec plusieurs types de gouverneurs pour un lexème dans les entassements :

– Archive

 

2) arbre de dépendance extrait du graphe (par simplification, format CONLL) : Archive

Visualiser le corpus avec Arborator : http://arborator.ilpga.fr/project.cgi?project=Rhapsodie

2) Flux de dépendance

Pour chaque intermot, nous donnons la liste des dépendances qui lient un mot à gauche à un mot à droite de cette position.
Exemple et fichier à venir.

3) Annotation en constituance

L’annotation en dépendance est calculée automatiquement à partir de l’annotation en dépendance. Les constituants sont les projections des têtes. La projection d’un verbe fini est S et celle d’un infinitif ou d’un participe VP.
Pour les structures non projectives, les constituants sont placés dans l’ordre de leur tête et ne repectent pas l’ordre linéaire des mots (voir exemple).
Exemple : simplement vous êtes un peu plus jeune que moi
(AdvP (Adv simplement))
(S
(Cl vous)
(V êtes)
(AP
(AdvP
(NP (D un) (N peu))
(Adv plus)
(CP (CS que) (NP (Pro moi))))
(Adj jeune)))
Constituency Treebank : Télécharger