_Projet



Amélioration endogène des contextes distributionnels

La prise en compte des unités terminologiques, qui véhiculent une part importante des connaissances d’un domaine de spécialité, induit une dispersion des données pénalisant les méthodes distributionnelles. Pour pallier cette dispersion, différentes stratégies endogènes reposant sur la généralisation et la composition des unités terminologiques seront développées.

Amélioration exogène des contextes distributionnels

Les corpus en domaine de spécialité sont par nature d’une taille bien plus modeste que les corpus de langue générale. En effet, exception faite du domaine médical en langue anglaise qui permet d’accéder à des corpus spécialisés de plusieurs milliards de mots, les corpus en domaine de spécialité sont d’une taille bien plus modeste. Pour pallier cette difficulté, nous proposons d’enrichir les contextes distributionnels en exploitant des ressources externes : des corpus ou des connaissances issues de terminologies. Tous ces cas mobilisent des méthodes d’adaptation au domaine.
Thèse de Yizhe Wang - Construction du sens des unités linguistiques spécialisés : composition et distribution (sous la direction de Béatrice Daille du LS2N et Nabil Hathout de CLLE-ERSS)
Thèse de Mérième Bouhandi - Dispersion des données en analyse sémantique de domaines de spécialité (sous la direction de Thierry Hamon du LIMSI et Emmanuel Morin du LS2N)

Amélioration de la nature des contextes distributionnels

La prise en compte de la spécificité des corpus spécialisés impose aussi de considérer la nature des contextes distributionnels, avec deux principaux axes. Par l’application d’analyses linguistiques plus profondes, le premier vise à donner à ces contextes une forme à la fois plus riche et plus sélective, ce qui contribuera à compenser une certaine rareté informationnelle. Le second axe se focalise quant à lui sur le mode de représentation des contextes distributionnels et sur les processus permettant de l’adapter suivant le cadre d’usage de ces contextes, que ce soit pour les améliorer ou les utiliser d’un point de vue applicatif.
Thèse de Hicham El Boukkouri - Connaissances a priori et adaptation au domaine pour la construction de plongements lexicaux en domaine spécialisé (sous la direction d'Olivier Ferret du CEA LIST, Thomas Lavergne du LIMSI et Pierre Zweigenbaum du LIMSI)