Mohamed Khemakhem | Doctorant associé
Ancien Membre
Institution principale
:
Paris Diderot University - Paris 7
|
Position
:
Doctorant
|
Discipline
:
Informatique
|
Titre de la thèse
Modèles lexicaux normalisés pour la structuration automatiques des dictionnaires numérisésRésumé de la thèse
Ce projet est motivé par le rôle déterminant des ressources lexicales dans diverses disciplines traitant des langues naturelles. En particulier, la numérisation des ressources lexicales au cours des deux dernières décennies a soulevé la question de la structuration de leur contenu à décoder et à exploiter.
Les organismes de normalisation ont déjà effectué un travail considérable pour trouver des modèles et des pratiques dédiés à la représentation de ces ressources linguistiques clés. Les principales normes en ce sens sont l'Initiative de codage de texte (TEI) et le Cadre de balisage lexical (LMF). Tandis que TEI offre un cadre bien établi pour structurer un large éventail de textes et consacre un chapitre entier aux ressources lexicales, LMF a une portée ciblée pour la modélisation des ressources lexicales et offre un méta-modèle pour présenter différents niveaux linguistiques. Compte tenu des similitudes et des spécificités de leurs approches et des alternatives d'encodage qu'elles proposent, je soutiens l'hypothèse de l'amélioration mutuelle que TEI et LMF présentent l'une pour l'autre.
En outre, il existe encore un besoin important de techniques pour appliquer ces normes à la structuration des ressources lexicales numérisées existantes. Cet axe de recherche nécessite plus d'efforts pour surmonter les défis complexes qu'il présente pour les tâches d'ingénierie linguistique connexes.
L'objectif de ce projet est de faire progresser la recherche dans le domaine de la normalisation et de la structuration des ressources lexicales. J'envisage de proposer une personnalisation de TEI-LMF en étudiant la correspondance entre les deux standards. De plus, j'étudierai l'utilisation de techniques d'apprentissage automatique dans le but de détecter automatiquement des structures dans divers échantillons de dictionnaires et de générer des ressources personnalisées TEI-LMF.
Directeur de thèse
Extraction automatique d’informations structurelles et lexicales à partir de dictionnaires classiques numérisés
Publications
Une liste exhaustive de mes publications scientifiques est disponible sous mon profil HAL