Centre Marc Bloch: Member Detail

Mohamed Khemakhem | Doctorant associé

Ancien Membre

Dynamiques et expériences de la globalisation

Centre Marc Bloch, Friedrichstraße 191, D-10117 Berlin

Email: mohamed.khemakhem ( at ) inria.fr Tél: +49(0) 30 / 20 93 70700

Institution principale : Paris Diderot University - Paris 7 | Position : Doctorant | Discipline : Informatique |

Fichier avec CV

Titre de la thèse

Modèles lexicaux normalisés pour la structuration automatiques des dictionnaires numérisés

Résumé de la thèse

Ce projet est motivé par le rôle déterminant des ressources lexicales dans diverses disciplines traitant des langues naturelles. En particulier, la numérisation des ressources lexicales au cours des deux dernières décennies a soulevé la question de la structuration de leur contenu à décoder et à exploiter.

Les organismes de normalisation ont déjà effectué un travail considérable pour trouver des modèles et des pratiques dédiés à la représentation de ces ressources linguistiques clés. Les principales normes en ce sens sont l'Initiative de codage de texte (TEI) et le Cadre de balisage lexical (LMF). Tandis que TEI offre un cadre bien établi pour structurer un large éventail de textes et consacre un chapitre entier aux ressources lexicales, LMF a une portée ciblée pour la modélisation des ressources lexicales et offre un méta-modèle pour présenter différents niveaux linguistiques. Compte tenu des similitudes et des spécificités de leurs approches et des alternatives d'encodage qu'elles proposent, je soutiens l'hypothèse de l'amélioration mutuelle que TEI et LMF présentent l'une pour l'autre.

En outre, il existe encore un besoin important de techniques pour appliquer ces normes à la structuration des ressources lexicales numérisées existantes. Cet axe de recherche nécessite plus d'efforts pour surmonter les défis complexes qu'il présente pour les tâches d'ingénierie linguistique connexes.

L'objectif de ce projet est de faire progresser la recherche dans le domaine de la normalisation et de la structuration des ressources lexicales. J'envisage de proposer une personnalisation de TEI-LMF en étudiant la correspondance entre les deux standards. De plus, j'étudierai l'utilisation de techniques d'apprentissage automatique dans le but de détecter automatiquement des structures dans divers échantillons de dictionnaires et de générer des ressources personnalisées TEI-LMF.

Directeur de thèse

Dr. Laurent Romary

Extraction automatique d’informations structurelles et lexicales à partir de dictionnaires classiques numérisés

Mon sujet de thèse porte sur l’extraction automatique des informations lexicales dans des anciens dictionnaires numérisés et en générer des versions électroniques structurées et normalisées. Ce projet de recherche s’inscrit dans le cadre des efforts visants la valorisation de l'héritage humain et permettants une exploitation avancée d’un large éventail de ressources ayant une structure lexicale ou encyclopédique. Mon objectif de recherche est de répondre aux questions de généricité et évolutivité de l’approche de l’analyse automatique et de normalisation de telles ressources. Les techniques développées seront intégrées dans des plate-formes Européennes d'humanités numériques ayants pour objectif le soutien des chercheurs dans ce domaine émergent.

Publications

Une liste exhaustive de mes publications scientifiques est disponible sous mon profil HAL