Centre Marc Bloch: Mohamed Khemakhem

Mohamed Khemakhem | Assoziierter Doktorand

Ehemaliges Mitglied

Dynamiken und Erfahrungen der Globalisierung

Centre Marc Bloch, Friedrichstraße 191, D-10117 Berlin

E-Mail: mohamed.khemakhem ( at ) inria.fr Tel: +49(0) 30 / 20 93 70700

Mutterinstitut : Paris Diderot University - Paris 7 | Position : Doktorand | Fachbereich : Informatik |

Lebenslauf als Datei

Titel der Dissertation

Standardbasierte lexikalische Modelle für automatisch strukturierte Dictionaries

Zusammenfassung der Dissertation

Dieses Projekt ist motiviert durch die bestimmende Rolle lexikalischer Ressourcen in verschiedenen Disziplinen, die sich mit natürlichen Sprachen befassen. Insbesondere die Digitalisierung lexikalischer Ressourcen in den letzten Jahrzehnten hat die Frage der Strukturierung ihrer zu dekodierenden und zu nutzenden Inhalte aufgeworfen.

Eine umfangreiche Arbeit wurde bereits von Standardisierungsorganisationen geleistet, um spezielle Modelle und Praktiken für die Darstellung dieser wichtigen Sprachressourcen zu finden. Die führenden Standards in dieser Richtung sind die Text Encoding Initiative (TEI) und das Lexical Markup Framework (LMF). Während TEI einen gut etablierten Rahmen für die Strukturierung einer Vielzahl von Texten bietet und ein ganzes Kapitel für lexikalische Ressourcen widmet, hat LMF einen fokussierten Modellierungsbereich für lexikalische Ressourcen und bietet ein Metamodell für die Darstellung verschiedener linguistischer Ebenen. Angesichts der Ähnlichkeiten und Besonderheiten ihrer Ansätze und der von ihnen vorgeschlagenen Kodierungsalternativen unterstütze ich die Hypothese der gegenseitigen Verbesserung, die TEI und LMF füreinander darstellen.

Darüber hinaus besteht nach wie vor ein großer Bedarf an Techniken zur Anwendung dieser Normen für die Strukturierung bestehender digitalisierter lexikalischer Ressourcen. Dieser Forschungsschwerpunkt erfordert mehr Anstrengungen, um die komplexen Herausforderungen zu bewältigen, die er für die damit verbundenen Aufgaben des Language Engineering darstellt.

Ziel dieses Projekts ist es, die Forschung auf dem Gebiet der Standardisierung und Strukturierung lexikalischer Ressourcen voranzutreiben. Ich plane, eine TEI-LMF-Anpassung vorzuschlagen, indem ich die Zuordnung zwischen den beiden Standards studiere. Darüber hinaus werde ich den Einsatz von maschinellen Lerntechniken untersuchen, um automatisch Strukturen in verschiedenen Dictionary-Stichproben zu erkennen und TEI-LMF-spezifische Ressourcen zu generieren.

Betreuer

Dr. Laurent Romary

Automatische Extraktion von strukturellen und lexikalischen Informationen aus klassischen digitalisierten Dictionaries

Mein Doktorarbeit Thema ist die automatische Extraktion lexikalischer Informationen aus alten digitalisierten Dictionaries und die Generierung von strukturierten und standardisierten elektronischen Versionen davon. Dieses Forschungsprojekt ist Teil der Bemühungen, den Wert des menschlichen Erbes zu steigern und die fortgeschrittene Nutzung einer breiten Palette von Ressourcen mit lexikalischer oder enzyklopädischer Struktur zu ermöglichen. Mein Forschungsziel ist es, Fragen nach der Generizität und Skalierbarkeit des automatischen Analyse- und Standardisierungsansatzes für solche Ressourcen zu beantworten. Die entwickelten Techniken werden in die europäischen digitalen geisteswissenschaftlichen Plattformen integriert, um die Forscher in diesem neuen Bereich zu unterstützen.

Publikationen

Eine vollständige Liste meiner wissenschaftlichen Publikationen finden Sie unter meinem HAL-Profil.