Vincent Labonté
Supervisé.e par : Michel Gagnon
Polytechnique Montréal
Extraction de connaissances en français basée sur une traduction des textes en anglais combinée à l’utilisation d’outils développés pour l’anglais
Plusieurs institutions gouvernementales rendent disponible sur leurs sites web un très grand volume de documents qui ne sont écrits que dans la langue officielle du pays. Or, de plus en plus ces institutions désirent transformer ces documents en une base de connaissances, déployée en un ensemble de données ouvertes intégrées au Web sémantique. C’est le cas notamment du ministère de la Culture et des Communications du Québec, qui met à la disposition du public un répertoire du patrimoine culturel du Québec, très riche en informations textuelles, mais qu’il est malheureusement difficile d’intégrer aux données des autres acteurs culturels du Québec, ou de lier à toutes les connaissances patrimoniales qui sont déjà présentes dans le réseau de données ouvertes Linked Open Data (LOD).
Plusieurs travaux ont déjà été proposés pour soutenir l’effort d’extraction de connaissances à partir de textes : des annotateurs sémantiques, qui identifient dans un document les entités qui y sont citées (personnes, organisations, etc.) et les lient à leur représentation dans une base de connaissances du LOD; des extracteurs de relations, capables d’extraire du texte des relations entre deux entités (par exemple, « X est l’auteur du roman Y »); des extracteurs d’événements et d’informations temporelles. Dans la très grande majorité des cas, ces outils ont été développés pour l’anglais, ou offrent de piètres performances lorsqu’appliqués au français.
Nous proposons donc d’explorer une approche qui consiste à produire, à partir d’un corpus de documents en français, une version équivalente traduite sur laquelle seront appliqués les outils déjà existants pour l’anglais (le service Syntaxnet de Google, par exemple). Cela implique qu’il faudra tenir compte des erreurs et inexactitudes qui résulteront de l’étape de traduction. Pour y arriver, des techniques de paraphrase et de simplification de texte seront explorées, l’hypothèse ici étant que des phrases simples sont plus faciles à traduire et que cette simplification n’aura pas d’impact majeur sur la résolution de la tâche si la sémantique est préservée lors de cette simplification. On notera aussi que certains aspects de la langue, comme l’anaphore, perturbent la traduction (le module de traduction aura du mal à choisir entre les pronoms « it » et « he » pour traduire le pronom « il »). Il faudra dans ces cas mesurer précisément leur impact et proposer des solutions de contournement.
En bref, le projet proposé permettra de déterminer dans quelle mesure les services de traduction actuellement disponibles préservent suffisamment le sens du texte pour pouvoir exploiter des outils développés pour une autre langue. L’hypothèse que nous désirons valider est que leurs lacunes peuvent être comblées par certains prétraitements du texte original, et que ces prétraitements peuvent être implémentée à faibles coûts (en temps et en ressources).