EN FR

ACCUEIL ›BLOGS

Préservation des langues autochtones
-

20 avril 2020

Projet par : Dr Aminata Zerbo Sabane, Dr Tegawendé Bissyande et T. Idriss Tinto 
Université Joseph Ki-Zerbo et La Communauté Afrique Francophone des Données Ouvertes, Burkina Faso
Nom du projet: Préservation des langues autochtones 
Description du projet: Initier une feuille de route de recherche pour la préservation des langues autochtones par le biais de la collecte, de la catégorisation et de l'archivage de la traduction et de la synthèse vocale pour effectuer la traduction automatique dans les langues officielles et autochtones. 


Contexte

Dans la plupart des pays africains, peut-être plus en Afrique qu'ailleurs, la majorité des populations ne parlent pas les langues officielles; au lieu de cela, ils parlent des langues traditionnelles. Dans certains pays, cette proportion atteint 80%. En raison de cette barrière linguistique, cette grande partie de la population est pratiquement exclue de la marche de la société: ils n'ont pas accès à l'information ni à l'éducation et ne peuvent pas vraiment participer aux débats sur le développement socio-économique de leur pays.

D'un autre point de vue, nos valeurs, nos cultures, nos connaissances en tout genre et notre histoire sont véhiculées oralement dans ces langues et restent ainsi inaccessibles au reste du monde.

Objectifs

L'objectif principal du projet de préservation des langues autochtones est de contribuer à la préservation des langues locales et à l'amélioration du contenu en langue locale à travers (1) l'archivage, (2) la promotion et (3) la vulgarisation du contenu en langue locale. L'archivage permettra de conserver le contenu et les connaissances dans les langues locales. Nous collecterons et utiliserons les données existantes dans les langues locales à cette fin. La promotion se fera en exploitant la richesse de ce contenu en langue locale. Et la vulgarisation sera rendue possible en rendant ce contenu accessible dans les langues officielles. Afin d'atteindre ces objectifs, notre projet est divisé en trois parties, qui comportent toutes une étape importante de collecte et de pré-traitement des données en amont:

  • Transcription des langues locales en texte dans les langues locales
  • Traduction des langues locales vers les langues officielles (français) et vice versa
  • Synthèse vocale de textes dans les langues locales en audios dans les langues locales.

Équipe

Pour mener à bien le projet, nous avons mis en place une équipe dédiée de 10 personnes:

  • Un mentor de recherche avec une formation en IA,
  • Deux mentors en pratique avec une formation en langues locales. Le premier est un spécialiste de l'éducation en langues locales et le second est avec divers ouvrages en traduction du français vers le moore, la principale langue locale au Burkina Faso.
  • Un assistant de recherche avec une formation en linguistique. Dans ce cas, l'assistant était un étudiant dont la responsabilité était d'aider à la collecte de contenu en langues, au prétraitement des données,
  • Trois programmeurs informatiques. Dans ce cas, les programmeurs étaient des étudiants en informatique (étudiants en master et en doctorat). Chacun d'eux a en charge l'une des trois parties du projet ainsi que certaines tâches de prétraitement.

Implémentation

Pour ce projet, nous nous sommes limités à une langue locale, le mooré. Cette langue est la langue principale du Burkina Faso et est parlée par plus de la moitié de la population. Il existe également de nombreuses sources de données dans cette langue et un travail important a déjà été effectué sur les traductions du français vers cette langue, notamment dans les domaines éducatif et religieux.

(0) Collecte de données: Comme annoncé, la collecte de données est une étape importante et nécessaire pour les différentes parties du projet. C'est aussi l'une des étapes les plus difficiles. L'ouverture des données n'est pas encore obligatoire dans nos pays.

Avec l'aide inestimable de conseillers en pratique, des réunions ont été organisées avec les principales institutions, tant publiques que privées, pour explorer les données existantes et la mesure dans laquelle ces données pourraient être exploitées.

Parmi les institutions contactées, les principales sont les suivantes:

  • Fondation pour le développement communautaire / Burkina Faso (FDC-BF);
  • l'alliance biblique du Burkina Faso;
  • Fonds pour l'alphabétisation et l'éducation non formelle (FONAENF);
  • La Direction de la recherche en éducation non formelle (DRENF);
  • Le DPDMT;
  • Ecole et langue nationale en Afrique (ELAN) ;
  • Savane Média.

Nous avons ainsi pu accéder à un certain nombre de données mais pas toujours au format numérique ou pas toujours complètes. Cela a nécessité un travail de prétraitement énorme, soit pour mettre les données au format numérique, soit pour les compléter par des traductions ou des transcriptions.

L'une des premières sources de données auxquelles nous avons eu accès était la Bible de Moore sous forme de texte et d'audio. C'est cette source qui a également été utilisée après le prétraitement (découpage audio phrase par phrase ou couplet par vers, alignement des textes en Moore et en français) pour les premiers tests des différentes parties du projet.

Les travaux de collecte et de prétraitement sont toujours en cours pour enrichir nos sources de données et améliorer nos modèles.

(1) Transcription: L'écriture n'étant pas encore très populaire dans nos langues locales, nous disposons d'une grande quantité de données dans les langues locales au format audio. De plus, les personnes qui ne savent pas écrire utiliseront toujours la communication orale pour s'exprimer. L'étape de transcription du contenu audio dans les langues locales est une étape essentielle non seulement pour collecter les informations existantes, mais aussi pour recueillir ce que les gens ont à dire.

Après un état de l'art et des tests d'outils de transcription existants, l'étudiant en charge de cette partie a implémenté son modèle de transcription basé sur l'outil DeepSeepch. Il utilise les données de la Bible pour ces tests. Outre la charge de travail pour le prétraitement et les conditions de travail rendues un peu difficiles à cause de la pandémie Covid19, nous avons malheureusement eu des problèmes de capacité de calcul et travaillons avec l'un des partenaires pour augmenter les capacités des machines virtuelles louées.

(2)  Traduction: La traduction est au cœur de ce projet. Il vise à rendre l'information en langue officielle accessible aux habitants des zones rurales, mais aussi à donner accès à la richesse du contenu en langue locale.

L'étudiant en charge de cette composante a, après un état de l'art des approches de traduction existantes, appliqué des techniques classiques de traduction automatique neuronale sur des données bibliques en utilisant OpenMT. Mais les résultats n'étaient pas très bons comme on pouvait s'y attendre étant donné le manque de données de formation. Il met donc actuellement en œuvre le méta-apprentissage à l'aide de l'outil Meta-NMT. Le méta-apprentissage a été décrit dans la littérature comme étant plus performant que l'approche classique lorsqu'il y a peu de données.

Ici aussi, en plus du besoin de plus de données, nous sommes confrontés à un besoin de capacité de calcul qui devrait également être résolu avec la fourniture de machines virtuelles.

(3) Synthèse vocale: La synthèse vocale permettra, après traduction des langues officielles vers les langues locales, de mettre le contenu à disposition des populations qui ne savent pas lire mais qui pourront l'avoir en format audio. L'étudiant en charge de cette partie a également réalisé un état de l'art des outils existants dans ce domaine. Il teste actuellement différents outils et étudie différents modèles. Il a malheureusement commencé avec un peu de retard mais continuera son travail afin de pouvoir adapter un modèle et faire des tests avec les données collectées afin de pouvoir réaliser la synthèse vocale du texte en audio mooré.

Resultats

À ce stade, alors que nous venons de franchir la mi-parcours de l'exécution du projet, nous pouvons signaler qu'un certain nombre de jalons ont été franchis:

  • La collecte de données a été effectuée et est toujours en cours.
  • Le prétraitement du contenu audio et textuel ainsi que le mappage audio et textuel en Mooré et l'alignement du texte dans la correspondance Mooré et al en français ont été effectués.
  • Un modèle de transcription du mooré vers le français basé sur deepSpeech a été implémenté.
  • La traduction classique a été mise en œuvre et testée sur l'ensemble de données biblique

Principaux défis

Accès aux données

Après avoir traversé une dizaine de structures, nous avons été confrontés à la disponibilité des ressources. En effet, mis à part la Bible, certains matériels de formation et documents officiels traduits, très peu de documents étaient disponibles en moore et en français.

Les structures qui produisent du contenu Moore le font le plus souvent pour la formation ou la sensibilisation de la population analphabète. Par conséquent, ils ne produisent pas le même contenu en français. Quant aux chaînes de radio et de télévision, elles ont des interventions directement dans Moore, sans notes écrites, même pour la présentation du journal télévisé.

Cependant, nous avons trouvé beaucoup de documents imprimés, sans versions numériques et uniquement dans Moore. Pour cette phase du projet, nous avons collecté et réalisé l'alignement des données déjà existantes dans les deux langues en format numérique. Cela nous a permis de tester le modèle, et bien que cela n'ait pas abouti à des résultats concluants, nous avons identifié le problème de la disponibilité des données. Pour plus de travail, nous prévoyons de traduire les documents existants en Moore afin que nous ayons les deux versions pour continuer le travail. Nous sommes conscients qu'il s'agit d'un travail de longue haleine, mais c'est la condition indispensable pour disposer de suffisamment de données pour rendre les résultats des algorithmes intéressants.

Copyright

Un deuxième problème que nous avons rencontré était le droit d'auteur. En effet, nous n'avons pas toujours un accès direct aux auteurs, et les titulaires des documents se réservent de les partager sans leur accord. Dans d'autres cas, les documents avaient été commandés par des organisations internationales. Il fallait donc que nos interlocuteurs ici aient l'accord de ces institutions avant de nous donner accès aux données. Cela prend du temps et a retardé l'accès aux données de travail.

À long terme, nous prévoyons de réunir un groupe d'auteurs pour les sensibiliser au projet afin qu'ils puissent faciliter le plaidoyer pour le projet.

Capacité de calcul

Nous n'avons malheureusement pas de laboratoire équipé de serveurs suffisamment puissants pour faire fonctionner nos modèles. Notre partenariat avec Anptic était censé nous permettre d'utiliser des VM avec une plus grande capacité pour aller plus vite dans les tests, mais la charge administrative a également retardé la disponibilité des VM.

Ce projet a été réalisé par l'un des lauréats du Appel à propositions AI4D Africa Innovation 2019. En savoir plus sur ce que les autres gagnants ont fait ici