ACCUEIL ›BLOGS

Revue de décembre; AI4D- Défi des ensembles de données sur les langues africaines // Bilan de décembre; Défi AI4D - Jeu de Données sur les Langues Africaines
-

4 février 2020

La clôture de 2019 a marqué le deuxième mois de la Défi des ensembles de données africains AI4D, un effort visant à encourager la découverte et la création d'ensembles de données en langue africaine pour une meilleure représentation en PNL. Ce défi est hébergé sur Autres et est en cours depuis le 1er novembre. Chaque mois, nous faisons le point et attribuons un total de 1000 USD aux deux soumissions les plus remarquables.

En décembre, ces deux étaient les suivants;

  • Un ensemble de données Yoruba soumis par David Adelani. Cette soumission a été préparée par trois personnes, David, Damilola Adebonojo et Omo Yooba, ces deux derniers étant des contributeurs majeurs de Yoruba pour Global Voices Lingua, un mouvement qui vise à relier les mondes et à amplifier les voix en traduisant des histoires dans des dizaines de langues. En plus d'inclure certaines des nouvelles du site Web Global Voices, ils ont traduit plusieurs chapitres d'un livre, obtenu des phrases parallèles d'un compte Twitter qui publie des proverbes yoruba, traduit une partie d'un dialogue de film trouvé sur YouTube et les a complétés avec des phrases multi-domaines contenant des termes scientifiques et médicaux pour travailler vers un ensemble de données représentatif.
  • Une soumission Fongbe composée d'ensembles de données préparés pour deux tâches; 
    • Traduction automatique Fongbe-Français avec des données provenant de traductions de la Bible, grattage d'un site Web et traduction d'un livre disponible gratuitement en ligne.
    • Données de transcription automatique de la parole composées d'étiquettes de phonèmes, de phrases audio à un seul locuteur ainsi que d'audios conversationnels à plusieurs haut-parleurs.

Nous avons reçu 6 soumissions en décembre, composées de données provenant de 4 langues, le fongbe, l'igbo, le swahili et le yoruba. Cela porte notre total linguistique global, en tenant compte des soumissions de novembre et décembre, à 6; Fongbe, Hausa, Igbo, Swahili, Wolof et Yoruba.

Nous avons observé un nouveau processus de collecte de données qui impliquait d'abord de numériser le texte d'un livre contenant une collection de contes populaires, puis de les numériser à l'aide de Logiciel de reconnaissance de texte de Google pour la reconnaissance optique de caractères (OCR). Il y a eu également une soumission notable de noms Igbo, une ressource précieuse qui peut être incorporée dans la tâche de reconnaissance des entités nommées. Pour en savoir plus sur les autres techniques permettant de créer des ensembles de données, assurez-vous de vérifier la Tour d'horizon de novembre ici.

Alors que nous commençons l'évaluation des soumissions de janvier, nous continuons d'être impressionnés par le calibre des ensembles de données soumis et les efforts déployés pour leur création. 

Ce travail nous pousse activement à réfléchir plus profondément aux diverses implications sur le droit d'auteur de certaines de ces sources et processus de collecte de données et à la modalité de rendre finalement toutes ces données ouvertes. En plus du choix du jeu de données à utiliser pour une tâche de Machine Learning dans la deuxième phase de ce défi, car chaque mois nous rapproche de la fin de la phase de création du jeu de données.

Contribution par:
Kathleen Siminyu, coordinatrice du réseau AI4D-Afrique
Sackey Freshia, Université d'agriculture et de technologie Jomo Kenyatta
Daouda Tandiang Djiba, GalsenAI


La fin de l'année 2019 a marqué le deuxième mois du défi Défi des ensembles de données africains AI4D, un effort visant à encourager la découverte et la création de jeux de données sur les langues africaines pour une meilleure représentation en PNL. Ce défi est hébergé sur Autres et se déroule depuis le 1er novembre. Chaque mois, nous faisons le point et attribuons un total de 1000 USD aux deux meilleures soumissions.

En décembre, il s’exploite des deux suivantes;

  • Un jeu de données Yoruba soumis par David Adelani. Cette soumission a été réalisée par trois personnes, David, Damilola Adebonojo et Omo Yooba, ces deux derniers étant des contributeurs yorubas majeurs pour Global Voices Lingua, un mouvement qui vise à rapprocher les mondes et à amplifier les voix en traduisant des histoires dans des suite de langues. En plus d'inclure certains des articles du site web de Global Voices, ils ont traduit plusieurs chapitres d'un livre, obtenu des phrases parallèles d'un compte Twitter qui publie des proverbes yorubas, traduit une partie d'un dialogue de film trouvé sur YouTube et complété ces derniers par des phrases multi-domaines contenant des termes scientifiques et médicaux pour travailler sur un jeu de données représentatif.
  • Une soumission Fongbe composée d'un jeu de données préparées pour deux tâches; 
    • La traduction automatique Fongbe-francais avec des données provenant des traductions de la Bible, en grattant un site web et en traduisant un livre disponible gratuitement en ligne.
    • Données de transcription automatique de la parole comprenant des étiquettes de phonèmes, des phrases audio à un seul locuteur ainsi que des audios conversationnels à plusieurs découverts.

Nous avons reçu 6 soumissions en décembre, composées de données provenant de 4 langues, le fongbe, l'igbo, le swahili et le yoruba. Cela porte à 6 le nombre total de langues, en tenant compte des contributions de novembre et de décembre: le fongbe, le haoussa, l'igbo, le swahili, le wolof et le yoruba.

Nous avons un nouveau processus de collecte de données qui consistait à scanner le texte d'un livre contenant un ensemble de contes populaires, puis à numériser ces derniers à l'aide du logiciel de reconnaissance de texte de Google pour la reconnaissance optique de caractères (OCR). 

Il y a également eu une soumission notable de noms Igbo, une ressource précieuse qui peut être incorporée dans la tâche de reconnaissance des entités désignées. Pour en savoir plus sur les autres techniques de création de jeu de données, consultez le CV de novembre ici.

Alors que nous commençons l'évaluation des soumissions de janvier, nous continuons à être impressionnés par la qualité des jeux de données soumis et par les efforts déployés pour leur création. 

Ce travail nous met au défi de réfléchir plus en profondeur aux diverses implications en matière de droits d'auteur de certaines de ces sources et de processus de collecte de données et à la modalité de rendre enfin toutes ces données ouvertes. Outre le choix de l'ensemble de données à utiliser pour une tâche d'apprentissage automatique dans la deuxième phase de ce défi, puisque chaque mois nous rapproche de la fin de la phase de création de l'ensemble de données.

Contribution de :
Kathleen Siminyu, Coordonnatrice du réseau AI4D-Afrique
Sackey Freshia, Université d'agriculture et de technologie Jomo Kenyatta
Daouda Tandiang Djiba, GalsenAI