HOME › BLOGS

AI4D – African Language Dataset Challenge // Défi AI4D – Jeu de Données sur les Langues Africaines

November 5, 2019

Getting started with programming is easy, a well-trodden path. Whether it be picking up the skill itself, a new programming language or venturing into a new domain, like Natural Language Processing (NLP), you can be sure that a variety of beginner tutorials exist to get you started. The ‘Hello World!’s, as you may know them. 

Where NLP is concerned, some paths tend to be better trodden than others. It is infinitely easier to accomplish an NLP task, say Sentiment Analysis, in English than it is to do the same in my mother tongue, Luhya. This reality is an extrapolation of the fact that the languages of the digital economy are major European languages.

The gap between languages with plenty of data available on the Internet and those without is ever increasing. Pre-trained language models in recent times have led to significant improvement in various NLP tasks and Transfer Learning is rapidly changing the field. While leading architectures for pre-training models for Transfer Learning in NLP are freely available for use, most are data-hungry. The GPT-2 model, for instance, used millions, possibly billions of text to train. (ref)

The only way I know how to begin closing this gap is by creating, uncovering and collating datasets for low resource languages. With the AI4D – African Language Dataset Challenge, we want to spur on some groundwork. While Deep Learning techniques now make it possible to dream of a future where NLP researchers and practitioners on the continent can easily innovate in the languages their communities speak, a future where literacy and mastery of a major European language is no longer a prerequisite to participation in the digital economy, these techniques require data. Data that can only be created by the communities that speak these languages, by individuals that have the technical skills, by those of us who understand the importance of this work and have the desire to undertake it.

The challenge will run for 5 months(November 2019 to March 2020), with cash prizes of USD 500 awarded as an incentive to the top 2 submissions each month. This is the first of a two-phase challenge. In this first phase, the creation of datasets. We would like to see some of these datasets developed for specific downstream tasks but this is not necessary. 

We have however earmarked four downstream NLP tasks and anticipate that one(or two) of these will be the framing of the second phase of this challenge; Sentence Classification, Sentiment Analysis, Question Answering and Machine Translation. Other downstream tasks that participants may be interested in developing datasets for, or have already developed datasets for, are also eligible. Our intention is that the datasets are kept free and open for public use under a Creative Commons license once the challenge is complete.

The challenge is hosted on Zindi, head on over to this page for full details, the prize money provided through a partnership between the International Development Research Centre (IDRC) and the Swedish International Development Cooperation Agency (SIDA), the facilitation of the challenge through combined efforts of the Artificial Intelligence for Development Network and the Knowledge 4 All Foundation(K4All), and finally, our expert panel that have volunteered their time to undertake the difficult qualitative aspect of dataset assessment; Jade Abbott – RetroRabbit, John Quinn – Google AI/Makerere University, Kathleen Siminyu – AI4D-Africa, Veselin Stoyanov – Facebook AI and Vukosi Marivate – University of Pretoria. 

The rest, we leave up to the community.  

Contribution by Kathleen Siminyu, AI4D-Africa Network Coordinator

Photo by Eva Blue on Unsplash.


Se lancer dans la programmation est facile, c’est un chemin bien balisé. Qu’il s’agisse de l’acquisition de la compétence elle-même, un nouveau langage de programmation ou vous aventurer dans un nouveau domaine, tel que le traitement du langage naturel (NLP), vous pouvez être sûr qu’il existe une variété de tutoriels pour débutants pour vous aider à démarrer. Les “Hello World!”, Comme vous les connaissez peut-être.

En ce qui concerne le traitement des langages (NLP) , certains chemins ont tendance  à être mieux balisés que d’autres. Par exemple en analyse sentimental, il est beaucoup plus facile d’accomplir une tâche de NLP  que de faire de même dans ma langue maternelle, Luhya. Cette réalité est une extrapolation du fait que les langues de l’économie numérique sont en majeur partie des  langues européennes.

L’écart entre les langues contenant beaucoup de données disponibles sur Internet et celles qui n’en possèdent pas ne cesse de se creuser. Les modèles linguistiques pré-entraînés  de ces dernières années ont conduit à une amélioration significative de diverses tâches du traitement des langages (NLP) et l’apprentissage par transfert (Transfer Learning) change rapidement le domaine. Bien que les principales architectures pour les modèles de pré-entraînés  à l’apprentissage par transfert en NLP soient librement utilisables, la plupart ont besoin de beaucoup de données. Le modèle GPT-2, par exemple, utilise des millions, voire des milliards de textes pour apprendre . (ref)

La seule façon pour moi de commencer à combler cet écart consiste à créer, à découvrir et à assembler des ensembles de données pour des langages disposant de peu de ressources. Avec le défi AI4D – Jeu de données sur les langues africaines, nous souhaitons stimuler le travail préparatoire. Bien que les techniques d’apprentissage en profondeur permettent désormais de rêver d’un avenir où les chercheurs et les praticiens en NLP  du continent pourront facilement innover dans les langues parlées par leurs communautés, un avenir où l’alphabétisation et la maîtrise d’une grande langue européenne n’est plus une condition préalable à la participation à la l’économie numérique, ces techniques nécessitent des données. Des données qui ne peuvent être créées que par les communautés qui parlent ces langues, par des personnes possédant les compétences techniques, par ceux d’entre nous qui comprenons l’importance de ce travail et qui souhaitent le faire.

Le défi durera 5 mois (de novembre 2019 à mars 2020), avec des prix en espèces de 500 USD attribués sous forme d’encouragement aux 2 meilleurs projets chaque mois. C’est le premier d’un défi en deux phases. Dans cette première phase, la création de jeux de données. Nous aimerions voir certains de ces jeux de données développés pour des tâches spécifiques en aval, mais ce n’est pas nécessaire.

Nous avons toutefois réservé quatre tâches du NLP  en aval et prévoyons qu’une (ou deux) d’entre elles constitueront le cadre de référence de la deuxième phase de ce défi. Classification de textes , analyse des sentiments, réponses aux questions et traduction automatique. Les autres tâches en aval pour lesquelles les participants pourraient  être intéressés par le développement de jeux de données ou pour lesquels ils ont déjà développé des jeux de données sont également éligibles. Notre intention est que les jeux de données restent libres et ouverts au public sous une licence “Creative Commons” une fois le challenge terminé.

Le défi est hébergé sur Zindi, rendez-vous sur cette page pour obtenir tous les détails, l’argent du prix fourni grâce au partenariat entre le Centre de recherches pour le développement international (CRDI) et l’Agence suédoise de coopération pour le développement international (SIDA), la facilitation du défi par les efforts combinés du réseau de l’intelligence artificielle pour le développement et de la fondation Knowledge 4 All (K4All), et enfin de notre groupe d’experts qui ont offert de leur temps pour aborder le difficile aspect qualitatif de l’évaluation d’un jeu  de données; Jade Abbott – RetroRabbit, John Quinn – Google AI / Université Makerere, Kathleen Siminyu – AI4D-Africa, Veselin Stoyanov – Facebook AI et Vukosi Marivate – Université de Pretoria.

Le reste, nous laissons à la communauté.

Contribution de Kathleen Siminyu, Coordinatrice du réseau AI4D-Africa

Photo par Eva Blue sur Unsplash.