ACCUEIL ›BLOGS

AI4D - African Language Dataset Challenge // Défi AI4D - Jeu de Données sur les Langues Africaines
-

5 novembre 2019

Démarrer avec la programmation est facile, un chemin bien tracé. Qu'il s'agisse d'acquérir la compétence elle-même, d'un nouveau langage de programmation ou de s'aventurer dans un nouveau domaine, comme Traitement du langage naturel (PNL), vous pouvez être sûr qu'il existe une variété de tutoriels pour débutants pour vous aider à démarrer. Les "Hello World!", Comme vous les connaissez peut-être. 

En ce qui concerne la PNL, certaines voies ont tendance à être mieux empruntées que d'autres. Il est infiniment plus facile d'accomplir une tâche PNL, disons Analyse des sentiments, en anglais que de faire de même dans ma langue maternelle, Luhya. Cette réalité est une extrapolation du fait que les langues de l'économie numérique sont des langues européennes majeures.

Le fossé entre les langues avec beaucoup de données disponibles sur Internet et celles qui n'en ont pas ne cesse de croître. Ces derniers temps, les modèles de langage pré-formés ont conduit à une amélioration significative de diverses tâches de PNL et Transfert d'apprentissage change rapidement le domaine. Alors que les architectures de pointe pour les modèles de pré-formation pour l'apprentissage par transfert en PNL sont disponibles gratuitement, la plupart sont gourmandes en données. Le GPT-2 modèle, par exemple, a utilisé des millions, voire des milliards de texte pour s'entraîner. (ref)

La seule façon dont je sais comment commencer à combler cet écart est de créer, découvrir et rassembler des ensembles de données pour les langages à faibles ressources. Avec le AI4D - Défi des ensembles de données en langues africaines, nous voulons stimuler certains travaux préparatoires. Tandis que L'apprentissage en profondeur Les techniques permettent désormais de rêver d'un avenir où les chercheurs et praticiens de la PNL sur le continent pourront facilement innover dans les langues que parlent leurs communautés, un avenir où l'alphabétisation et la maîtrise d'une grande langue européenne ne sont plus un préalable à la participation à l'économie numérique , ces techniques nécessitent des données. Des données qui ne peuvent être créées que par les communautés qui parlent ces langues, par des individus qui ont les compétences techniques, par ceux d'entre nous qui comprennent l'importance de ce travail et qui ont le désir de l'entreprendre.

Le défi durera 5 mois (de novembre 2019 à mars 2020), avec des prix en espèces de 500 USD attribués chaque mois pour récompenser les 2 meilleures soumissions. C'est le premier d'un défi en deux phases. Dans cette première phase, la création de jeux de données. Nous aimerions voir certains de ces ensembles de données développés pour des tâches spécifiques en aval, mais ce n'est pas nécessaire. 

Nous avons cependant réservé quatre tâches en aval de la PNL et prévoyons qu'une (ou deux) d'entre elles constituera le cadrage de la deuxième phase de ce défi; Classification des phrases, Analyse des sentiments, Question Répondant et Traduction automatique. D'autres tâches en aval pour lesquelles les participants peuvent être intéressés par le développement d'ensembles de données ou pour lesquels des ensembles de données ont déjà été développés sont également éligibles. Notre intention est que les ensembles de données restent libres et ouverts au public sous une licence Creative Commons une fois le défi terminé.

-

Le défi est hébergé sur Autres, rendez-vous sur cette page pour plus de détails, le prix en argent fourni dans le cadre d'un partenariat entre le Centre de recherche pour le développement international (CRDI) et l'Agence suédoise de coopération internationale au développement (SIDA), la facilitation du défi grâce aux efforts conjugués du Réseau Intelligence Artificielle pour le Développement et de la Fondation Knowledge 4 All(K4Tous), et enfin, notre groupe d'experts qui ont offert de leur temps pour entreprendre l'aspect qualitatif difficile de l'évaluation des ensembles de données; Jade Abbott - RetroRabbit, John Quinn - Université Google AI / Makerere, Kathleen Siminyu - AI4D-Afrique, Veseline Stoyanov - Facebook AI et Marivate de Vukosi - Université de Pretoria. 

Le reste, nous laissons le soin à la communauté.  

Contribution de Kathleen Siminyu, coordinatrice du réseau AI4D-Afrique

Photo par Bleu Eva on Unsplash.


Se lancer dans la programmation est facile, c'est un chemin bien balisé. Qu'il s'agisse d'acquérir de la compétence elle-même, un nouveau langage de programmation ou vous aventurer dans un nouveau domaine, tel que le traitement du langage naturel (PNL), vous pouvez être sûr qu'il existe une variété de tutoriels pour débutants pour vous aider à démarrer. Les "Hello World!", Comme vous les connaissez peut-être.

En ce qui concerne le traitement des langues (PNL), certains chemins ont tendance à être mieux balisés que d'autres. Par exemple en analyser sentimental, il est beaucoup plus facile d'accomplir une tâche de PNL que de faire de même dans ma langue maternelle, Luhya. Cette réalité est une extrapolation du fait que les langues de l'économie numérique sont en majeure partie des langues européennes.

L'écart entre les langues contenant beaucoup de données disponibles sur Internet et celles qui n'en possèdent pas ne cessent de se creuser. Les modèles linguistiques pré-entraînés de ces dernières années ont conduit à une amélioration significative de diverses tâches du traitement des langues (PNL) et apprentissage par transfert (Transfer Learning) changez rapidement le domaine. Bien que les principales architectures pour les modèles de pré-entraînés à l'apprentissage par transfert en NLP soient librement utilisables, la plupart ont besoin de beaucoup de données. Le modèle GPT-2, par exemple, utilisez des millions, voire des milliards de textes pour apprendre. (ref)

La seule façon pour moi de commencer à combler cet écart consiste à créer, à découvrir et à assembler des ensembles de données pour des langages disposant de peu de ressources. Avec le défi AI4D - Jeu de données sur les langues africaines, nous comprenons le travail préparatoire. Bien que les techniques d'apprentissage en profondeur permet désormais de rêver d'un avenir où les chercheurs et les praticiens en PNL du continent pourront facilement innover dans les langues parlées par leurs communautés, un avenir où l'alphabétisation et la maîtrise d'une grande langue européenne n'est plus une condition préalable à la participation à l'économie numérique, ces techniques nécessitent des données. Des données qui ne peuvent être créées que par les communautés qui parlent ces langues, par des personnes possédant les compétences techniques, par ceux d'entre nous qui comprenons l'importance de ce travail et qui souhaitent le faire.

Le défi durera 5 mois (de novembre 2019 à mars 2020), avec des prix en espèces de 500 USD attribués sous forme d'encouragement aux 2 meilleurs projets chaque mois. C'est le premier d'un défi en deux phases. Dans cette première phase, la création de jeux de données. Nous aimerions voir certains de ces jeux de données développés pour des tâches spécifiques en aval, mais ce n'est pas nécessaire.

Nous avons cependant réservé quatre tâches du NLP en aval et prévoyons qu'une (ou deux) d'entre elles constituent le cadre de référence de la deuxième phase de ce défi. Classification de textes, analyser des sentiments, réponses aux questions et traduction automatique. Les autres tâches en aval pour que les participants pourraient être intéressés par le développement de jeux de données ou pour qu'ils ont déjà développé des jeux de données sont également éligibles. Notre intention est que les jeux de données restent libres et ouverts au public sous une licence Creative Commons une fois le défi terminé.

Le défi est hébergé sur Autres, rendez-vous sur cette page pour obtenir tous les détails, l'argent du prix fourni grâce au partenariat entre le Centre de recherches pour le développement international (CRDI) et l'Agence suédoise de coopération pour le développement international (SIDA), la facilitation du défi par les efforts combinés du réseau de l'intelligence artificielle pour le développement et de la fondation Knowledge 4 All (K4Tous), et enfin de notre groupe d'experts qui ont offert de leur temps pour aborder le difficile aspect qualitatif de l'évaluation d'un jeu de données; Jade Abbott - RetroRabbit, John Quinn - Google AI / Université Makerere, Kathleen Siminyu - AI4D-Afrique, Veseline Stoyanov - Facebook AI et Marivate de Vukosi - Université de Pretoria.

Le reste, nous laissons à la communauté.

Contribution de Kathleen Siminyu, Coordinatrice du réseau AI4D-Africa

Par photo Bleu Eva sur Unsplash.