EN FR

ACCUEIL ›BLOGS

Revue de novembre; AI4D- Défi des ensembles de données sur les langues africaines // Bilan de novembre; Défi AI4D - Jeu de Données sur les Langues Africaines
-

le 23 décembre 2019

Le 1er novembre, nous avons lancé le Défi AI4D-African Language Dataset on Zindi, un effort visant à encourager la découverte et la création d'ensembles de données en langue africaine pour une meilleure représentation en PNL. Cette première phase de ce qui devrait être un défi en deux phases, se déroule sur 5 mois, de novembre 2019 à mars 2020, avec une évaluation des soumissions effectuée sur une base mensuelle. Chaque mois, les 2 meilleures candidatures recevront un prix en espèces de 500 USD.

Étant bien en décembre, nous sommes ravis d'annoncer que les deux principales soumissions pour novembre ont été reçues de;

  • Oshingbesan Adebayo qui a soumis un ensemble de données composé de trois langues autochtones d'Afrique de l'Ouest (haoussa, igbo et yoruba). L'ensemble de données a été acquis à partir d'une grande variété de sources allant des transcriptions de chansons, des sites d'actualités en ligne, des extraits de livres publiés, des sites Web en langues autochtones aux blogs, Twitter, Facebook et plus encore. 
  • Thierno Diop qui a soumis un ensemble de données de reconnaissance vocale automatique pour le wolof dans le domaine des services de transport. Les données ont été préparées grâce à une collaboration entre Datamation BAAMTU, une société sénégalaise axée sur l'utilisation des données pour aider les entreprises à tirer parti de l'IA et du Big Data, et WeeGo, une application qui aide les passagers à obtenir des informations sur les transports urbains au Sénégal.

Dans l'ensemble, nous avons reçu 9 soumissions au cours du mois de novembre, composées de données provenant d'un total de 4 langues uniques. Ce sont les haoussa, les Igbo, les wolof et les yoruba.

La majorité des données provenaient de sources en ligne. Le grattage de sites de journaux tels que BBC, DW et VOA qui organisent des informations dans plusieurs langues africaines est apparu comme l'un des principaux moyens par lesquels les participants ont procédé pour créer des ensembles de données. Une excellente stratégie pour rassembler un ensemble de données important au cours des prochains mois serait de continuer à revenir régulièrement sur le (s) site (s) et de maintenir votre ensemble de données à jour avec le site, car des nouvelles sont régulièrement publiées. Capturer une grande variété de catégories d'actualités contribuerait grandement à garantir que l'ensemble de données est bien équilibré et représentatif de la diversité linguistique. Les sites Wikipédia publiés dans différentes langues ont également été utilisés comme source de données. 

  • La BBC publie des informations en Afaan Oromoo, Amharic, Hausa, Igbo, Kirundi, Pidgin, Somali, Swahili, Tigrinya et Yoruba 
  • DW publie des informations en amharique, haoussa et kiswahili 
  • VOA publie des informations en Afaan Oromoo, Amharic, Bambara, Hausa, Kinyarwanda / Kirundi, Ndebele, Shona, Somali, Kiswahili et Tigrinya

Une source en ligne étroitement liée est les données Twitter, que nous avons vues particulièrement organisées pour la tâche d'analyse des sentiments. Un bon point de départ serait les profils Twitter d'accompagnement des sites d'information ci-dessus. Bien que nous n'ayons pas encore eu de données provenant de Facebook, j'imagine que les profils maintenus par ces organes de presse pour différentes langues seraient également un bon point de départ.  

La traduction manuelle est également apparue avec certaines soumissions compilées à la suite d'une ou plusieurs personnes se réunissant pour traduire des morceaux de texte ainsi que des applications personnalisées telles que des applications mobiles utilisées pour générer des voix off pour l'ensemble de données créé pour la reconnaissance vocale automatique. 

Je suis également ravi d'annoncer que nous aurons un atelier à ICLR 2020, "AfricaNLP - Déverrouiller les langues locales», Qui se tiendra à Addis-Abeba en avril de l'année prochaine.
Une partie de l'ordre du jour de cet atelier est réservée à la présentation des travaux exceptionnels et des ensembles de données qui en découleront.

Nous profiterons également de l'atelier pour lancer la deuxième phase de ce défi. Si vous avez suivi notre processus de réflexion depuis le début, alors vous saurez que la deuxième phase du défi dépend largement des résultats de cette première phase. La seule (ou, espérons-le, deux) tâches PNL en aval qui feront l'objet de la deuxième phase utilisera les ensembles de données résultant de cette première phase.

Enfin, nous avons un appel à contributions pour l'atelier, spécifiquement pour les travaux de recherche impliquant les langues africaines. N'hésitez pas à commencer à faire vos soumissions sur cette page. Voici quelques dates clés à garder à l'esprit:

  • Date limite de soumission: 1er février 2020
  • Notification aux auteurs: 26 février 2020
  • Atelier: 26 avril 2020

Bonnes vacances!

Contribution par:
Kathleen Siminyu, coordinatrice du réseau AI4D-Afrique
Sackey Freshia, Université d'agriculture et de technologie Jomo Kenyatta
Daouda Tandiang Djiba, GalsenAI


Le 1er novembre, nous avons lancé le Défi AI4D - Ensemble de données sur les langues africaines sur Zindi, un effort pour encourager la découverte et la création de jeux de données sur les langues africaines pour une meilleure représentation en PNL. Cette première phase de ce qui devrait être un défi en deux phases, se déroule sur 5 mois, de novembre 2019 à mars 2020, avec une évaluation de la soumission faite sur une base mensuelle. Chaque mois, les deux meilleures soumissions recevront un prix en espèces de 500 USD.

Nous sommes heureux d'annoncer que les deux meilleures soumissions pour novembre ont été reçues;

  • Oshingbesan Adebayo qui a soumis un jeu de données composé de trois langues autochtones d'Afrique de l'Ouest (haoussa, igbo et yoruba). Le jeu de données a été acquis auprès d'une grande variété de sources allant de transcriptions de chansons, de sites d'information en ligne, d'extraits de livres publiés, de sites Web en langues autochtones à des blogues, Twitter, Facebook et autres. 
  • Thierno Diop qui a soumis un ensemble de données de reconnaissance automatique de la parole pour le wolof dans le domaine des services de transport. Les données ont été préparées grâce à une collaboration entre Datamation BAAMTU, une société sénégalaise spécialisée dans l'utilisation des données pour aider les entreprises à tirer parti de l'intelligence artificielle et de Big Data, et WeeGo, une application qui aide les passagers à obtenir des informations sur le transport urbain au Sénégal.

Au total, nous avons reçu 9 soumissions au mois de novembre, composées de données provenant de 4 langues uniques au total. Il s'agit du haoussa, de l'igbo, du wolof et du yoruba.

La majorité des données provenaient de sources en ligne. Le grattage (scraping) de sites de journaux tels que la BBC, DW et VOA qui organise des actualités dans plusieurs africaines est apparu comme l'un des principaux moyens utilisés par les participants pour créer des jeux de données. Une excellente stratégie pour constituer un jeu de données important au cours des mois à venir serait de retourner sur le (s) site (s) de temps en temps et garder le jeu de données à jour avec le site car des nouvelles sont régulièrement publiées . La saisie d'une grande variété de catégories de nouvelles contribuerait à assurer que le jeu de données est bien équilibré et représentatif de la variété des langues. Les sites Wikipédia publiés dans différentes langues sont également établis comme une source de données. 

  • La BBC publie des nouvelles en afaan oromo, amharique, haoussa, igbo, kirundi, pidgin, somali, swahili, tigrinya et yoruba 
  • DW publie des nouvelles en amharique, haoussa et kiswahili 
  • VOA publie des informations en Afaan Oromoo, Amharique, Bambara, Haoussa, Kinyarwanda / Kirundi, Ndebele, Shona, Somali, Kiswahili et Tigrinya

Une source en ligne publiée est celle des données de Twitter, que nous avons vu particulièrement bien conservée pour la tâche d'analyse des sentiments. Un bon point de départ serait les profils Twitter des sites d'information ci-dessus. Bien que nous n'ayons pas encore eu de données provenant de Facebook, j'imagine que les profils requis par ces sites d'information dans différentes langues seraient également un bon point de départ.  

La traduction manuelle a également fait son apparition, certaines soumissions ayant été compilées à la suite de la collaboration d'une ou de plusieurs personnes pour traduire des morceaux de texte ainsi que des applications personnalisées telles que des applications mobiles utilisées pour créer des voix hors champ pour un ensemble de données créé pour la reconnaissance automatique de la parole. 

Je suis également heureux d'annoncer que nous aurons un atelier à la conférence ICLR 2020, “AfricaNLP - Déverrouiller les langues locales», qui se tiendra à Addis-Abe en avril prochain. Une partie de l'ordre du jour de cet atelier est réservée à la présentation des travaux exceptionnels et des jeux de données qui arriveront et qui auront le fruit de cet exercice.

Nous profiterons également de l'atelier pour lancer la deuxième phase de ce défi. Si vous avez suivi notre processus de réflexion depuis le début, vous savez que la deuxième phase du défi dépend en grande partie des résultats de cette première phase. Les une (ou, espère-le, deux) tâches de PNL en aval qui font l'objet de la deuxième phase utiliseront les ensembles de données qui résultent de cette première phase.

Enfin, nous avons un appel à communications pour l'atelier, spécifiquement pour les travaux de recherche publiés dans les langues africaines. N'hésitez pas à commencer à faire vos soumissions ici.

  • Date limite de soumission : 1er février 2020
  • Notification de la décision : 26 février 2020
  • Atelier: 26 avril 2020

Joyeuses Fêtes !

Contribution de :
Kathleen Siminyu, Coordonnatrice du réseau AI4D-Afrique
Sackey Freshia, Université d'agriculture et de technologie Jomo Kenyatta
Daouda Tandiang Djiba, GalsenAI