EN FR

ACCUEIL ›BLOGS

Traducteur de la langue des signes arabe vers le marocain: «Apprendre pour les sourds»
-

April 12, 2020

Plus de 5% de la population mondiale (466 millions de personnes) souffre d'une perte auditive invalidante. 4 millions sont des enfants [1]. Ils peuvent être malentendants ou sourds. Les personnes malentendantes communiquent généralement par le langage oral et peuvent bénéficier d'appareils fonctionnels comme les implants cochléaires. Les personnes sourdes ont pour la plupart une perte auditive profonde, ce qui implique très peu ou pas d'audition.

Le principal impact des personnes sourdes est sur la capacité de l'individu à communiquer avec les autres en plus des sentiments émotionnels de solitude et d'isolement dans la société. Par conséquent, ils ne peuvent pas accéder de manière égale aux services publics, principalement l'éducation et la santé, et n'ont pas les mêmes droits à participer à une vie active et démocratique. Cela a un impact négatif sur leur vie et sur celle des personnes qui les entourent.

Partout dans le monde, les personnes sourdes utilisent la langue des signes pour interagir dans leur communauté. Les formes des mains, les motifs des lèvres et les expressions faciales sont utilisés pour exprimer des émotions et donner des significations. Les langues des signes sont des langues naturelles à part entière avec leur propre grammaire et lexique. Cependant, ils ne sont pas universels bien qu'ils présentent des similitudes frappantes. La langue des signes peut être représentée par une forme d'annotation appelée Gloss. Chaque signe est représenté par un gloss.

Au Maroc, les enfants sourds reçoivent très peu d'aide à l'éducation. Pendant de nombreuses années, ils ont appris la variété locale de la langue des signes à partir des langues des signes arabe, française et américaine [2]. En avril 2019, le gouvernement a normalisé la langue des signes marocaine (MSL) et lancé des programmes de soutien à l'éducation des enfants sourds [3]. Cependant, les enseignants impliqués sont pour la plupart entendants, ont une maîtrise limitée de la MSL et manquent de ressources et d'outils pour apprendre aux sourds à apprendre à partir de textes écrits ou parlés. Les écoles recrutent des interprètes pour aider l'élève à comprendre ce qui est enseigné et dit en classe. Sinon, les enseignants utilisent des graphiques et des vidéos sous-titrées pour apprendre les correspondances avec les signes, mais manquent d'outils qui traduisent des mots et des concepts écrits ou parlés en signes.

Partout dans le monde, de nombreux efforts ont été déployés par différents pays pour créer des systèmes de traduction automatique de leur langue vers la langue des signes. Au Laboratoire d'Informatique de Mathématique Appliquée d'Intelligence Artificielle et de Reconnaissance des Formes (LIMIARF https://limiarf.github.io/www/) de la Faculté des Sciences de l'Université Mohammed V de Rabat, la Deep Learning Team (DLT) a proposé le développement d'un traducteur arabe Speech-to-MSL. La traduction pourrait être divisée en deux grandes parties, la partie parole-texte et la partie texte-MSL. Notre objectif principal dans ce travail actuel est d'effectuer la traduction de texte en MSL.

Ce projet rassemble de jeunes chercheurs, développeurs et designers. En équipe, nous avons effectué de nombreuses revues d'articles de recherche sur la traduction des langues vers les gloses et les langues des signes en général et pour l'arabe standard moderne en particulier. Nous avons collecté des données sur la langue des signes marocaine à partir de sources gouvernementales et non gouvernementales et nous formons le Web. Les jeunes chercheurs ont également mené des recherches sur une nouvelle façon de traduire l'arabe en glose de signe. En parallèle, de jeunes développeurs créaient l'application mobile et les designers concevaient et gréaient l'avatar d'animation. Dans ce qui suit, nous détaillons ces tâches.

Revues de recherche

  • [4] a construit un système de traduction ATLASLang qui peut générer des déclarations en temps réel via un avatar de signature. Le système est un système de traduction automatique du texte arabe à la langue des signes arabe. Il effectue une analyse morpho-syntaxique du texte dans l'entrée et le convertit en une phrase de séquence vidéo jouée par un avatar humain. Ils animent la phrase traduite à l'aide d'une base de données de 200 mots au format gif extraite d'un dictionnaire marocain. Si la phrase d'entrée existe dans la base de données, ils appliquent l'approche basée sur des exemples (traduction correspondante), sinon l'approche basée sur des règles est utilisée en analysant chaque mot de la phrase donnée dans le but de générer la phrase correspondante.
  • [5] ont décidé de conserver le même modèle ci-dessus en changeant la technique utilisée dans l'étape de génération. Au lieu des règles, ils ont utilisé un réseau neuronal et leur propre modèle codeur-décodeur. Ils analysent la phrase arabe et extraient certaines caractéristiques de chaque mot comme la racine, la racine, le type, le genre, etc. Ces caractéristiques sont encapsulées avec le mot dans un objet puis transformées en un vecteur de contexte Vc qui sera l'entrée de la rétroaction. -Réseau de neurones de propagation. Le réseau neuronal génère un vecteur binaire, ce vecteur est décodé pour produire une phrase cible.
  • [6] Cet article décrit un système de traduction de signes approprié qui peut être utilisé pour les malentendants arabes et tous les utilisateurs de la langue des signes arabe (ArSL). Les tâches de traduction ont été formulées pour générer des scripts de transformation en utilisant un corpus / dictionnaire bilingue ). Ils ont utilisé une architecture à trois blocs: Premier bloc: reconnaître le flux de diffusion et le traduire en un flux de script écrit en arabe dans lequel; il convertit en outre ce flux en animation par le signataire virtuel. Par conséquent, la solution proposée couvre les aspects généraux de communication requis pour une conversation normale entre un utilisateur ArSL et des non-utilisateurs arabophones. Le deuxième bloc: convertit le texte en écriture arabe en un flux de signes arabes en utilisant le riche module d'interprétation sémantique, le modèle de langage et le dictionnaire de signes pris en charge. À partir du modèle de langage, ils utilisent le type de mot, le temps, le nombre et le sexe en plus des caractéristiques sémantiques du sujet, et l'objet sera scripté vers le signataire (avatar 3D). Troisième bloc: travaille à réduire les descripteurs sémantiques produits par le flux de texte arabe en simplifié à partir de en aidant du concept de signataire ontologique à généraliser certaines terminologies. Les tâches proposées comportent deux phases: la formation et les phases génératives. Les deux phases sont soutenues par le dictionnaire / corpus bilingue; BC = {(DS, DT)}; et la phase générative produit un ensemble de mots (WT) pour chaque mot source WS.
  • [7] Cet article présente DeepASL, une technologie de traduction en langue des signes transformative basée sur l'apprentissage profond qui permet une traduction ASL non intrusive au niveau des mots et des phrases.ASL est un langage complet et complexe qui utilise principalement des signes fabriqués en déplaçant les mains. Chaque signe individuel est caractérisé par trois sources clés d'informations: la forme de la main, le mouvement de la main et l'emplacement relatif des deux mains. Ils utilisent Leap Motion comme modalité de détection pour capturer les signes ASL.
  • [8] Achraf et Jemni, ont introduit une approche de traduction automatique de la langue des signes statistique du texte écrit en anglais au glossaire de la langue des signes américaine. Tout d'abord, un corpus parallèle est fourni, qui est un fichier simple qui contient une paire de phrases en anglais et une annotation de gloss ASL. Ensuite, une phase d'alignement de mots est effectuée à l'aide de modèles statistiques tels que IBM Model 1, 2, 3, améliorés à l'aide d'un algorithme de correspondance de chaînes pour mapper chaque mot anglais dans son mot correspondant dans l'annotation ASL Gloss. Ensuite, un décodeur de traduction automatique statistique est utilisé pour déterminer la meilleure traduction avec la probabilité la plus élevée à l'aide d'un modèle basé sur des phrases. En ce qui concerne le fait que la communauté sourde arabe représente 25% de la communauté sourde du monde entier, et alors que la langue arabe est une langue à faibles ressources. De nombreux systèmes de traduction ArSL ont été introduits.
  • [9] Aouiti et Jemni ont proposé un système de traduction appelé ArabSTS (système de traduction de la langue des signes arabe) qui vise à traduire le texte arabe en langue des signes arabe. Ce système prend du texte MSA ou EGY en entrée, puis une analyse morphologique est effectuée à l'aide de l'outil MADAMIRA, puis la sortie est dirigée vers le classificateur SVM pour déterminer l'analyse correcte pour chaque mot. Plus tard, le résultat est écrit dans un fichier XML et transmis à un système d'annotation de gloss en arabe. Le système d'annotation de brillance proposé fournit une représentation globale du texte qui couvre de nombreuses fonctionnalités (telles que les règles grammaticales et morphologiques, la forme de la main, l'emplacement des signes, l'expression faciale et le mouvement) pour couvrir le maximum d'informations pertinentes pour l'étape de traduction. Ce système est basé sur les règles de la langue des signes qatari, chaque gloss est représenté par un mot arabe qui identifie un signe arabe. Ensuite, le fichier XML contient toutes les informations nécessaires pour créer une représentation finale Arab Gloss ou chaque mot, il est divisé en deux sections. Dans la première partie, chaque mot est affecté à plusieurs champs (id, genre, num, fonction, indication), et la seconde partie donne la forme finale de la phrase prête à être traduite. À la fin du système, la phrase traduite sera animée en langue des signes arabe par un avatar.
  • [10] Luqman et Mahmoud, construisent un système de traduction du texte arabe en ArSL basé sur des règles. Le travail proposé introduit un système d'écriture textuelle et un système de gloss pour la transcription ArSL. Cette approche est basée sur des règles sémantiques. L'architecture du système comprend trois étapes: l'analyse morphologique, l'analyse syntaxique et la génération ArSL. L'analyse morphologique est effectuée par l'outil MADAMIRA tandis que l'analyse syntaxique est effectuée à l'aide de l'outil CamelParser et le résultat de cette étape sera un arbre de syntaxe. Pour générer les annotations ArSL Gloss, les phrases et les mots de la phrase sont lexiquement transformés en ses équivalents ArSL à l'aide du dictionnaire ArSL. Après la transformation lexicale, la transformation de règle est appliquée. Ces règles sont construites sur la base des différences entre l'arabe et ArSL, qui mappent l'arabe à ArSL en trois niveaux: mot, phrase et phrase. Ensuite, la représentation finale sera donnée sous la forme d'une annotation de brillance ArSL et d'une séquence d'images GIF.
  • [11] La reconnaissance automatique de la parole est le domaine de recherche concernant la capacité des machines à accepter l'entrée vocale des humains et à l'interpréter avec la plus grande probabilité d'exactitude. L'arabe est l'une des langues les plus parlées et les moins mises en avant en termes de reconnaissance vocale. La langue arabe a trois types: classique, moderne et dialectale. L'arabe classique est la langue du Coran. L'arabe standard moderne (MSA) est basé sur l'arabe classique, mais en abandonnant certains aspects comme les signes diacritiques. Il est principalement utilisé dans les livres modernes, l'éducation et les actualités. L'arabe dialectal a plusieurs formes régionales et est utilisé pour la communication orale quotidienne dans des contextes non formels. Avec l'avènement des médias sociaux, l'arabe dialectal est également écrit. Ces formes de langage entraînent des différences lexicales, morphologiques et grammaticales, ce qui rend difficile le développement d'une application de PNL arabe pour traiter les données de différentes variétés. Il existe également différents types de reconnaissance de problème, mais nous nous concentrerons sur la parole continue. Les outils de reconnaissance vocale en continu permettent à l'utilisateur de parler presque naturellement. En raison des limites de l'énoncé, il utilise une méthode spéciale, c'est pourquoi il est considéré comme l'un des systèmes les plus difficiles à créer.
  • [12] Un système AASR a été développé avec un corpus de parole de 1,200 18.3 h. Les auteurs ont modélisé différentes topologies DNN, notamment: Feed-forward, Convolutional, Time-Delay, Recurrent Long Short-Term Memory (LSTM), Highway LSTM (H-LSTM) et Grid LSTM (GLSTM). La meilleure performance provenait d'une combinaison des deux principales hypothèses des modèles GLSTM entraînés par séquence avec XNUMX% de WER.
  • [13] Une comparaison de certaines des techniques de reconnaissance vocale de pointe a été présentée. Les auteurs n'ont appliqué ces techniques qu'à un ensemble limité de données d'actualités en arabe. Les différentes approches ont toutes été formées avec 50 heures de transcription audio d'une chaîne d'information «Al-jazirah». La meilleure performance obtenue a été l'approche hybride DNN / HMM avec le critère MPE (Minimum Phone Error) utilisé dans la formation séquentielle du DNN, et a atteint 25.78% WER.
  • [14] La reconnaissance vocale utilisant l'apprentissage profond est une tâche énorme dont le succès dépend de la disponibilité d'un vaste référentiel d'un ensemble de données de formation. La disponibilité de frameworks open-source activés par l'apprentissage en profondeur et d'interfaces de programmation d'application (API) stimulerait le développement et la recherche d'AASR. Il existe plusieurs services et frameworks qui offrent aux développeurs de puissantes capacités d'apprentissage en profondeur pour la reconnaissance vocale. L'une des applications marquées est le service Cloud Speech-to-Text de Google qui utilise un algorithme de réseau neuronal d'apprentissage en profondeur pour convertir la parole arabe ou un fichier audio en texte. Le service Cloud Speech-to-Text permet à son système de traduction d'accepter directement le mot prononcé à convertir en texte puis traduit. Le service propose une API pour les développeurs avec plusieurs fonctionnalités de reconnaissance.
  • [15] Un autre service est l'API Microsoft Speech de Microsoft. Ce service aide les développeurs à créer des systèmes de reconnaissance vocale à l'aide de réseaux neuronaux profonds. IBM cloud fournit une API de service Watson pour la reconnaissance vocale-texte prenant en charge la langue arabe standard moderne.

Collecte de données

En raison du manque de ressources de données sur la langue des signes arabe. Nous avons consacré beaucoup d'énergie à collecter nos propres ensembles de données. À cette fin, nous nous sommes appuyés sur les données disponibles de certaines sources officielles [16] et non officielles [17, 18, 19] et avons collecté, jusqu'à présent, plus de 100 signes. L'ensemble de données est composé de vidéos et d'un fichier .json décrivant certaines métadonnées de la vidéo et le mot correspondant tel que la catégorie et la durée de la vidéo.

Collecte de données
Collecte de données

Recherche publiée

Notre long résumé [20] intitulé 'Vers une représentation par glossaire de la langue des signes de l'arabe standard moderne'a été accepté pour une présentation à l'atelier de la PNL africaine du 8th Conférence internationale sur les représentations d'apprentissage (ICLR 2020) le 26 avril à Addis-Abeba en Éthiopie. Dans cet article, nous nous sommes intéressés à la première étape de la traduction de l'arabe standard moderne à l'animation en langue des signes qui génère une représentation de la brillance des signes. Nous avons identifié un ensemble de règles obligatoires pour la phase d'animation en langue des signes et effectué la génération en tenant compte du prétraitement avéré avoir des effets significatifs sur les systèmes de traduction. Les résultats présentés sont prometteurs mais loin de satisfaire toutes les règles obligatoires.

Application mobile

L'application est développée avec le framework Ionic, une boîte à outils d'interface utilisateur mobile gratuite et open source pour le développement d'applications multiplateformes pour iOS natif, Android et le Web: le tout à partir d'une seule base de code. L'application est composée de trois modules principaux: le module speech to text, le module text to gloss et enfin le module d'animation gloss to sign.

Dans le speech-à-texte module, l'utilisateur peut choisir entre la langue arabe standard moderne et la langue française. L'utilisateur peut appuyer longuement sur le microphone et parler ou taper un message texte. Le message vocal sera transcrit en message texte à l'aide des services de l'API Google Cloud. Dans le text-to-gmodule de perte, le message texte transcrit ou dactylographié est transcrit sous forme de glose. Ce module n'est pas encore implémenté. Les résultats de notre article publié sont actuellement en cours de test pour être adoptés. Enfin, dans le gperte-à-sign animation module, dans les premières tentatives, nous avons essayé d'utiliser des avatars existants comme 'Vincent character' [ref], un avatar populaire avec un personnage truqué de haute qualité disponible gratuitement sur Blender Cloud. Nous avons commencé à animer le personnage de Vincent à l'aide de Blender avant de comprendre que la taille de l'animation générée est très grande en raison de la haute résolution du personnage. Ainsi, afin de pouvoir animer le personnage avec notre application mobile, les designers 3D ont rejoint notre équipe et ont créé un avatar de petite taille nommé «Samia». Les concepteurs recommandent d'utiliser Autodesk 3ds Max au lieu de Blender initialement adopté. 3ds Max est conçu sur une architecture modulaire, compatible avec plusieurs plugins et scripts écrits dans un langage propriétaire Maxscript. Dans les travaux futurs, nous animerons «Samia» en utilisant Unity Engine compatible avec notre application mobile.

Les références

  • [1] Site Web de l'Organisation mondiale de la santé: https://www.who.int/news-room/fact-sheets/detail/deafness-and-hearing-loss
  • [2] Site Web d'Ethnologue: https://www.ethnologue.com/language/xms
  • [3] Site Web du gouvernement marocain: http://www.maroc.ma/fr/actualites/mme-hakkaouila-standardisation-de-la-langue-des-signes-un-pas-vers-lintegration-sociale
  • [4] Brour, Mourad et Benabbou, Abderrahim. (2019). ATLASLang MTS 1: Langue du texte arabe dans le système de traduction automatique de la langue des signes arabe. Informatique Procedia. 148. 236-245. 10.1016 / j.procs.2019.01.066.
  • [5] Brour, Mourad et Benabbou, Abderrahim. (2019). ATLASLang NMT: langue de texte arabe en traduction automatique neuronale de langue des signes arabe. Journal de l'Université King Saud - Informatique et sciences de l'information. 10.1016 / j.jksuci.2019.07.006.
  • (6) Biyi Fang, Jillian Co, Mi Zhang. (2018). «DeepASL: Permettre la traduction omniprésente et non intrusive de la langue des signes au niveau des mots et des phrases». 15e Conférence ACM sur les systèmes de capteurs de réseau embarqués.https://doi.org/10.1145/3131672.3131693
  • [7] Omar H. Al-Barahamtoshy, Hassanin M. Al-Barhamtoshy. (2017). «Modèle arabe de texte à signe (ArTTS) du système SR automatique». 3e Conférence internationale sur la linguistique informatique arabe, ACLing 2017, Dubaï, Émirats arabes unis. https://doi.org/10.1016/j.procs.2017.10.122
  • [8] A. Othman et M. Jemni, «Traduction automatique de la langue des signes statistique: du texte écrit en anglais au glossaire de la langue des signes américaine», vol. 8, non. 5, p. 9, 2011.
  • [9] N. Aouiti et M. Jemni, «Système de traduction du texte arabe en langue des signes arabe», JAIS, vol. 3, non. 2, pp.57–70, décembre 2018, doi:33633 / jais.v3i2.2041.
  • [10] H. Luqman et SA Mahmoud, «Traduction automatique du texte arabe en langue des signes arabe», Accès universel dans la société de l'information, vol. 18, pp. 939–951, 2018, doi:1007/s10209-018-0622-8.
  • [11] Algihab, W., Alawwad, N., Aldawish, A. et AlHumoud, S. (2019). Reconnaissance vocale arabe avec apprentissage en profondeur: un examen. Notes de cours en informatique, 15–31. doi: 10.1007 / 978-3-030-21902-4_2
  • [12] AlHanai, T., Hsu, W.-N., Glass, J .: Développement du système MIT ASR pour le défi de diffusion multi-genres arabe 2016. Dans: Atelier de technologie du langage parlé (SLT) IEEE 2016, San Diego, Californie, pp. 299–304 (2016)
  • [13] Cardinal, P., et al.: Progrès récents en ASR appliqués à un système de transcription arabe pour AlJazeera, p. 5.
  • [14] Khurana, S., Ali, A .: Système de transcription avancé QCRI (QATS) pour la reconnaissance des médias de diffusion multidialect arabe: défi MGB-2. Dans: 2016 IEEE Spoken Language Technology Workshop (SLT), San Diego, Californie, pp. 292–298 (2016)
  • [15] Graciarena, M., Kajarekar, S., Stolcke, A., Shriberg, E .: Identification robuste du locuteur par le bruit pour la parole arabe spontanée. Dans: 2007 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2007, Honolulu, HI, pp. IV-245 – IV-248 (2007)
  • (16) http://www.social.gov.ma/fr/accueil
  • (17) https://www.handspeak.com/word/search/index.php?id=7508
  • (18) https://www.ifes.org/sites/default/files/electoral-lexicon-manual-in-moroccan-sign-language.pdf
  • (19) https://www.youtube.com/channel/UC-KdJajipGWAYrrQZ8NHl7g
  • [20] - https://arxiv.org/login?next_page=/submit/3105331/view