ACCUEIL ›BLOGS

Extraction des méta-données des arrêts de la Cour du Malawi
-

20 mars 2020

Projet par : Dr. Amelia Taylor, Eva Mfutso-Bengo et Binart Kachule, Université du Malawi et Polytechnique, Université du Malawi, Malawi
Nom du projet: Un outil semi-automatique pour l'extraction de métadonnées à partir des jugements des tribunaux du Malawi 
Description du projet: Développer une méthodologie pour une classification semi-automatique des jugements diffusée par la Bibliothèque de la Haute Cour du pouvoir judiciaire du Malawi dans le but de permettre une «recherche intelligente» dans ce corpus de connaissances.


Nous nous sommes fixé pour tâche de développer des méthodes semi-automatiques pour extraire des informations clés des affaires pénales rendues par les tribunaux du Malawi. Notre corpus de jugements est venu en partie de la Plateforme MalawiLii et en partie de la High Court Library de Blantyre, Malawi. Nous avons concentré notre première analyse sur les cas entre 2010 et 2019.

Voici un exemple de cas pour lequel un PDF est disponible sur MalawiLii. Voici un exemple de cas pour lequel seul un image numérisée d'un pdf est disponible. Nous avons utilisé l'OCR pour plus de 90% des données pour extraire le texte de notre corpus (voir ci-dessous une description de notre corpus).

Veuillez ouvrir ces fichiers pour vous familiariser avec le contenu d'une décision pénale d'un tribunal. Quel type d'informations voulons-nous extraire? Pour chaque cas, nous voulions:

  1. Nom de l'affaire
  2. Numéro de cas
  3. Année dans lequel l'affaire a été remplie
  4. Année dans lequel le jugement a été rendu, Court Intérieur qui a rendu le jugement
  5. Noms des juges
  6. Noms des parties impliquées (appelants et intimés, mais vous pouvez aller plus loin et extraire les noms des principaux témoins et les noms des victimes)
  7. Bibliographie à d'autres Étuis
  8. Bibliographie aux lois / statuts et codes, et,
  9. Mots-clés juridiques qui peut nous aider classer les cas selon la classification ICCS.

Ce projet nous a beaucoup appris sur le travail avec du texte, la préparation des données pour un corpus, l'échange de formats pour les données du corpus, l'analyse du corpus à l'aide d'outils lexicaux et des algorithmes d'apprentissage automatique pour annoter et extraire des informations à partir de textes juridiques.

En cours de route, nous avons également expérimenté le traitement OCR par lots et différents formats d'annotations tels que le marquage IOB. et le XML TEI standard pour le partage et le stockage des données du corpus, mais aussi en vue d'utiliser ces annotations dans des algorithmes d'étiquetage de séquence.

Chacun a des avantages et des inconvénients, le balisage IOB ne permet pas l'imbrication (ou l'étiquetage multiple pour le même élément), alors qu'une notation XML le permettrait mais il est plus difficile à utiliser dans les algorithmes. Nous avons également appris à construire un corpus et expérimenté les outils lexicaux existants pour analyser ce corpus et le comparer à d'autres corpus juridiques.

Nous avons appris à utiliser les annotations POS et les expressions régulières contextuelles pour extraire certaines de nos annotations pour les lois et les citations de cas et nous avons généré plus de 3000 annotations différentes. Une autre chose intéressante que nous avons apprise est que la préparation de données d'apprentissage annotées n'est pas facile, par exemple, la plupart des algorithmes nécessitent que les exemples d'entraînement soient de la même taille et que l'ensemble d'apprentissage doit être une bonne représentation des données.

Nous avons également expérimenté les algorithmes de classification et la détection de sujets en utilisant skitlearn, spacy, weka et mathlab. La tâche la plus difficile a été de préparer les données dans le bon format et d'anticiper comment ces données mèneront aux résultats que nous avons vus. Nous avons estimé que le temps passé à bien organiser et annoter n'est pas perdu mais se traduira par des gains dans la deuxième étape du projet lorsque nous nous concentrerons sur les algorithmes.

La plupart des algorithmes divisent le texte en jetons, et pour nous, les jetons (ou séquences) de plusieurs mots sont ceux que nous voulons trouver et annoter. Cela signifie un accent sur les algorithmes d'étiquetage de séquence. Les complications supplémentaires qui sont propres au texte juridique sont que la plupart de nos termes clés appartiennent logiquement à plus d'une étiquette, et le contexte d'un terme peut s'étendre sur plusieurs segments (par exemple, des phrases).

En utilisant LDA (Latent Dirichlet Association) pour détecter des sujets dans nos jugements, il nous est apparu clairement qu'il fallait utiliser une version en quelque sorte `` résumée '' dans laquelle nous regroupons des séquences de mots dans leurs annotations (c'est parce que LDA utilise la fréquence des mesure de la pertinence des mots-clés, alors que dans notre texte, les mots les plus pertinents peuvent apparaître beaucoup moins fréquemment que d’autres).

Notre travail nous a mis en évidence les avantages et l’importance de la coopération multidisciplinaire. Le texte juridique a ses particularités et ses complexités, donc avoir un avocat expert dans l'équipe a vraiment aidé!

La recherche de références à des lois et des affaires est rendue un peu plus compliquée en raison de la variété dans laquelle ces références peuvent apparaître ou en raison de l'utilisation de «ci-après». Le texte juridique utilise «ci-après» , par exemple, Mwase Banda («ci-après» dénommé le défunt). Mais cela peut également se produire pour les références à des lois ou à des affaires, comme le montre l'exemple suivant:

L'article 346 (3) du Code de procédure pénale et de preuve Cap 8:01 (ci-après dénommé «le Code») auquel Wesbon J a été confronté dans l'affaire DPP V Shire Trading CO. Ltd (supra) est différent du libellé de Le paragraphe 346 (3) du Code tel qu'il est actuellement.

Comparez l'extraction de la référence à la loi de «l'article 151 (1) du Code de procédure pénale et de la preuve» à l'extrait de «Notre propre Code de procédure pénale et de la preuve étaye cette pratique aux articles 128 (d) et (f)». Nous avons identifié un nombre raisonnablement grand de références différentes aux lois et aux cas utilisés dans notre texte! La situation est très similaire pour les citations de cas. Considérez les variantes suivantes:

  • Republic v Shautti, Affaire de confirmation n ° 175 de 1975 (non publiée)
  • République c / Phiri [1997] 2 MLR 68
  • République c. Francis Kotamu, affaire de confirmation de RP de la Haute Cour no. 180 de 2012 (non publié)
  • Woolmington contre DPP [1935] AC 462
  • Chiwaya contre République 4 ALR Mal. 64
  • République contre Hara 16 (2) MLR 725
  • Republic contre Bitoni Allan et Latifi Faiti

Quelque chose à faire pratiquement! Pour jouer avec certaines annotations et apprécier la diversité des formats, et en même temps les énormes économies qu'une annotation semi-automatique peut apporter, nous avons mis en place une plateforme doccano pour vous: vous vous connectez ici en utilisant l'utilisateur invité et mot de passe Gu3st # 20.

L'annotation avec des mots-clés aux fins de la classification ICCS s'est avérée encore plus difficile. La Classification internationale de la criminalité à des fins statistiques (CIEC) et il s'agit d'une classification des crimes tels que définis dans les législations nationales et se décline à plusieurs niveaux, chacun avec des degrés divers de spécification. Nous avons considéré principalement le niveau 1 et nous avons voulu classer nos jugements selon les 11 types du niveau 1 comme indiqué dans le tableau.

Tableau 1: Sections de niveau 1 du CIEC
Tableau 1: Sections de niveau 1 du CIEC

Nous avons découvert que cette tâche de classification selon le niveau 1 demande beaucoup de travail et qu'elle est d'une complexité significative (et les complexités ne font qu'augmenter si l'on considère les sous-niveaux de l'ICCS). Tout d'abord, l'expert juridique de notre équipe a classé manuellement toutes les affaires pénales de 2019 selon le niveau 1 du CIEC et a travaillé sur une correspondance entre le Code pénal et la classification du CIEC. C'est excellent.

Nous sommes en train d'étendre cela à la cartographie d'autres lois, codes et statuts du Malawi qui sont pertinents pour les affaires pénales dans la CIEC. C'est en soi tout un projet en soi pour la profession d'avocat et nécessite de traiter beaucoup de texte et de faire des «correspondances parallèles»! Ces tables de correspondance nationales sont toujours en cours d'élaboration dans la plupart des pays et, à notre connaissance, notre travail est le premier d'un tel travail pour le Malawi.

En regardant le niveau 1 de l'ICCS, nous étions très occupés. Notre recherche s'est concentrée sur des questions difficiles et importantes. Comment représenter notre texte pour qu'il puisse être traité efficacement? Quels types d'étiquettes de données sont les plus utiles pour la classification ICCS? Quel type d'annotations utiliser (IOB ou basé sur XML)? Quels algorithmes utiliser (modèles de Markov cachés ou réseaux de neurones récurrents ou mémoire à long terme à court terme)? Mais surtout, nous nous sommes concentrés sur la façon de préparer nos données annotées à utiliser avec ces algorithmes?

Nous devons garder à l’esprit qu’il s’agit d’une classification intéressante, car nous devons distinguer des textes assez similaires. Par exemple, si nous voulions classer si un jugement selon le type de droit auquel il relève, disons s'il s'agit d'une affaire civile ou pénale, cela aurait été un peu plus facile car les mots-clés / vocabulaire utilisés dans les affaires civiles seraient assez différents de ceux utilisés dans les affaires civiles. celle utilisée dans les affaires pénales.

Nous voulons faire la distinction entre les types de crimes, et le langage utilisé dans nos jugements est très similaire. Dans notre ensemble de données, il y a le niveau de difficulté, par exemple, les cas de vol et de meurtre peuvent être plus faciles à différencier, c'est-à-dire les types 1 et 7 du tableau ci-dessus, que, par exemple, de différencier les types 1 et 2.

Nous avons la complication supplémentaire que la plupart des modèles de représentation textuelle qui définissent la pertinence d'un mot-clé comme donnée par sa fréquence (que ce soit TF ou TF-IDF) mais dans notre texte, un mot peut n'apparaître qu'une seule fois et être toujours le mot le plus significatif aux fins de notre classification. Par exemple, un mot-clé qui fait la distinction entre les meurtres de type 1 et de type 2 est «malveillance préméditée» et cela ne peut se produire qu'une seule fois dans le texte du jugement.

Pour remédier à cette situation, on peut extraire d'abord la structure du jugement et se concentrer uniquement sur la partie qui traite de la sentence du juge. En effet, il existe des recherches qui se concentrent uniquement sur l'extraction de divers segments d'un jugement.

Cela peut fonctionner dans de nombreux cas car la phrase est généralement résumée dans un paragraphe. Mais cela ne fonctionne pas dans tous les cas. Cela est particulièrement vrai lorsque l’historique de l’affaire est long, que le crime commis comporte plusieurs facettes ou que l’affaire comporte plusieurs chefs d’accusation, par exemple, la victime du meurtre est un albinos ou une personne handicapée.

Dans de telles situations, il faut une stratégie combinée qui utilise: (1) Un bon ensemble de texte annoté avec les méta-données décrites ci-dessus; (2) la cartographie du Code pénal / des lois / statuts pertinents pour la CIEC; (3) des collocations de mots / ou d'un thésaurus et (4) des concordances pour nous aider à détecter les groupes et à extraire les parties pertinentes des jugements; (5) employant des algorithmes de modélisation de séquence, par exemple, HMM, réseaux neuronaux récurrents, pour l'annotation et la classification.

Dans la première partie du projet, nous nous sommes concentrés sur les tâches (1) - (4) et avons expérimenté dans une certaine mesure (5). Ce que nous voulions, c'est trouver une représentation de notre texte basée sur toutes les informations en (1) - (4) et tenter de l'utiliser dans les algorithmes que nous employons.

Nous avons créé un ensemble de formation de plus de 2500 annotations pour les références à des articles de la loi et plus de 1000 annotations pour les références à d'autres cas. Nous les préparons encore pour qu'ils soient représentatifs du corpus et soient de bons exemples.

Et enfin mais surtout, en travaillant sur ce projet AI4D, cela m'a mis en contact avec des personnes très intelligentes, que je n'aurais pas rencontrées autrement. Nous apprécions le soutien et les conseils de l'équipe AI4D!

Ce projet a été réalisé par l'un des lauréats du Appel à propositions AI4D Africa Innovation 2019. En savoir plus sur ce que les autres gagnants ont fait ici

Bibliographie

https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)

http://fedora.clarin-d.uni-saarland.de/teaching/Corpus_Linguistics/Tutorial_XML.html

Ci-après, un terme utilisé pour désigner le sujet déjà mentionné dans la partie restante d'un document juridique. Ci-après peut également signifier à partir de ce point dans le document.

Commission économique des Nations Unies pour l'Europe. Conférence des statisticiens européens. Rapport de l'Équipe spéciale ONUDC / CEE sur la classification de la criminalité à la Conférence des statisticiens européens. 2011. Disponible: www.unodc.org/documents/data-andanalysis/statistics/crime/Report_crime_classification_2012.pdf>