EN FR

ACCUEIL ›BLOGS

Création d'un pipeline de données pour une application d'apprentissage automatique du monde réel
-

29 mars 2020

Nous sommes partis avec une nouvelle idée; développer une application qui (i) collecterait les données de tension artérielle (TA) et d'activité d'un individu, et (ii) ferait des prévisions futures de TA pour l'individu avec ces données.

Les principales exigences de cette étude étaient donc:

  1. La possibilité d'obtenir les données BP d'un individu.
  2. La possibilité d'obtenir un enregistrement correspondant de leurs activités pour les lectures de BP.
  3. L'identification d'un algorithme d'apprentissage automatique (ML) approprié pour prédire la future BP.

Pré-tester l'idée - Le pré-test de l'idée était une première étape critique de notre processus avant de pouvoir procéder à la collecte des données réelles. Le processus de collecte de données nécessiterait l'achat de montres intelligentes appropriées et le développement d'une application mobile, deux activités longues et coûteuses. À ce stade, nous avons appris nos premières leçons; (i) il n'y avait pas de précédent par rapport à ce que nous tentions et par la suite (ii) il n'y avait pas d'ensembles de données de BP accessibles au public disponibles pour une utilisation préalable de nos idées.

Simuler les données de test - L'implication était donc que nous devions simuler des données basées sur les variables identifiées pour notre étude. Les variables utilisées étaient la lecture de la PA systolique et diastolique, l'activité et un horodatage. Cela a été fait en utilisant une feuille de calcul et les données enregistrées dans un fichier de valeurs séparées par des virgules (csv). Le csv est un format de fichier courant pour stocker des données dans ML.

Identifier un modèle ML approprié - Les données simulées et celles de l'étude finale allaient être des séries chronologiques. La nécessité de prédire à la fois la TA systolique et diastolique en utilisant les lectures, l'activité et les horodatages précédents signifiait que nous manipulions des données de séries chronologiques multivariées. Nous avons donc testé et opté pour un modèle LSTM pour les séries chronologiques prévision basée sur un guide du Dr Jason Browniee

Développer l'infrastructure de collecte de données - L'absence de données préexistantes pour le développement impliquait que nous devions collecter nos données. La nature unique de notre étude, la collecte de données sur la PA et l'activité d'individus, a appelé à une approche innovante du processus.

  • Collecte de données BP - pour cet aspect de l'étude, nous avons établi que le meilleur moyen d'y parvenir serait l'utilisation de montres intelligentes avec des capacités de collecte et de transmission de données BP. En plus de la collecte de données sur la PA, un autre facteur clé pour la sélection de l'appareil était l'abordabilité. Cela a été occasionné à la fois par les circonstances de l'étude, les ressources limitées disponibles et, plus important encore, le contexte d'utilisation d'une solution finale probable; la montre devrait être abordable pour permettre une large adoption de la solution.

La montre identifiée était le moniteur de fréquence cardiaque et cardiaque F1 Wristband.

  • Collecte de données d'activité - pour cet aspect de l'étude, une application mobile a été identifiée comme méthode de choix. L'application a été développée pour être en mesure de recevoir des lectures de PA de la montre intelligente et de collecter également des données d'activité de l'utilisateur.

Tester la collecte de données - La collecte de données montre intelligente - application mobile a été testée et un certain nombre d'observations clés ont été faites.

  • Défis de la montre intelligente - Dans la mesure où la montre identifiée est abordable, elle ne fonctionne pas bien pour les personnes à la peau foncée. Il s'agit d'un défi majeur étant donné que la majorité des personnes au Kenya, le lieu de l'étude et l'utilisation éventuelle du système, ont la peau foncée. En conséquence, nous examinons d'autres options qui peuvent fonctionner dans un sens universel.
  • Défis de connectivité des applications mobiles - Au départ, l'application ne se connectait pas à la montre intelligente, mais cela a été résolu et la collecte de données est désormais possible.

Prochaines étapes

  • Piloter la collecte de données - Nous travaillons actuellement sur le pilotage de la solution avec au moins 10 personnes sur une période de 2 à 3 semaines. Cela nous donnera une idée de la manière dont l'étude finale sera menée en ce qui concerne:
    • Comment les répondants utilisent la solution,
    • Le type de données que nous pourrons réellement obtenir des répondants
    • L'adéquation des données à l'exercice d'apprentissage automatique.
  • Développer et déployer le modèle LSTM - Nous développerons ensuite le modèle LSTM et le déploierons sur l'appareil mobile pour examiner le caractère pratique de notre approche proposée de la prédiction de la PA.