News - 21.04.2017

La révolution du big data au service de la science

Conférence de Abdelhalim Rafrafi à l’IPT

Le big data (ou données massives) au service de la génétique. Voilà un thème qui ne parle pas au commun des mortels. Pourtant, dans le domaine de la santé, le big data rend possible la collecte d’une quantité importante d’informations liées à la santé. L’enjeu est colossal pour l’avenir de la recherche médicale car l’exploitation de ces données permet l’identification des facteurs de risque liés à une maladie donnée, l’amélioration de la pharmacovigilance ou encore un suivi pointilleux de l’efficacité des traitements. C’est ce qu’a expliqué Abdelhalim Rafrafi, ingénieur de recherche et senior data analyst (big data) au Laboratoire d’Informatique de l’Université Pierre et Marie Curie (Paris VI), au cours d’une conférence donnée le 18 avril 2017 à l’Institut Pasteur de Tunis et intitulée «Le big data au service de la génétique».

Le Web a changé la donne

«Mon objectif est de proposer une vulgarisation scientifique des processus permettant l’automatisation de l’analyse des données avec des méthodes basées sur l’apprentissage automatique ou Machine Learning», explique M. Rafrafi. Car l’augmentation rapide de la force de calcul des ordinateurs, couplée à la diminution du coût de stockage, a contribué à la naissance d’une nouvelle discipline: la science des données. Mêlant statistique et informatique, cette science peut embrasser plusieurs domaines à condition de disposer d’une certaine quantité de données à analyser.

Rafrafi, qui a commencé à s’intéresser à la problématique du data en préparant sa thèse, explique que l’essor du Web a changé la donne au niveau du traitement des données : celles-ci ne sont plus structurées qu’à 20%. Le reste est constitué de données non structurées, donc imprévisibles : images, fichiers PDF, données textuelles, factures, etc.

Vers une médecine de précision

Quid de la génétique, thème central du propos de M. Rafrafi ? «Le génome humain est composé de 6 milliards de paires de nucléotides, environ 22 000 gènes, 46 chromosomes et tient sur un disque de 500 GB, explique-t-il. Il est donc nécessaire de recourir à des méthodes intelligentes pour extraire de l’information dans un laps de temps réduit.»

«Les données liées à la santé peuvent désormais être stockées et mêlées à d’autres types d’informations comme des données qui concernent l’environnement, a-t-il ajouté. Il est ainsi devenu possible de travailler sur des génomes, des images, l’ADN, les protéines…»

L’exemple du traitement du diabète est éloquent : à partir d’images de rétines, il est possible de prédire des traitements. Autre exemple : pour parvenir un caractériser un certain type de cancer, le laboratoire analyse plusieurs génomes provenant aussi bien de personnes saines que de personnes atteintes par la maladie concernée. En soulignant les variations entre les génomes, qui peuvent être révélatrices d’un problème, la caractérisation de la maladie concernée devient possible.

On voit d’ailleurs apparaître des partenariats entre des laboratoires, comme Roche, avec des groupes d’informaticiens pour pousser plus loin, via l’élaboration de modèles automatiques, les recherches sur les causes du cancer. «Un processus qui nécessite la mise en réseau de plusieurs compétences : chercheurs, informaticiens, spécialistes du data, etc.», souligne Abdelhalim Rafrafi.

Cette synergie devant par la suite faire en sorte que les données dispatchées puissent être regroupées dans un ensemble cohérent permettant de trouver des solutions. «Des prédictions recourant à des formules mathématiques et basées sur l’analyse des répétitions existant parmi les données peuvent ainsi faciliter le diagnostic de maladies», précise-t-il.

Nejiba Belkadi