Numéro 2020_23

Big data : gros flou

L’analyse soigneuse des grandes bases de données (« big data ») pose un grand problème : la fiabilité des données contenues n’est pas homogène, notamment à cause de la diversité des sources et des différences de processus utilisés pour collecter les données, les valider et les enregistrer.
Par exemple, l’analyse des données de consommation de soins des fonctionnaires (plus de 6 millions de dossiers) a trouvé quelques dizaines de cas de grossesse chez… des hommes. Cette absurdité est probablement due au fait que certaines femmes enceintes bénéficiaient de la couverture sociale de leur conjoint, sans être personnellement enregistrée dans la base. Pour éviter que ces femmes ne perdent les prestations auxquelles elles avaient droit, les personnes chargées de compléter le dossier de « liquidation des prestations » ont donc dû utiliser un subterfuge : cocher la case « prestations grossesse » dans le dossier du conjoint. Comme il n’était pas prévu de case précisant que la grossesse ne se rapportait pas au conjoint, il est devenu « enceinte » aux yeux des analystes de données qui ont exploré la base de données quelques années plus tard.
De même, très récemment, l’article publié dans le Lancet démontrant l’inefficacité et la toxicité du traitement du Covid-19 par la chlorexidine présente de grosses lacunes de méthode : les données proviennent de pays et d’hôpitaux extrêmement variés, où le médicament a été utilisé de toutes sortes de façons, chez toutes sortes de patients traités dans toutes sortes d’hôpitaux, avec différentes sortes de méthodes de réanimation.
La société qui a extrait les données est incapable de décrire avec précision cette extrême diversité qui, à elle seule, peut lourdement impacter les résultats annoncés.
Pour devenir sérieux et crédibles, les analystes de « big data » vont devoir apprendre à trier les données qu’ils utilisent en fonction de leur qualité et leur fiabilité. Tâche d’autant plus difficile que les bases de données actuelles ne sont pas capables de fournir ce type d’information.

Sources : Open Rome, CNETH, Ecotherm, Lancet, mai et juin 2020.

Alcool

Aimez-vous ce numéro ?

Pas encore de vote pour ce numéro