image illustrative des feux d'artifices sur le lac de Genève depuis les toits
Photo par ben o'bro sur Unsplash

La genèse

Durée de lecture : 5 mn

Résumé

Au vu du manque de réactivité de nos instances sanitaires et gouvernementales, les méthodes de surveillance épidémiologique classique, bien qu’indispensable, ne semblent pas être adaptées pour des crises telles que covid-19. Nous proposons une approche complémentaire de vigilance épidémiologique localisée, basée sur des traces de prodromes numériques issues des requêtes de moteurs de recherche d’une part et des visites de pages de référence idoines d’autre part. Google trends nous permet d’étudier les tendances des requêtes dans Google de façon longitudinale avec une précision de localisation au niveau des pays, des régions et des villes [1-3]. En effet, les tendances de simples mots clés relatifs aux symptômes de la maladie tels que « fièvre » ou encore des mots reliés tels que « thermomètre » sont significativement marquées pour la crise du covid-19 dans Google Trends (voir figures suivantes).

Pour compléter cette ressource, nous proposons une approche innovante de partage de statistiques géolocalisées et anonymisées de visites de pages de sites de santés qui permettront de connaitre par exemple que la page « fièvre » a été visité par une région en particulier. Les résultats seront accessibles via un site Web qui proposera des cartes interactives et un export des données, ainsi que la possibilité aux sites de santé de participer aux partages d’analytique Web. L’idée est de partager ces informations inédites et objectives comme indicateur de tendance de prévalence pour étudier la réalité, accompagner le déconfinement et possiblement mieux anticiper de nouvelles crises, cependant les limitations méthodologiques seront évaluées.

Problématique

La grande majorité des gouvernements et l’OMS ont été pris de cours par l’épidémie de COVID-19 pour différentes raisons. Les méthodes de surveillance épidémiologique courantes aussi bien internationale que nationale, bien qu’indispensables, ont montré des lacunes. Ces méthodes se basent sur des cas avérés qui par définition apparaissent lorsque la crise est déjà installée et prennent du temps à remonter au décideur surtout en période de crise où l’urgence est la prise en charge des malades. Au niveau international, on peut aussi douter de l’objectivité de certains chiffres nationaux qui rendent plus difficile la lecture de la réalité et donc l’anticipation éclairée.
Bien que maintenant consciente les instances sanitaires baseront principalement leurs décisions futures sur les mêmes approches pour réaliser là où les phases de déconfinement avec un retard dû au temps de récolte d’information. À l’ère numérique, on annonce des systèmes de traçage fins et anonymes sur smartphone qui pourront accompagner le déconfinement. Cette approche semble pertinente, mais ne sera certainement pas suffisante pour différentes raisons telles que le risque de non-compliance, la défiance, la problématique de la fracture numérique ou encore le risque de manipulation.

Hypothèse qui guide cette recherche :

Les données issues de Google Trends et/ou de l’analytique Web permettent de détecter les premiers signes et la progression d’une épidémie avec une granularité satisfaisante.

Méthodologie

Les mots clés « signaux » permettant d’identifier potentiellement un individu porteur ou un foyer familial seront identifiés grâce notamment à la liste des symptômes du covid-19 (d’autres sources peuvent être envisagées telles que Google Suggest, Google Trends ou des wordembeddings sur les tweets ou média relatant le covid-19).
Ces mots seront validés par l’utilisation de Google Trends pour mesurer les déviations de tendances de requêtes par rapport à la normale avec un seuil qu’il reste à identifier. Ensuite, chaque mot clé sera utilisé pour récupérer les tendances historiques longues ainsi que les tendances sur 2 ou 3 jours pendant la durée de la crise pour une zone particulière. Par exemple pour la Suisse il sera possible d’obtenir une gradation originale et plus fine de la distribution du terme « fièvre » en fonction de chaque canton. Ainsi chaque mot clé considéré générera un dataset inédit de tendance localisé au jour le jour.
Pour les petites zones géographiques, comme Google Trend ne garde qu’un échantillon de toutes les requêtes, il est préférable de combiner cette information avec une autre information inédite. Cette nouvelle source est le nombre d’accès aux pages d’information proposant une description des mots clés signaux, comme par exemple la page « fièvre » de Wikipedia » qui suit les tendances de Google Trends [4]. Comme 80% des sites Web utilisent Google Analytics, il sera demandé aux sites partenaires tels que HON, de partager (via API) les provenances géographiques, voir même démographique de ces pages signales. Notre hypothèse est qu’au vu de la situation de crise, d’autres sites de santé partenaire seront nombreux à nous donner suffisamment de données significatives et générer un cercle vertueux de partage d’analytique.
Des résultats de tendance de certains pays seront comparés avec les sources officielles pour valider notre approche.

Les limitations de l'approche

  • L'échantillonnage de Google
    • Google ne garde pas toutes les requêtes  dans Google Trends
  • La normalisation opérée par Google
    • de 0 à 100 par rapport à la valeur maximum étudiée
  • Représentativité sur Internet
    • Tout le monde n'utilise pas Internet et Google (par ex. les Chinois)
  • L'ambiguïté en langage naturel et les causes de recherche d'information diffèrent
    • "Fièvre" et "Fièvre du samedi soir"
  • L'influence médiatique

Remerciements à (au):

  • Domaine économie et services de la HES-SO qui a financé le projet pour une durée de 4 mois.   
  • Publii qui est un CMS fantastique et qui a permis de générer ce site Web statique.
  • Flourish qui permet de créer de magnifique dataviz publiques, gratuitement.
  • Github qui continue à héberger ce site efficacement malgré le rachat par Microsoft.

Références

  1. Choi, H., & Varian, H. (2012). Predicting the present with Google Trends. Economic record, 88, 2- 9.
  2. Dugas, A. F., Hsieh, Y. H., Levin, S. R., Pines, J. M., Mareiniss, D. P., Mohareb, A., ... & Rothman, R. E. (2012). Google Flu Trends: correlation with emergency department influenza rates and crowding metrics. Clinical infectious diseases, 54(4), 463-469. 
  3. Arora, V. S., McKee, M., & Stuckler, D. (2019). Google Trends: opportunities and limitations in health and health policy research. Health Policy, 123(3), 338-341. 
  4. Brigo, F., Igwe, S. C., Nardone, R., Lochner, P., Tezzon, F., & Otte, W. M. (2015). Wikipedia and neurological disorders. Journal of clinical neuroscience, 22(7), 1170-1172.