Photo par Nicolas Picard sur Unsplash

Les meilleures sites Web pour un réseau d'alertes analytique covid

Durée de lecture : 9 mn

Objectif

L'objectif est d'identifier les sites qui ont le plus de chance d'être utilisés par les internautes lorsqu'ils recherchent des informations sur les signaux covid. Pour simplifier, vous avez de la fièvre, donc vous allez chercher le terme  'Fièvre' dans Google. Les premiers résultats dans Google sont les sites les plus visités par les internautes. Dans le cadre de notre étude, les visites sur certaines pages de ces sites peuvent indiquer des signaux complémentaires aux tendances de Google (voir méthodologie).  Ainsi réussir à créer un réseau d'alertes sur le Web qui utilise les visites de pages qui correspondent à des signaux peut s'avérer pertinent (mais reste à démontrer).

Les datasets sont disponibles en entier sur le dépôt de données de recherche Zenodo (n2t.net/ark:/68061/g21335). 

Méthodes

Les tableaux de 1 à 4 présentent les résultats des 20 premières positions (top 20) dans Google de 4 types de liste de requêtes. Les tables 1 et 2 présentent les résultats en français pour Google Suisse depuis la région de Genève (IP dans le canton de Genève) et  les tables 3 et 4 présentent les résultats en anglais pour Google monde (google.com) depuis les États-Unis. Les tables 1 et 3 présentent des résultats pour des requêtes dans Google à partir de signaux simples (fièvre, toux, douleur du thorax, etc.) sans les termes 'covid' et 'coronavirus', alors que les tables 2 et 4 présentent  des résultats pour des requêtes 'amplifiées' par les termes 'covid' et 'coronavirus' pour chaque signal simple (fièvre covid, fièvre coronavirus, toux covid, toux coronavirus, etc.).

Seuls les 20 premiers résultats des moteurs de recherches sont retournés par notre système. Cependant, il est à noter que bien souvent Google retourne plus de 20 résultats pour un top 20, notamment avec les encadrés (extraits optimisés) et les réponses aux questions au début de la page de résultats, voir figure 1. Les nombres et flèches en rouge indiquent les positions considérées (au sens du SEO) dans le cadre de notre étude pour les résultats naturels (dit organiques et donc non publicitaires). 

Figure 1 : Résultats de Google pour la requête Toux et positionnement dans le cadre de cette étude (capture du 17 septembre 2020)
Figure 1 : Résultats de Google pour la requête Toux et positionnement dans le cadre de cette étude (capture du 17 septembre 2020)

Dans les tables de 1 à 4, les colonnes indiquent :

  1. Rang du site Web  identifié par l'étude en considérant toutes les requêtes de ce groupe de requêtes (i.e. langue fr/en et signaux simples/amplifiés).
  2. Site Web (ou nom de domaine) est donné en seconde colonne, il permet d'identifier quel est le site Web le plus visible en moyenne par rapport à ce groupe de requêtes. 
  3. Position moyenne calculée entre toutes les requêtes. Pour pouvoir calculer une moyenne, il a été décidé de mettre arbitrairement la plus mauvaise position à 30 pour un site Web qui n'apparait pas dans les résultats (sachant que dans le top 20 des résultats du moteur de recherche, la position la plus haute est de 26**).
  4. Pourcentage de signaux présents dans le top 20 des résultats de moteurs de recherche. Cet indice permet d'identifier quels sont les sites qui sont les plus présents dans la plupart des requêtes.
  5. Position moyenne pondérée par le pourcentage de signaux. Le rang R indiqué par la première colonne provient de cette valeur.
  6. HONcode permet d'indiquer si le site Web dispose d'un certificat HONcode ou pas, et si ce certificat est encore valide en septembre 2020 (date de l'étude). Le HONcode est un code de bonne conduite en 8 principes, pour les sites de santé, qui existe depuis plus de 20 ans.
  7. Type, permet d'identifier si le site est un  site santé (santé), gouvernemental (gouv), media (media), encyclopédique (dict) ou académique/universitaire (édu). Cette sélection a été par les auteurs de façon empirique. A noter que les médias n'ayant pas un nom de domaine spécifique à la santé ne sont pas considérés comme site de santé (i.e. sante.journaldesfemmes.fr par rapport à www.femmeactuelle.fr/santé). Certains site Web peuvent appartenir à plusieurs type à l'instar du site 'www.bag.admin.ch' qui est à la fois un site gouvernemental mais aussi sur la santé.

L'astérisque au niveau du nom du site Web, indique un site de santé qui peut être potentiellement pertinent pour la création du réseau d'alertes analytique covid. 

Résultats

Les quatre tops 20 présentés ici sont issus de l'agrégation des tops 20 de chaque résultat de requête. Ainsi le premier résultat donne le top 20 provenant de 25 requêtes différentes et correspond aux 20 premiers sites Web les mieux positionnés parmi les 194 sites Web dans les 25 résultats de recherches (sachant que beaucoup de site Web n'apparaissent qu'une fois). 

Signaux simples pour les sites en suisses francophones

Pour une liste de 25 requêtes, 194 sites Web différents ont été identifiés mais seul le top 20 est ici considéré (table 1). Le site Web le mieux positionné est 'www.passeportsante.net' car il a obtenu une position moyenne pondérée de 8.4 et est présent dans 92% des résultats de recherche. Le site en seconde  position a déjà une position moyenne pondérée de 17.1 et une présence de 80% dans les différents résultats de recherche. 

  • Parmi les sites sont identifiés :
    • 65% (13/20) santés,
    • 30% (6/20) médias,
    • 10% (2/20) encyclopédiques,  
    • et 5% (1/20) académiques
  • En ce qui concerne le HONcode :
    • 62% (8/13) avec certificat,
    • dont 38% (3/8) sont encore valides
Table 1 : Top 20 des sites Web répondant aux signaux covid simples dans Google Suisse et en français au 17 septembre 2020 
RSite WebPosition moyenne

% de présence dans Top 20

Position moyenne pondérée

HONcode

Type

1www.passeportsante.net*6.592%8.4expirésanté
2www.planetesante.ch*13.880%17.1validesanté
3www.msdmanuals.com*13.776%17.6validesanté
4www.revmed.ch*12.268%17.9expirésanté
5sante.journaldesfemmes.fr*14.972%19.1nonmedia/santé
6fr.wikipedia.org15.672%19.7nondict
7www.doctissimo.fr*16.264%21.1nonsanté
8www.santemagazine.fr*19.860%23.9nonsanté
9sante.lefigaro.fr*22.136%27.2nonmedia
10www.allodocteurs.fr*23.432%27.9expirésanté
11www.femmeactuelle.fr24.032%28.1nonmedia
12www.topsante.com*24.624%28.7nonmedia
13www.pourquoidocteur.fr*24.924%28.8expirésanté
14www.futura-sciences.com25.724%29.0nonmedia
15www.hug-ge.ch*25.824%29.0nonsanté/édu
16www.creapharma.ch*25.520%29.1validesanté
17hellocare.com*25.720%29.1nonsanté
18www.ameli.fr*25.720%29.1expirésanté
19www.larousse.fr26.420%29.3nondict
20www.youtube.com26.620%29.3nonmedia

Le dataset au complet :  https://n2t.net/ark:/68061/g2w92m

Signaux amplifiés pour les sites suisses francophones

Pour une liste de 50 requêtes, 164 sites Web différents ont été identifiés mais seul le top 20 est ici considéré (table 2). Le site Web le mieux positionné est 'www.bag.admin.ch' car il a obtenu une position moyenne pondérée de 14.6 et est présent dans 78% des résultats de recherche. Le second site a déjà une position moyenne pondéré de 21.8 et une présence de 62% dans les différents résultats de recherche.

  • Parmi les sites sont identifiés :
    • 45% (9/20) média,
    • 40% (8/20) santés,
    • et 15% (3/20) gouvernementaux,
    • et 5% (1/20) adacémiques.
  • En ce qui concerne le HONcode :
    • 62% (4/8) avec certificat
    • dont aucun valide
Table 2 : Top 20 des sites Web répondant aux signaux covid amplifiés dans Google Suisse et en français au 17 septembre 2020 
RSite WebPosition moyenne

% de présence dans Top 20

Position moyenne pondérée

HONcode

Type

1www.bag.admin.ch*10.278%14.6expirégouv/santé
2www.lenouvelliste.ch16.862%21.8nonmedia
3www.safetravel.ch*16.852%23.1expirésanté
4www.heidi.news18.458%23.2nonmedia
5www.24heures.ch18.558%23.3nonmedia
6www.revmed.ch*18.750%24.4expirésanté
7www.rts.ch19.650%24.8nonmedia
8www.letemps.ch20.246%25.5nonmedia
9sante.journaldesfemmes.fr*21.450%25.7nonmedia/santé
10www.passeportsante.net*20.442%26.0expirésanté
11www.hug.ch*22.548%26.4nonsanté/édu
12www.bbc.com21.940%26.8nonmedia
13www.tdg.ch21.538%26.8nonmedia
14www.doctissimo.fr*22.440%27.0nonsanté
15www.hopitalduvalais.ch*21.132%27.2nonsanté
16www.msf.ch*22.336%27.2nonsanté
17www.lematin.ch22.736%27.4nonmedia
18www.ge.ch*23.638%27.6nongouv
19www.vd.ch*23.634%27.8nongouv
20www.arcinfo.ch23.832%28.0nonmédia

Le dataset au complet :  https://n2t.net/ark:/68061/g2rk8d

Signaux simples pour les sites US anglophones

Pour une liste de 17 requêtes, 139 sites Web différents ont été identifiés mais seul le top 20 est ici considéré (table 3). Le site Web le mieux positionné est 'www.healthline.com' car il a obtenu une position moyenne pondérée de 7 et est présent dans 94% des résultats de recherche. Le second site est très proche avec une position moyenne pondéré de 7.3 et une présence de 94% dans les différents résultats de recherche.

  • Parmi les sites sont identifiés :
    • 95% (19/20) santés,
    • 25% (5/20) gouvernementaux,
    • et 10% (2/20) académiques
  • En ce qui concerne le HONcode :
    • 58% (11/19) avec certificat
    • dont 45% (5/11) sont encore valides
Table 3 : Top 20 des sites Web répondant aux signaux covid simples dans Google US et en anglais au 17 septembre 2020 
RSite WebPosition moyenne

% de présence dans Top 20

Position moyenne pondérée

HONcode

Type

1www.healthline.com*5.594%7.0validesanté
2www.mayoclinic.org*5.994%7.3validesanté
3www.webmd.com*7.888%10.4validesanté
4medlineplus.gov*15.476%18.8expirésanté/gouv
5www.medicinenet.com*16.565%21.3validesanté
6www.medicalnewstoday.com*18.859%23.4expirésanté
7www.cdc.gov*20.553%25.0nonsanté/gouv
8www.ncbi.nlm.nih.gov*20.041%25.9expirésanté/gouv
9www.health.harvard.edu*21.341%26.4nonsanté/édu
10www.nhs.uk*22.647%26.5nonsanté/gouv
11en.wikipedia.org21.541%26.5nondict
12my.clevelandclinic.org*23.035%27.5expirésanté
13kidshealth.org*23.835%27.8expirésanté
14www.hopkinsmedicine.org*25.529%28.7nonsanté
15www.who.int*24.824%28.8expirésanté/gouv
16www.mountsinai.org*26.029%28.8nonsanté
17www.lung.org*25.724%29.0nonsanté
18www.nhsinform.scot*25.924%29.0nonsanté
19www.merckmanuals.com*26.624%29.2validesanté
20www.urmc.rochester.edu*25.518%29.2nonsanté/édu

Le dataset au complet :  https://n2t.net/ark:/68061/g2ms7v

Signaux amplifiés pour les sites US anglophones

Pour une liste de 37 requêtes, 209 sites Web différents ont été identifiés mais seul le top 20 est ici considéré (table 4). Le site Web le mieux positionné est 'www.cdc.gov' car il a obtenu une position moyenne pondérée de 5.4 et est présent dans 95% des résultats de recherche. Le second site  à déjà une position moyenne pondéré de 13.8 et une présence de 78% dans les différents résultats de recherche.

  • Parmi les sites sont identifiés :
    • 80% (16/20) santés,
    • 20% (4/20) gouvernementaux,
    • 15% (3/20) médias,
    • et 5% (1/20) académiques
  • En ce qui concerne le HONcode :
    • 58% (11/19) avec certificat
    • dont 45% (5/11) sont encore valides

Table 4 : Top 20 des sites Web répondant aux signaux covid amplifiés dans Google US et en anglais au 17 septembre 2020 

RSite WebPosition moyenne

% de présence dans Top 20

Position moyenne pondérée

HONcode

Type

1www.cdc.gov*4.095%5.4nonsanté/gouv
2www.who.int*9.478%13.8expirésanté/gouv
3www.webmd.com*10.878%14.9validesanté
4www.healthline.com*15.470%19.7validesanté
5www1.nyc.gov*17.951%23.8nongouv
6www.health.harvard.edu*18.654%23.8nonsanté/édu
7health.mountsinai.org*20.241%26.0nonsanté
8www.hopkinsmedicine.org*22.143%26.6nonsanté
9www.health.com*22.938%27.3nonsanté
10www.ncbi.nlm.nih.gov*23.135%27.6expirésanté/gouv
11www.nytimes.com24.841%27.9nonmedia
12www.umms.org*24.935%28.2nonsanté
13www.novanthealth.org*25.524%28.9nonsanté
14www.statnews.com25.524%28.9nonmedia
15www.uhhospitals.org*26.427%29.0nonsanté
16www.hackensackmeridianhealth.org*26.427%29.0nonsanté
17www.sciencealert.com25.722%29.1nonmedia
18www.mayoclinic.org*26.419%29.3validesanté
19www.emersonhospital.org*26.822%29.3nonsanté
20www.medpagetoday.com*26.519%29.3nonsanté

Le dataset au complet :  https://n2t.net/ark:/68061/g2h34w

Discussion

La méthode présentée dans cette étude a permis d'obtenir une liste de sites Web qui sont les plus visibles (top 20) pour des requêtes qui correspondent aux signaux du Covid. Parmi ses résultats qui semblent pertinents, la plupart proviennent de sites de santé mais aussi de sites gouvernementaux qui font références. 

Parmi les tops 20 des 4 types de jeu de requêtes, l'astérisque indique une sélection des auteurs de cette étude basée sur l'appartenance au site de santé, gouvernementaux ou encore académiques. En effet, dans un premier temps, les auteurs ont considérés les sites de type média non orientés santés, comme trop dynamiques et moins pertinents pour un suivi longitudinal (dans le temps). Les sites encyclopédiques pourraient très bien en théorie faire partie du réseau surtout quand on considère le très bon positionnement de Wikipedia en général. Malheureusement, Wikipedia en l'occurrence qui offre ces analytiques Web ne permet pas d'identifier l'origine géographique de ses utilisateurs pour des raisons de confidentialités. 

Le HONcode qui peut être un indicateur de qualité, n'a pas été utilisé dans notre étude comme critère de sélection mais pourra être à considérer pour les sites Web faisant partie de ce réseau pour une adoption ou une mise à jour de leur conformité HONcode.

Plutôt que de prendre arbitrairement les tops 20, il serait possible et pertinent d'effectuer la sélection des sites avec un seuil basé soit sur le pourcentage de présence (par exemple >30%) ou soit la position moyenne pondérée (par exemple <30).  

Le plus difficile reste ensuite à faire ... contacter et motiver ces sites Web pour savoir s'ils veulent faire partie de ce réseau.