télécharger 198.38 Kb.
|
3. Les données de navigation et les résultats des analyses descriptives 3.1 Qu’est-ce que les données de navigation ? Au-delà des enquêtes conventionnelles, depuis 1998/1999, un nouveau moyen d’analyser les usages en ligne s’est présenté. Les caractéristiques techniques du réseau Internet permettent en effet de rassembler une source d’informations, appelée ‘fichiers Log’ (Log files) par les informaticiens, et souvent renommée dans d’autres disciplines ‘données de parcours’ (Beaudouin & Licoppe, 2002), ‘flux de données’ (Lebart & Beaudouin, 2003), ‘traces d’usages’ (Montgomery & Faloutsos, 2000) ou encore ‘clickstream data’ dans la littérature anglo-saxonne (Goldfarb, 2002a, 2002b, 2003). De notre côté, nous emploierons la notion générique de ‘données de navigation’. Il existe deux sources de données de navigation, en fonction du lieu ‘physique’ où sont enregistrées ces informations. Nous parlons alors des données de navigation intra-site et des données de navigation inter-sites. Nous allons tout d’abord nous intéresser à la première source d’informations : les données de navigation intra-site. Pour mieux identifier le format des données de navigation intra-site, nous proposons de présenter la structure simplifiée d’un site Internet (graphique 1). Graphique 1: Exemple d’une structure simple de site Internet ![]() Dans ce schéma, chaque point (ou nœud) correspond à une page Internet, et les segments reliant ces points annoncent qu’il existe un lien hypertexte amenant aux sous-branches immédiates de l’arbre. Notons qu’à titre illustratif, cette structure est simplifiée à l’extrême. Avec le développement de certains langages (le PHP par exemple) et l’utilisation des bases de données, la structure des sites est en effet devenue plus complexe : ces derniers sont rendus dynamiques, c’est à dire que leur architecture s’adapte en temps réel à la demande ou au profil des visiteurs. Cela complique le traitement des données de navigation, sans toutefois remettre en cause leur richesse potentielle. Dans cette structure simplifiée, chaque page est matérialisée par une adresse Internet spécifique, appelée Uniform Resource Locator – URL, par exemple http://www.education.gouv.fr ou encore http://www.internet.gouv.fr. Cette adresse est souvent visible non loin de la barre de tâches des navigateurs Internet1 et contient au moins trois types d’informations : 1. Tout d’abord, l’adresse URL permet d’identifier le nom du site (le nom de domaine). Nous parlons alors d’adresse ‘racine’, puisqu’elle correspond à la racine de l’arbre présenté dans le graphique 1 (exemple : http://www.education.gouv.fr). Rappelons d’autre part que l’extrémité de chaque adresse URL (dans l’exemple précédent, le ‘.fr’ peut donner une première indication sur le contenu du site (site éducatif, commercial, institutionnel, associatif, etc) ; 2. ensuite, puisque la plupart des sites Internet possèdent plus d’une page, chaque page supplémentaire est identifiée par une adresse URL spécifique (exemple : http://www.education.gouv.fr/B/). Le nom de chacune des pages (B dans l’exemple précédent) procure donc des informations supplémentaires sur l’offre de biens ou services proposée par le site, il suffit pour cela d’identifier le contenu respectif des pages, en visionnant ces dernières sur Internet2 ; 3. enfin, toujours à partir des adresses URL, il est parfois possible de caractériser certains usages, via les protocoles d’échange de l’information sur Internet. Chaque protocole est identifié au niveau de l’adresse racine. Le protocole ‘http’ est considéré comme générique (s’agissant de notre exemple : http://www.education.gouv.fr). Par contre, le protocole ‘https’ annonce que les informations transmises en ligne sont sécurisées. Il peut donc s’agir d’un achat en ligne (ou d’une volonté d’acheter). Le protocole ‘ftp’ (par exemple ftp://ncstrl-ftp.mit.edu) décrit un téléchargement ou un envoi d’informations en ligne, etc3. Dans certains cas, la simple lecture d’une adresse URL permet de rassembler des informations précises. Par exemple, à partir de l’adresse suivante, ‘http://www.google.fr/search?hl=fr&ie=UTF-8&oe=UTF-8&q=sciences+economiques&meta=’, nous relevons que l’internaute a utilisé le moteur de recherche Google dans sa version française, pour effectuer une requête intégrant les mots clés ‘sciences’ et/ou ‘économiques’. Ce schéma descriptif correspond toutefois à une situation idéale. Parfois, certaines adresses URL sont dynamiques, c'est-à-dire que leur contenu textuel change alors que la page Internet affichée reste la même d’une visite à une autre. Cette technique est utilisée lorsque le gestionnaire du site veut protéger le contenu d’une ou de plusieurs pages. Dans ce cas, la seule information exploitable par le chercheur concerne l’adresse racine du site. Désormais, dans une acception plus dynamique, nous remplaçons l’adresse URL de chaque page par des lettres (exemple : ‘A’ pour ‘http://www.education.gouv.fr’ – voir la partie droite du graphique 1). Le chemin de navigation possible d’un visiteur (ou encore son parcours effectué sur le site) peut correspondre à la séquence ACEF. Autrement dit, l’internaute est arrivé sur la page A du site, puis a cliqué sur un lien pour aller sur la page C de ce même site, et de lien en lien, ce visiteur a terminé sa navigation à la page F. Remarquons que la structure du site oblige ici les internautes à suivre un chemin ‘balisé’. Il faut donc avoir à l’esprit que l’étude des comportements de navigation intra-site ne peut ignorer la structure du site, c'est-à-dire la manière dont il a été construit. Les données de navigation intra-site correspondent donc à l’enregistrement de l’adresse URL de chaque page visitée sur un même site Internet. Concrètement, les données de navigation sont des fichiers informatiques (appelés fichiers Log) contenant uniquement du texte. Ces fichiers sont la plupart du temps créés automatiquement (ils grandissent alors au fur et à mesure des visites4 ) et appartiennent au gestionnaire du site Internet5 (appelé aussi webmaster). En dehors de certaines contraintes techniques (notamment l’existence d’un système de cache6 ), il est donc possible d’observer - à partir des fichiers Log - le chemin de navigation des visiteurs sur un site. Nous avons jusqu’ici discuté des activités de navigation de ![]() ![]() ![]() Notons que la littérature en informatique parle souvent de ‘données Log’ ou de ‘données serveur’ lorsqu’il s’agit des données de navigation intra-site. En effet, ces dernières sont en réalité enregistrées sur des serveurs Internet. D’autre part, les données de navigation inter-sites seront davantage appelées (par cette même littérature) ‘données client’, car, là encore, ces dernières sont enregistrées à partir des ordinateurs personnels de chaque individu, nommés ‘client’. Lorsque les autres disciplines (notamment l’économie, le marketing ou encore la sociologie) parlent des clickstream data, cette appellation s’adresse la plupart du temps aux données de navigation inter-sites. Dans le cas contraire, il y a un abus de langage. Il va de soi qu’un tel procédé d’enregistrement des comportements de navigation ne s’effectue pas à l’insu des utilisateurs. L’observation des activités de navigation inter-sites (voir même intra-site) est soumise en France à la loi ‘informatique et liberté’ (nommée aussi Loi sur l’Economie Numérique - LEN)7. Malgré cela, il faut bien être conscient que de nombreux modèles économiques sur Internet fonctionnent sur une logique d’exploitation des données de navigation. Cette dernière peut parfois être illégale en fonction de la loi en vigueur dans chaque Etat (voir à ce propos le débat relatif aux ‘logiciels espions’, les spywares). En dehors de cela, et dans un cadre légal, la communauté scientifique dispose potentiellement d’une nouvelle source d’informations pour étudier les usages sur Internet. Voyons désormais de quelle façon ces données ont été exploitées dans la littérature et quels sont les principaux résultats relatifs aux comportements de navigation. 3.2 La littérature circonscrite à l’analyse des données de navigation et les résultats des analyses empiriques. Les données de navigation intra-site ou inter-sites permettent de construire des variables permettant de caractériser les comportements des internautes. Ces variables sont le plus souvent le nombre de clics ou de visites sur les sites Internet. Elles ont d’abord été utilisées par les chercheurs en informatique, principalement pour tenter de résoudre les problèmes de congestion des flux d’information sur le réseau Internet. En effet, si ces chercheurs arrivaient à identifier des comportements de navigation réguliers, il devenait possible d’anticiper ces derniers et de modifier en conséquence certaines caractéristiques techniques de l’Internet (à savoir la gestion des fichiers cache, la structure des sites Internet, ou encore la conception des navigateurs), pour, au final, optimiser la vitesse de circulation des informations sur Internet. A l’extrême, plusieurs modélisations mathématiques des comportements de navigation ont été proposées (Abdulla, 1998). Depuis Glassman (1994), considéré comme précurseur dans l’analyse des données de navigation, nombre d’études dans cette lignée ont été proposées par d’autres chercheurs en informatique (par exemple, Catledge & Pitkow, 1995 ; Cunha, Bestravos , Crovella, 1995 ; Almedia et al., 1996 ; Tauscher, 1996 ; Crovella, Taqqu, Bestravos, 1998 ; Barford et al., 1998 ; Arlitt, 2000). Si cette littérature répond principalement à des préoccupations techniques, elle peut néanmoins nous permettre d’observer certains faits saillants relatifs aux comportements des internautes. Les principaux résultats de cette littérature empirique chargée d’analyser les comportements de navigation sont résumés dans le tableau 1 (page suivante). Tableau 1: Faits saillants sur les comportements de navigation
Nous voyons alors que les études réalisées à différentes périodes et pour des échantillons de tailles non similaires, ont mis en valeur une série d’observations communes. Catledge & Pitkow (1995), Tausher (1996), Lebart & Beaudouin (2003), ont par exemple montré que la première activité de navigation sur Internet concernait la recherche d’informations. Quant aux comportements de navigation intra-site ou inter-sites en tant que tels, la littérature a soulevé un certain nombre de régularités, alors même que l’Internet est vu comme un système complexe (Huberman, 2001) et chaotique : « Given the dynamic nature of the web, it may be surprising for some readers to find that many properties of the Web follow regular and predictable patterns that have not changed in form over the web's lifetime » (Pitkow, 1998, p.1). En effet, Glassman (1994), est l’un des premiers chercheurs à avoir révélé l’existence de comportements de navigation génériques à partir des données de navigation. Sur une période d’un an, l’auteur a ainsi observé à partir d’un échantillon de 600 internautes, que la probabilité de choisir la ![]() ![]() Parmi les publications ultérieures, Adamic & Huberman (2000) ont de la même manière observé des comportements identiques, en étudiant, non plus le nombre de pages visitées, mais désormais, les visites des sites Internet. Leur analyse porte sur les comportements de navigation d’environ 24 000 clients du fournisseur d’accès AOL pendant la journée du 5 décembre 1997. L’échantillon a alors visionné 3 247 054 pages sur 1 090 168 sites Internet. Les auteurs ont alors montré que 0,1 % des sites considérés (soient les 120 premiers sites les plus visités) capturaient 32,36 % des 24 000 visiteurs et que 50 % des sites rassemblaient 95 % de la totalité des visiteurs. Sur une période d’observation plus large, et avec un plus grand nombre d’individus, Montgomery & Faloutsos (2000) ont pu observer les comportements de navigation de 74 000 individus représentatifs des ménages américains. L’enquête s’étend sur une période de 30 mois (de juillet 1997 à décembre 1999) et environ 290 millions de clics ont été enregistrés à partir des ordinateurs personnels de chaque membre d’un panel d’internautes (c’est un panel MediaMetrix - aujourd’hui devenu Nielsen/NetRatings - construit à partir de la sonde ‘PC Meter’). Les usages sont mesurés en terme de temps passé à naviguer sur Internet, mais aussi en nombre de clics, de pages vues, de visites et de sessions. Là encore, une série de comportements de navigation déjà observés dans la littérature ont été relevés. Les résultats précédents, à savoir ceux de Glassman (1994), Adamic & Huberman (2000), puis Montgomery & Faloutsos (2000) ainsi que ceux reportés dans le tableau 1, ont tous un point commun : ils peuvent être représentés par une loi de probabilité fortement asymétrique (la littérature anglo-saxonne parle de ‘heavy tailed distributions’ ou encore de ‘skewed distributions’ ayant une forme de J inversé), caractérisée par une moyenne supérieure à la médiane (ou encore un écart type supérieur à la moyenne du caractère étudié). Cette distribution est souvent nommée loi de Zipf (Zipf law) chez Glassman (1994) ou Montgomery & Faloutsos (2000), mais elle peut aussi être appelée loi puissance (power law) ou parfois loi de Pareto (Pareto law)8. On pourra consulter l’article de Adamic (2000) pour le lien mathématique entre ces trois distributions. Lorsqu’une variable est distribuée selon de telles lois, cela implique que les phénomènes de petite envergure sont extrêmement communs, alors que ceux de grande envergure restent rares. Au-delà d’Internet, de nombreux exemples existent dans la ‘nature’, parmi lesquels la magnitude des tremblements de terre : il y a beaucoup de tremblements de terre de faible magnitude, et seulement quelques séismes de forte magnitude. En géographie, la distribution de la surface des îles d’un archipel suit systématiquement une loi puissance : il y a peu de grandes îles et beaucoup de petites. Au-delà des phénomènes naturels, Zipf (1949) montra que dans tout livre, seulement quelques mots revenaient très fréquemment (par exemple ‘le’ ou encore ‘un’), alors que beaucoup d’autres avaient une fréquence relativement faible. Enfin, en ‘économie’, Pareto (1896) relevait qu’un grand nombre d’individus percevaient un faible revenu, alors que l’on rencontrait très peu de fortunés. Plus généralement, quel que soit le phénomène étudié, s’il existe une relation inverse entre la grandeur d’une variable et son occurrence (à tel point qu’une représentation Log-Log dessine un nuage de point rectiligne de pente négative proche de 1), on peut supposer l’existence d’une loi puissance pour la distribution de la variable considérée. Puisque beaucoup de phénomènes (naturels ou non) peuvent résulter sur une distribution asymétrique, nous devinons que la littérature théorique sur un tel sujet est pléthorique. On pourra, à ce propos consulter le survey de Mitzenmacher (2003). Il existe d’autre part de nombreux modèles mathématiques (probabilistes) permettant de restituer ces lois asymétriques (Simon, 1955). En économie géographique , les modèle de Gabaix (1999) et celui de Cordoba (2001) permettent de s’écarter des considérations purement probabilistes pour intégrer une fonction d’utilité et restituer par là une distribution de Zipf relative à la taille des villes. Nul doute que l’économie de l’Internet s’est intéressée à ce type de modèle, à partir du moment où l’on observe des lois asymétriques en ligne (Adamic & Huberman, 2000). De ce point de vue, la recherche qui s’intéresse à la modélisation (économique) des comportements de navigation n’en n’est qu’à ses débuts. Notre approche reste néanmoins ici empirique (la littérature est dans ce cas plus volumineuse), mais elle ne remet pas en cause une réflexion théorique relative aux modélisations possibles des comportements de navigation9. La prochaine section propose d’utiliser une base de données de navigation pour construire des lois asymétriques. 4. Une analyse descriptive des comportements de navigation 4.1 L’échantillon : la base de données Boston University Web Client L’expérience ‘BU Web Client’ consistait à enregistrer les données de navigation d’un échantillon d’individus sur plusieurs mois. Le département informatique de l’université de Boston s’est chargé de cette opération qui fait partie d’un projet de recherche plus vaste appelé OCEAN (Objet Caching Environments for Applications and Network Services)10. Ce projet consistait à trouver un mode optimal de gestion des fichiers cache sur Internet, problème lié à l’informatique et non pas aux Sciences Economiques. Dans ce sens, aucune technique d’échantillonnage n’a eu lieu. Notons aussi que les informations utilisées datent de 1995. Nous sommes donc aux prémices de l’Internet. Ces deux insuffisances qui paraissent pesantes, doivent toutefois être minorées : • tout d’abord, le mérite des initiateurs de l’expérience ‘BU Web Client’ est d’offrir gracieusement leurs données de navigation à la communauté internationale. Ces données sont aujourd’hui les seules disponibles (à ce niveau de qualité). Elles ont en effet été enregistrées à partir des ordinateurs utilisés par chaque membre de l’échantillon (en modifiant les caractéristiques du navigateur MOSAIC, logiciel libre et dominant sur le marché en 1995). Ce sont donc des données dites ‘clients’ qui permettent aussi bien d’observer les comportements de navigation intra-site que les comportements inter-sites. A notre connaissance, ces informations n’ont jamais été utilisées à des fins d’analyse en Sciences Economiques, • ensuite, si l’échantillon n’est pas représentatif du point de vue du profil des internautes (nous n’avons d’ailleurs aucune information à ce propos), il peut l’être du point de vue du profil des comportements de navigation. En effet, il n’y a aucune raison de penser que les ‘lois de surfing’ observées dans la littérature sur des échantillons différents et à des périodes non semblables, ne s’appliquent pas à notre échantillon. Nous supposons donc que les comportements de navigation de nos individus doivent être distribués selon une loi asymétrique telle que la loi de Zipf, la loi de Pareto ou la loi puissance. Si cela est vérifié, nous admettons que notre échantillon est viable, dans la mesure où nous confirmons les résultats déjà observés dans les études empiriques préalables. Nous pourrons alors dépasser cette littérature essentiellement issue de l’informatique, pour nous attacher à des considérations davantage économiques. Il y a à l’origine 762 étudiants, formant deux échantillons distincts. Le premier échantillon est composé de 214 étudiants niveau licence/maîtrise. Le second échantillon contient 548 élèves niveau première année/DEUG. Nous avons éliminé l’échantillon des étudiants de licence/maîtrise (équivalent). Les données montraient en effet de nombreuses faiblesses dues à des problèmes techniques (indépendants de notre volonté). Notre échantillon initial est donc composé de 548 étudiants volontaires de l’université de Boston. Nous avons sélectionné uniquement les élèves ayant navigué en dehors du site de leur université (il était en effet possible d’utiliser exclusivement le réseau intranet), soit 467 individus. Nous avons d’autre part choisi les enregistrements des mois de janvier et février 1995, les autres mois présentaient des incohérences (les informaticiens ont en effet réalisé plusieurs tests sur le réseau de l’université de Boston, ce qui bruite les observations, excepté pour les mois de janvier et février). Les caractéristiques des comportements de navigation de l’échantillon des 467 étudiants sont présentées dans le tableau 2 (ci-dessous). Tableau 2 : Caractéristiques de navigation des étudiants (467 individus)
Pour simplifier le tableau et sans perte de généralité, nous présentons uniquement le nombre de sessions et de visites (il était par exemple possible de travailler sur le volume de pages vues). Ces informations sont obtenues après un traitement séquentiel et relativement lourd des informations (une centaine de programmes informatiques écrits et plusieurs jours de ‘calculs’ sur ordinateur) . Le traitement s’effectue en deux étapes majeures. La première étape englobe les opérations de reconnaissance de mots pour chaque ligne des fichiers texte. Nous avons compté pour notre échantillon environ 200 000 lignes. La seconde étape consiste à dénombrer l’ensemble de ces mots afin de construire nos statistiques. Une session est définie comme la période entre laquelle un individu se connecte puis se déconnecte pour naviguer sur Internet. Durant chacune des sessions, un internaute peut aller visiter un ou plusieurs sites. Dès lors, le nombre de sessions est inférieur ou égal au nombre de visites. Notons d’autre part que les sessions et les visites peuvent se situer à des périodes différentes pour chacun des étudiants, certains se connectant en début de semaine ou aux heures des repas, d’autres préférant naviguer sur Internet le week-end ou le soir. La seule contrainte reste l’intervalle de temps de deux mois (janvier et février 1995), commune aux membres du panel. Nous remarquons immédiatement des écarts-types supérieurs aux espérances. Cela est souvent signe de surdispersion et par conséquent d’hétérogénéité entre les individus, en termes de nombre de visites sur une même période ou de nombre de sessions. 4.2 La construction d’une loi de Zipf Une fois cette première ‘photographie’ des comportements en ligne réalisée, nous devons aller plus loin dans la description des profils de navigation. Il n’existe pas encore de procédures strictes d’analyses descriptives pour ce type de données. De nombreux résultats peuvent toutefois être proposés, notamment l’identification d’une loi de Zipf relative au nombre de visites sur chaque site Internet. Nous supposons qu’une visite débute lorsqu’un internaute se présente sur un site pour visionner une ou plusieurs pages et s’achève lorsque les deux conditions suivantes sont vérifiées en même temps : 1. lorsque l’individu poursuit sa navigation sur un autre site ou décide d’arrêter sa connexion, 2. et lorsque l’internaute n’a pas navigué sur le site considéré depuis plus de 30 minutes. La seconde condition permet de diminuer le nombre de visites répétées sur un même site dues à des ‘allées et retours’ systématiques et très courts (en terme de temps) de ce site vers d’autres sites. Cela nous permet d’améliorer la mesure du niveau de fidélité (de persistance) ou d’intérêt de l’internaute vis-à-vis d’un site donné. A priori, il n’y a pas lieu de penser que la distribution du nombre de visites sur chaque site ne suive pas une loi normale. Dit autrement, le nombre moyen de visites par site devrait correspondre à l’occurrence la plus forte. Malgré cela, nous avons vu précédemment, que les distributions statistiques les plus fréquentes sur Internet étaient fortement asymétriques (Adamic & Huberman, 2000, 2002 ; Montgomery & Faloutsos, 2000). Dans ce schéma, l’évènement moyen n’a pas la probabilité d’apparition la plus élevée. En d’autres termes, les évènements de grande ampleur sont peu probables, alors que les évènements de petite ampleur le sont plus. Afin d’observer les comportements de navigation de notre échantillon et valider l’hypothèse selon laquelle une distribution asymétrique a lieu (via l’observation d’une loi de Zipf, d’une loi de Pareto ou encore d’une loi puissance, ces trois distributions étant, rappelons-le, voisines – Adamic 2000), nous allons estimer les paramètres de la première loi, à savoir la distribution de Zipf. La loi de Zipf (1949), fait correspondre la taille d’un évènement, ici le nombre de visites sur chaque site (noté ![]() ![]() ![]() ![]() ![]() Dans notre échantillon, le nombre total de sites Internet visités une fois ou plus par nos 467 étudiants pendant les deux mois de navigation est de 5772. Le nombre total de visites est de 33100. En moyenne, chaque site a donc été visité 5,73 fois, mais la distribution est en réalité très inégale puisque l’écart type du nombre de visites est environ 6 fois supérieur à la moyenne. D’autres statistiques descriptives sont fournies dans le tableau 3. Tableau 3: Statistiques descriptives pour la distribution des visites de sites Internet
|
![]() | «Nouvelle Economie», mort-née avec l’éclatement de la «bulle Internet», à l’apparition de la «fracture numérique» puis à sa résorption... | ![]() | «fracture numérique» est amplifiée par les politiques inadaptées de dématérialisation à courte vue des services publics. Enfin, l’essor... |
![]() | «fracture sanitaire» dans l’accès aux soins. Les dépassements d’honoraires des médecins sont en cause | ![]() | «Au même titre que les usages d'Internet en font un nouvel outil d'expression, de mobilisation et de dénonciation, est-ce pour autant... |
![]() | «niveau de garantie élevé», une étude d’impact sur les données personnelles et la vie privée | ![]() | «pour une République numérique» renforce les positions de la communauté scientifique |
![]() | «La puissance du Web réside dans son universalité. L’accès par tous quel que soit le handicap en est un aspect essentiel» | ![]() | «La France du début des 70’s apparait plus éloignées de celle de 1945 que celle-ci pouvait l’être du 19ème siècle.» |
![]() | «très haut débit», de développement des usages et des nouveaux services (notamment dans les services aux citoyens, la Formation,... | ![]() | «experimentum crucis» permet de retenir celle décrivant les faits expérimentaux. A noter que des contribution en relation avec ce... |