Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne),





télécharger 198.38 Kb.
titreRésumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne),
page2/5
date de publication09.07.2017
taille198.38 Kb.
typeRésumé
d.20-bal.com > littérature > Résumé
1   2   3   4   5

3. Les données de navigation et les résultats des analyses descriptives
3.1 Qu’est-ce que les données de navigation ?
Au-delà des enquêtes conventionnelles, depuis 1998/1999, un nouveau moyen d’analyser les usages en ligne s’est présenté. Les caractéristiques techniques du réseau Internet permettent en effet de rassembler une source d’informations, appelée ‘fichiers Log’ (Log files) par les informaticiens, et souvent renommée dans d’autres disciplines ‘données de parcours’ (Beaudouin & Licoppe, 2002), ‘flux de données’ (Lebart & Beaudouin, 2003), ‘traces d’usages’ (Montgomery & Faloutsos, 2000) ou encore ‘clickstream data’ dans la littérature anglo-saxonne (Goldfarb, 2002a, 2002b, 2003). De notre côté, nous emploierons la notion générique de ‘données de navigation’. Il existe deux sources de données de navigation, en fonction du lieu ‘physique’ où sont enregistrées ces informations. Nous parlons alors des données de navigation intra-site et des données de navigation inter-sites. Nous allons tout d’abord nous intéresser à la première source d’informations : les données de navigation intra-site.

Pour mieux identifier le format des données de navigation intra-site, nous proposons de présenter la structure simplifiée d’un site Internet (graphique 1).
Graphique 1: Exemple d’une structure simple de site Internet


Dans ce schéma, chaque point (ou nœud) correspond à une page Internet, et les segments reliant ces points annoncent qu’il existe un lien hypertexte amenant aux sous-branches immédiates de l’arbre. Notons qu’à titre illustratif, cette structure est simplifiée à l’extrême. Avec le développement de certains langages (le PHP par exemple) et l’utilisation des bases de données, la structure des sites est en effet devenue plus complexe : ces derniers sont rendus dynamiques, c’est à dire que leur architecture s’adapte en temps réel à la demande ou au profil des visiteurs. Cela complique le traitement des données de navigation, sans toutefois remettre en cause leur richesse potentielle.

Dans cette structure simplifiée, chaque page est matérialisée par une adresse Internet spécifique, appelée Uniform Resource Locator – URL, par exemple http://www.education.gouv.fr ou encore http://www.internet.gouv.fr. Cette adresse est souvent visible non loin de la barre de tâches des navigateurs Internet1 et contient au moins trois types d’informations :

1. Tout d’abord, l’adresse URL permet d’identifier le nom du site (le nom de domaine). Nous parlons alors d’adresse ‘racine’, puisqu’elle correspond à la racine de l’arbre présenté dans le graphique 1 (exemple : http://www.education.gouv.fr). Rappelons d’autre part que l’extrémité de chaque adresse URL (dans l’exemple précédent, le ‘.fr’ peut donner une première indication sur le contenu du site (site éducatif, commercial, institutionnel, associatif, etc) ;

2. ensuite, puisque la plupart des sites Internet possèdent plus d’une page, chaque page supplémentaire est identifiée par une adresse URL spécifique (exemple : http://www.education.gouv.fr/B/). Le nom de chacune des pages (B dans l’exemple précédent) procure donc des informations supplémentaires sur l’offre de biens ou services proposée par le site, il suffit pour cela d’identifier le contenu respectif des pages, en visionnant ces dernières sur Internet2 ;

3. enfin, toujours à partir des adresses URL, il est parfois possible de caractériser certains usages, via les protocoles d’échange de l’information sur Internet. Chaque protocole est identifié au niveau de l’adresse racine. Le protocole ‘http’ est considéré comme générique (s’agissant de notre exemple : http://www.education.gouv.fr). Par contre, le protocole ‘https’ annonce que les informations transmises en ligne sont sécurisées. Il peut donc s’agir d’un achat en ligne (ou d’une volonté d’acheter). Le protocole ‘ftp’ (par exemple ftp://ncstrl-ftp.mit.edu) décrit un téléchargement ou un envoi d’informations en ligne, etc3. Dans certains cas, la simple lecture d’une adresse URL permet de rassembler des informations précises. Par exemple, à partir de l’adresse suivante, ‘http://www.google.fr/search?hl=fr&ie=UTF-8&oe=UTF-8&q=sciences+economiques&meta=’, nous relevons que l’internaute a utilisé le moteur de recherche Google dans sa version française, pour effectuer une requête intégrant les mots clés ‘sciences’ et/ou ‘économiques’. Ce schéma descriptif correspond toutefois à une situation idéale. Parfois, certaines adresses URL sont dynamiques, c'est-à-dire que leur contenu textuel change alors que la page Internet affichée reste la même d’une visite à une autre. Cette technique est utilisée lorsque le gestionnaire du site veut protéger le contenu d’une ou de plusieurs pages. Dans ce cas, la seule information exploitable par le chercheur concerne l’adresse racine du site.

Désormais, dans une acception plus dynamique, nous remplaçons l’adresse URL de chaque page par des lettres (exemple : ‘A’ pour ‘http://www.education.gouv.fr’ – voir la partie droite du graphique 1). Le chemin de navigation possible d’un visiteur (ou encore son parcours effectué sur le site) peut correspondre à la séquence ACEF. Autrement dit, l’internaute est arrivé sur la page A du site, puis a cliqué sur un lien pour aller sur la page C de ce même site, et de lien en lien, ce visiteur a terminé sa navigation à la page F. Remarquons que la structure du site oblige ici les internautes à suivre un chemin ‘balisé’. Il faut donc avoir à l’esprit que l’étude des comportements de navigation intra-site ne peut ignorer la structure du site, c'est-à-dire la manière dont il a été construit.

Les données de navigation intra-site correspondent donc à l’enregistrement de l’adresse URL de chaque page visitée sur un même site Internet. Concrètement, les données de navigation sont des fichiers informatiques (appelés fichiers Log) contenant uniquement du texte. Ces fichiers sont la plupart du temps créés automatiquement (ils grandissent alors au fur et à mesure des visites4 ) et appartiennent au gestionnaire du site Internet5 (appelé aussi webmaster). En dehors de certaines contraintes techniques (notamment l’existence d’un système de cache6 ), il est donc possible d’observer - à partir des fichiers Log - le chemin de navigation des visiteurs sur un site.

Nous avons jusqu’ici discuté des activités de navigation de  individus sur un site donné. Ces activités consistent à visionner une ou plusieurs pages de ce site et éventuellement répéter cette opération d’une visite à l’autre (Montgomery et al., 2004b). Puisque la navigation sur Internet consiste le plus souvent à visiter de façon séquentielle plusieurs sites, une acception plus large de l’activité de navigation considère individus face à différents sites. Nous observons alors les comportements de navigation inter-sites, qui peuvent là encore être enregistrés dans des fichiers texte. On parle désormais de données de navigation inter-sites. Ces informations sont toutefois moins communes que les données de navigation intra-site, car elles sont fondamentalement décentralisées (seule une sonde installée sur l’ordinateur de l’internaute permet d’observer ses comportements de navigation - Catledge & Pitkow, 1995).

Notons que la littérature en informatique parle souvent de ‘données Log’ ou de ‘données serveur’ lorsqu’il s’agit des données de navigation intra-site. En effet, ces dernières sont en réalité enregistrées sur des serveurs Internet. D’autre part, les données de navigation inter-sites seront davantage appelées (par cette même littérature) ‘données client’, car, là encore, ces dernières sont enregistrées à partir des ordinateurs personnels de chaque individu, nommés ‘client’. Lorsque les autres disciplines (notamment l’économie, le marketing ou encore la sociologie) parlent des clickstream data, cette appellation s’adresse la plupart du temps aux données de navigation inter-sites. Dans le cas contraire, il y a un abus de langage.

Il va de soi qu’un tel procédé d’enregistrement des comportements de navigation ne s’effectue pas à l’insu des utilisateurs. L’observation des activités de navigation inter-sites (voir même intra-site) est soumise en France à la loi ‘informatique et liberté’ (nommée aussi Loi sur l’Economie Numérique - LEN)7. Malgré cela, il faut bien être conscient que de nombreux modèles économiques sur Internet fonctionnent sur une logique d’exploitation des données de navigation. Cette dernière peut parfois être illégale en fonction de la loi en vigueur dans chaque Etat (voir à ce propos le débat relatif aux ‘logiciels espions’, les spywares).

En dehors de cela, et dans un cadre légal, la communauté scientifique dispose potentiellement d’une nouvelle source d’informations pour étudier les usages sur Internet. Voyons désormais de quelle façon ces données ont été exploitées dans la littérature et quels sont les principaux résultats relatifs aux comportements de navigation.
3.2 La littérature circonscrite à l’analyse des données de navigation et les résultats des analyses empiriques.
Les données de navigation intra-site ou inter-sites permettent de construire des variables permettant de caractériser les comportements des internautes. Ces variables sont le plus souvent le nombre de clics ou de visites sur les sites Internet. Elles ont d’abord été utilisées par les chercheurs en informatique, principalement pour tenter de résoudre les problèmes de congestion des flux d’information sur le réseau Internet. En effet, si ces chercheurs arrivaient à identifier des comportements de navigation réguliers, il devenait possible d’anticiper ces derniers et de modifier en conséquence certaines caractéristiques techniques de l’Internet (à savoir la gestion des fichiers cache, la structure des sites Internet, ou encore la conception des navigateurs), pour, au final, optimiser la vitesse de circulation des informations sur Internet. A l’extrême, plusieurs modélisations mathématiques des comportements de navigation ont été proposées (Abdulla, 1998). Depuis Glassman (1994), considéré comme précurseur dans l’analyse des données de navigation, nombre d’études dans cette lignée ont été proposées par d’autres chercheurs en informatique (par exemple, Catledge & Pitkow, 1995 ; Cunha, Bestravos , Crovella, 1995 ; Almedia et al., 1996 ; Tauscher, 1996 ; Crovella, Taqqu, Bestravos, 1998 ; Barford et al., 1998 ; Arlitt, 2000).

Si cette littérature répond principalement à des préoccupations techniques, elle peut néanmoins nous permettre d’observer certains faits saillants relatifs aux comportements des internautes.

Les principaux résultats de cette littérature empirique chargée d’analyser les comportements de navigation sont résumés dans le tableau 1 (page suivante).
Tableau 1: Faits saillants sur les comportements de navigation

Résultats communs

Auteurs

Observations

Distribution identique des comportements de navigation

Une majorité d’internautes visitent une minorité de sites (pages) versus une minorité d’internautes visitent beaucoup de sites (pages).

Peu de sites (pages) reçoivent beaucoup de visites versus beaucoup de sites (pages) reçoivent peu de visites.

Abdulla (1998),

Arlitt (2000),

Adamic & Huberman (2002).


Environ 25 % des sites Internet reçoivent 80 à 90 % du total des visites en ligne (on parle souvent de la loi des 80/20).

Glassman (1994), Catledge & Pitkow (1995), Cunha et al. (1995), Tausher (1996), Almeida et al. (1996).

Distribution fortement asymétrique du nombre de visites par page : 60 % des pages ont été visitées une fois, 19 % des pages ont été visitées deux fois, 8 % ont été visitées trois fois, 4% ont été visitées quatre fois…

Hétérogénéité des usages en ligne

Lebart & Beaudouin (2003).

Environ 14 % des internautes font 50 % des sessions. Puis 50 % des internautes effectuent 90 % des sessions.

Montgomery & Faloutsos (2000).

Le nombre moyen de sessions par mois et par individu est de 8.1, mais la variance est très forte. Le nombre moyen de pages vues par session (et par internaute) est de 93, alors que la médiane est de 48.

Une majorité de visites répétées

Forte inertie pour une majorité d’utilisateurs : la plupart des internautes visitent de façon répétée une minorité de sites Internet.

Lebart & Beaudouin, (2003).

Environ 68 % des internautes ont utilisé un seul moteur de recherche durant leur session. Concernant les sites visités, 50 % des sondés ont visité au moins une fois un site marchand dont la thématique est le tourisme ou la vente de biens culturels. Toutefois, 80 % des internautes consultent un unique site de vente de biens culturels par session, alors que près de 48 % des individus visitent plusieurs sites marchands de tourisme dans une même session.

Glassman (1994), Catledge & Pitkow (1995), Cunha et al. (1995), Tausher (1996), Almeida et al. (1996).

Environ 58 à 61 % de l’activité de navigation consiste à visiter une page Internet déjà visualisée. La probabilité de retourner sur une même page est donc très élevée. Ce taux est indépendant de l’intensité de navigation, mais corrélé négativement à la date de la dernière visite.

Activités de recherche qui priment

La principale activité de navigation concerne la recherche d’information.

Catledge & Pitkow (1995), Tausher (1996).

Les évènements de navigation les plus importants concernent la consultation de site (environ 52 % des activités de navigation), puis l’utilisation du bouton ‘Back’ du navigateur (environ 34 % des activités totales de navigation). Ces deux actions représentent au total environ 86% des activités de navigation. Les favoris sont rarement utilisés (< 3 %). En d’autres termes les internautes sont avant tout des chercheurs d’information.

Lebart & Beaudouin, (2003).

93 % des internautes ont utilisé au moins une fois un moteur de recherche durant l’année.

Comportements intra-site identiques

Navigation intra-site limitée pour une majorité d’individus.

Catledge & Pitkow (1995), Tausher (1996), Lukose & Huberman (2001).

A l’intérieur d’un site, la longueur moyenne du parcours de lien en lien est de 2,98 avec un écart type de 6,24.



Nous voyons alors que les études réalisées à différentes périodes et pour des échantillons de tailles non similaires, ont mis en valeur une série d’observations communes. Catledge & Pitkow (1995), Tausher (1996), Lebart & Beaudouin (2003), ont par exemple montré que la première activité de navigation sur Internet concernait la recherche d’informations.

Quant aux comportements de navigation intra-site ou inter-sites en tant que tels, la littérature a soulevé un certain nombre de régularités, alors même que l’Internet est vu comme un système complexe (Huberman, 2001) et chaotique : « Given the dynamic nature of the web, it may be surprising for some readers to find that many properties of the Web follow regular and predictable patterns that have not changed in form over the web's lifetime » (Pitkow, 1998, p.1).

En effet, Glassman (1994), est l’un des premiers chercheurs à avoir révélé l’existence de comportements de navigation génériques à partir des données de navigation. Sur une période d’un an, l’auteur a ainsi observé à partir d’un échantillon de 600 internautes, que la probabilité de choisir la page la plus visitée était proportionnelle à (un total de 80 000 pages ont été vues par l’échantillon).

Parmi les publications ultérieures, Adamic & Huberman (2000) ont de la même manière observé des comportements identiques, en étudiant, non plus le nombre de pages visitées, mais désormais, les visites des sites Internet. Leur analyse porte sur les comportements de navigation d’environ 24 000 clients du fournisseur d’accès AOL pendant la journée du 5 décembre 1997. L’échantillon a alors visionné 3 247 054 pages sur 1 090 168 sites Internet. Les auteurs ont alors montré que 0,1 % des sites considérés (soient les 120 premiers sites les plus visités) capturaient 32,36 % des 24 000 visiteurs et que 50 % des sites rassemblaient 95 % de la totalité des visiteurs.

Sur une période d’observation plus large, et avec un plus grand nombre d’individus, Montgomery & Faloutsos (2000) ont pu observer les comportements de navigation de 74 000 individus représentatifs des ménages américains. L’enquête s’étend sur une période de 30 mois (de juillet 1997 à décembre 1999) et environ 290 millions de clics ont été enregistrés à partir des ordinateurs personnels de chaque membre d’un panel d’internautes (c’est un panel MediaMetrix - aujourd’hui devenu Nielsen/NetRatings - construit à partir de la sonde ‘PC Meter’). Les usages sont mesurés en terme de temps passé à naviguer sur Internet, mais aussi en nombre de clics, de pages vues, de visites et de sessions. Là encore, une série de comportements de navigation déjà observés dans la littérature ont été relevés.

Les résultats précédents, à savoir ceux de Glassman (1994), Adamic & Huberman (2000), puis Montgomery & Faloutsos (2000) ainsi que ceux reportés dans le tableau 1, ont tous un point commun : ils peuvent être représentés par une loi de probabilité fortement asymétrique (la littérature anglo-saxonne parle de ‘heavy tailed distributions’ ou encore de ‘skewed distributions’ ayant une forme de J inversé), caractérisée par une moyenne supérieure à la médiane (ou encore un écart type supérieur à la moyenne du caractère étudié). Cette distribution est souvent nommée loi de Zipf (Zipf law) chez Glassman (1994) ou Montgomery & Faloutsos (2000), mais elle peut aussi être appelée loi puissance (power law) ou parfois loi de Pareto (Pareto law)8. On pourra consulter l’article de Adamic (2000) pour le lien mathématique entre ces trois distributions.

Lorsqu’une variable est distribuée selon de telles lois, cela implique que les phénomènes de petite envergure sont extrêmement communs, alors que ceux de grande envergure restent rares. Au-delà d’Internet, de nombreux exemples existent dans la ‘nature’, parmi lesquels la magnitude des tremblements de terre : il y a beaucoup de tremblements de terre de faible magnitude, et seulement quelques séismes de forte magnitude. En géographie, la distribution de la surface des îles d’un archipel suit systématiquement une loi puissance : il y a peu de grandes îles et beaucoup de petites. Au-delà des phénomènes naturels, Zipf (1949) montra que dans tout livre, seulement quelques mots revenaient très fréquemment (par exemple ‘le’ ou encore ‘un’), alors que beaucoup d’autres avaient une fréquence relativement faible. Enfin, en ‘économie’, Pareto (1896) relevait qu’un grand nombre d’individus percevaient un faible revenu, alors que l’on rencontrait très peu de fortunés.

Plus généralement, quel que soit le phénomène étudié, s’il existe une relation inverse entre la grandeur d’une variable et son occurrence (à tel point qu’une représentation Log-Log dessine un nuage de point rectiligne de pente négative proche de 1), on peut supposer l’existence d’une loi puissance pour la distribution de la variable considérée.

Puisque beaucoup de phénomènes (naturels ou non) peuvent résulter sur une distribution asymétrique, nous devinons que la littérature théorique sur un tel sujet est pléthorique. On pourra, à ce propos consulter le survey de Mitzenmacher (2003). Il existe d’autre part de nombreux modèles mathématiques (probabilistes) permettant de restituer ces lois asymétriques (Simon, 1955). En économie géographique , les modèle de Gabaix (1999) et celui de Cordoba (2001) permettent de s’écarter des considérations purement probabilistes pour intégrer une fonction d’utilité et restituer par là une distribution de Zipf relative à la taille des villes. Nul doute que l’économie de l’Internet s’est intéressée à ce type de modèle, à partir du moment où l’on observe des lois asymétriques en ligne (Adamic & Huberman, 2000). De ce point de vue, la recherche qui s’intéresse à la modélisation (économique) des comportements de navigation n’en n’est qu’à ses débuts. Notre approche reste néanmoins ici empirique (la littérature est dans ce cas plus volumineuse), mais elle ne remet pas en cause une réflexion théorique relative aux modélisations possibles des comportements de navigation9.

La prochaine section propose d’utiliser une base de données de navigation pour construire des lois asymétriques.
4. Une analyse descriptive des comportements de navigation
4.1 L’échantillon : la base de données Boston University Web Client
L’expérience ‘BU Web Client’ consistait à enregistrer les données de navigation d’un échantillon d’individus sur plusieurs mois. Le département informatique de l’université de Boston s’est chargé de cette opération qui fait partie d’un projet de recherche plus vaste appelé OCEAN (Objet Caching Environments for Applications and Network Services)10. Ce projet consistait à trouver un mode optimal de gestion des fichiers cache sur Internet, problème lié à l’informatique et non pas aux Sciences Economiques. Dans ce sens, aucune technique d’échantillonnage n’a eu lieu. Notons aussi que les informations utilisées datent de 1995. Nous sommes donc aux prémices de l’Internet. Ces deux insuffisances qui paraissent pesantes, doivent toutefois être minorées :

• tout d’abord, le mérite des initiateurs de l’expérience ‘BU Web Client’ est d’offrir gracieusement leurs données de navigation à la communauté internationale. Ces données sont aujourd’hui les seules disponibles (à ce niveau de qualité). Elles ont en effet été enregistrées à partir des ordinateurs utilisés par chaque membre de l’échantillon (en modifiant les caractéristiques du navigateur MOSAIC, logiciel libre et dominant sur le marché en 1995). Ce sont donc des données dites ‘clients’ qui permettent aussi bien d’observer les comportements de navigation intra-site que les comportements inter-sites. A notre connaissance, ces informations n’ont jamais été utilisées à des fins d’analyse en Sciences Economiques,

• ensuite, si l’échantillon n’est pas représentatif du point de vue du profil des internautes (nous n’avons d’ailleurs aucune information à ce propos), il peut l’être du point de vue du profil des comportements de navigation. En effet, il n’y a aucune raison de penser que les ‘lois de surfing’ observées dans la littérature sur des échantillons différents et à des périodes non semblables, ne s’appliquent pas à notre échantillon. Nous supposons donc que les comportements de navigation de nos individus doivent être distribués selon une loi asymétrique telle que la loi de Zipf, la loi de Pareto ou la loi puissance. Si cela est vérifié, nous admettons que notre échantillon est viable, dans la mesure où nous confirmons les résultats déjà observés dans les études empiriques préalables. Nous pourrons alors dépasser cette littérature essentiellement issue de l’informatique, pour nous attacher à des considérations davantage économiques.
Il y a à l’origine 762 étudiants, formant deux échantillons distincts. Le premier échantillon est composé de 214 étudiants niveau licence/maîtrise. Le second échantillon contient 548 élèves niveau première année/DEUG. Nous avons éliminé l’échantillon des étudiants de licence/maîtrise (équivalent). Les données montraient en effet de nombreuses faiblesses dues à des problèmes techniques (indépendants de notre volonté). Notre échantillon initial est donc composé de 548 étudiants volontaires de l’université de Boston. Nous avons sélectionné uniquement les élèves ayant navigué en dehors du site de leur université (il était en effet possible d’utiliser exclusivement le réseau intranet), soit 467 individus. Nous avons d’autre part choisi les enregistrements des mois de janvier et février 1995, les autres mois présentaient des incohérences (les informaticiens ont en effet réalisé plusieurs tests sur le réseau de l’université de Boston, ce qui bruite les observations, excepté pour les mois de janvier et février).

Les caractéristiques des comportements de navigation de l’échantillon des 467 étudiants sont présentées dans le tableau 2 (ci-dessous).

Tableau 2 : Caractéristiques de navigation des étudiants (467 individus)




Nombre de sessions par individu

Nombre de visites par individu

Minimum

1

1

Maximum

174

327

Total (pour les 467 individus)

5348

33100

Espérance

11.45

70.18

Ecart type

18.32

143.30


Pour simplifier le tableau et sans perte de généralité, nous présentons uniquement le nombre de sessions et de visites (il était par exemple possible de travailler sur le volume de pages vues). Ces informations sont obtenues après un traitement séquentiel et relativement lourd des informations (une centaine de programmes informatiques écrits et plusieurs jours de ‘calculs’ sur ordinateur) . Le traitement s’effectue en deux étapes majeures. La première étape englobe les opérations de reconnaissance de mots pour chaque ligne des fichiers texte. Nous avons compté pour notre échantillon environ 200 000 lignes. La seconde étape consiste à dénombrer l’ensemble de ces mots afin de construire nos statistiques.

Une session est définie comme la période entre laquelle un individu se connecte puis se déconnecte pour naviguer sur Internet. Durant chacune des sessions, un internaute peut aller visiter un ou plusieurs sites. Dès lors, le nombre de sessions est inférieur ou égal au nombre de visites. Notons d’autre part que les sessions et les visites peuvent se situer à des périodes différentes pour chacun des étudiants, certains se connectant en début de semaine ou aux heures des repas, d’autres préférant naviguer sur Internet le week-end ou le soir. La seule contrainte reste l’intervalle de temps de deux mois (janvier et février 1995), commune aux membres du panel. Nous remarquons immédiatement des écarts-types supérieurs aux espérances. Cela est souvent signe de surdispersion et par conséquent d’hétérogénéité entre les individus, en termes de nombre de visites sur une même période ou de nombre de sessions.
4.2 La construction d’une loi de Zipf
Une fois cette première ‘photographie’ des comportements en ligne réalisée, nous devons aller plus loin dans la description des profils de navigation. Il n’existe pas encore de procédures strictes d’analyses descriptives pour ce type de données. De nombreux résultats peuvent toutefois être proposés, notamment l’identification d’une loi de Zipf relative au nombre de visites sur chaque site Internet.

Nous supposons qu’une visite débute lorsqu’un internaute se présente sur un site pour visionner une ou plusieurs pages et s’achève lorsque les deux conditions suivantes sont vérifiées en même temps :

1. lorsque l’individu poursuit sa navigation sur un autre site ou décide d’arrêter sa connexion,

2. et lorsque l’internaute n’a pas navigué sur le site considéré depuis plus de 30 minutes.

La seconde condition permet de diminuer le nombre de visites répétées sur un même site dues à des ‘allées et retours’ systématiques et très courts (en terme de temps) de ce site vers d’autres sites. Cela nous permet d’améliorer la mesure du niveau de fidélité (de persistance) ou d’intérêt de l’internaute vis-à-vis d’un site donné.

A priori, il n’y a pas lieu de penser que la distribution du nombre de visites sur chaque site ne suive pas une loi normale. Dit autrement, le nombre moyen de visites par site devrait correspondre à l’occurrence la plus forte. Malgré cela, nous avons vu précédemment, que les distributions statistiques les plus fréquentes sur Internet étaient fortement asymétriques (Adamic & Huberman, 2000, 2002 ; Montgomery & Faloutsos, 2000). Dans ce schéma, l’évènement moyen n’a pas la probabilité d’apparition la plus élevée. En d’autres termes, les évènements de grande ampleur sont peu probables, alors que les évènements de petite ampleur le sont plus.

Afin d’observer les comportements de navigation de notre échantillon et valider l’hypothèse selon laquelle une distribution asymétrique a lieu (via l’observation d’une loi de Zipf, d’une loi de Pareto ou encore d’une loi puissance, ces trois distributions étant, rappelons-le, voisines – Adamic 2000), nous allons estimer les paramètres de la première loi, à savoir la distribution de Zipf.

La loi de Zipf (1949), fait correspondre la taille d’un évènement, ici le nombre de visites sur chaque site (noté ), au rang de cet évènement, assimilé dans ce chapitre au classement des sites Internet en nombre de visites (noté ), tel que avec la pente proche de 1. En d’autres termes, selon la loi de Zipf, la taille du Rème site Internet devrait être inversement proportionnelle à son rang (notons que peut par la suite être exprimé en terme de fréquences).

Dans notre échantillon, le nombre total de sites Internet visités une fois ou plus par nos 467 étudiants pendant les deux mois de navigation est de 5772. Le nombre total de visites est de 33100. En moyenne, chaque site a donc été visité 5,73 fois, mais la distribution est en réalité très inégale puisque l’écart type du nombre de visites est environ 6 fois supérieur à la moyenne. D’autres statistiques descriptives sont fournies dans le tableau 3.
Tableau 3: Statistiques descriptives pour la distribution des visites de sites Internet

Nombre de sites Internet visités

5772

Nombre de visites

33100

Nombre minimum de visites sur un site

1

Nombre maximum de visites sur un site

1317 (moteur de recherche Yahoo)

Médiane

1

3ème quartile des visites

3

Moyenne des visites pour chaque site [IC à 95 %]

5,735 [4,824 ; 6,645]

Ecart type

35,283

Coefficient d’asymétrie de la distribution

25,679
1   2   3   4   5

similaire:

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), iconChapitre 3 Aménagement Numérique, Attractivité des Territoires et Développement Durable
«Nouvelle Economie», mort-née avec l’éclatement de la «bulle Internet», à l’apparition de la «fracture numérique» puis à sa résorption...

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), iconNotre constat: le numérique des multinationales contre les peuples
«fracture numérique» est amplifiée par les politiques inadaptées de dématérialisation à courte vue des services publics. Enfin, l’essor...

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), iconL’association de consommateurs ufc-que choisir dénonce une «fracture...
«fracture sanitaire» dans l’accès aux soins. Les dépassements d’honoraires des médecins sont en cause

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), iconRésumé Cette étude comparative sur la politique d’accès aux documents...
«Au même titre que les usages d'Internet en font un nouvel outil d'expression, de mobilisation et de dénonciation, est-ce pour autant...

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), iconAcn gt1 – Identité Numérique
«niveau de garantie élevé», une étude d’impact sur les données personnelles et la vie privée

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), iconLibre accès et statut juridique de la publication scientifique :...
«pour une République numérique» renforce les positions de la communauté scientifique

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), iconRésumé Ce livre blanc permet de mieux appréhender les enjeux de l’accessibilité...
«La puissance du Web réside dans son universalité. L’accès par tous quel que soit le handicap en est un aspect essentiel»

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), icon1958 : élection du gdg = établissement d’une nouvelle Constitution : 1
«La France du début des 70’s apparait plus éloignées de celle de 1945 que celle-ci pouvait l’être du 19ème siècle.»

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), iconI – Où en est la Normandie ?
«très haut débit», de développement des usages et des nouveaux services (notamment dans les services aux citoyens, la Formation,...

Résumé : Dans le prolongement des études relatives à la fracture numérique de ‘premier niveau’ (celle de l’accès à Internet), une récente littérature a pointé sur l’existence d’une fracture numérique de ‘second niveau’ (celle des usages en ligne), iconRÉsumé Nous présentons la théorie, la modélisation et la discussion...
«experimentum crucis» permet de retenir celle décrivant les faits expérimentaux. A noter que des contribution en relation avec ce...






Tous droits réservés. Copyright © 2016
contacts
d.20-bal.com