Le web vu par Google 

Tags :

.. ou un milliard et demi de pages servies

Google <http://google.com> est un moteur de recherche (dont le nom est dérivé du terme "Googol" qui signifie "10 à la puissance 100") créé en 1998 par deux étudiants de l'Université de Stanford, Larry Page et Sergey Brin.

Le succès de Google se base sur sa rapidité d'exécution et la qualité des résultats présentés. Il peut être attribué à l'efficacité de l'algorithme de recherche employé d'une part, et aux milliers de PC bon marchés interconnectés entre eux qui créent un des moteurs de recherche les plus rapide d'autre part.

A la base, son fonctionnement est très classique pour un moteur: il effectue dans son index des recherches en texte intégral pour trouver celles qui contiennent les mots que vous lui demandez (comme Alta Vista ou Excite p.ex.), mais les résultats sont pondérés par un indice de popularité appelé PageRank(tm).

PageRank au coeur de Google

Google est très démocratique de nature. Pour réaliser son classement, il se sert de la notion d'indice de popularité grâce à une technologie propriétaire appelée PageRank(tm). En clair, plus il y aura de pages dans l'index du moteur proposant un lien (comme un vote..) vers le document à classer, meilleur sera le rang de celui-ci. Cette page est donc dite "populaire", puisque de nombreux sites proposent un lien vers elle. Mais PageRank va plus loin: l'algorithme pondère le volume de liens vers la page à classer par l'importance des pages dont les liens sont issus. Ainsi, une page "importante" (populaire) qui posséderait un lien vers la page recherchée est pondérée plus fortement qu'une page "inconnue".

La notion d'indice de popularité présente néanmoins deux inconvénients majeurs : elle pénalise les pages récentes (donc proposant logiquement peu de liens vers elles) et les pages parlant d'un domaine très pointu, qui ont un indice faible même si elles sont très pertinentes.

Cela dit, Google reste un moteur très original et souvent très pertinent dans ses recherches. Son interface est minimaliste et propose très peu de publicité sur ses pages de résultats. Il constitue un outil à essayer absolument.

Google

Le web vu par Google

Quelques chiffres tirés de WIRED 8.12 (décembre 2000):

  • Google couvre plus de 1.6 milliard d'URLs (dont 220 millions sont des pages dupliquées)
  • La dominance des domaines américains (.com, .net, .org et .edu) reste encore bien réelle(1)
  • Le premier domaine non américain et .de (Allemagne) qui représente moins de 5% des pages indexées par Google
  • Le japonais est la deuxième langue la plus utilisée sur le net après l'anglais, mais n'atteint pas 3% des sites(2).
  • Toutes langues du net possèdent des pages explicitement destinées aux adultes. Celles au contenu explicitement pornographique atteignent 4% - ce qui représente environ 56 millions de pages - en comptant seulement celles dont l'accès est gratuit!(3)
Domaines de 1er niveau (TLD) (1) %
.com 48.94
.net 6.34
.edu 5.08
.de (Allemagne) 4.78
.org 4.76
.jp (Japon) 4.31
.uk (Royaume Uni) 4.01
sans nom 1.72
.tw (Taiwan) 1.20
.nl (Pays Bas) 1.10
.fr (France) 1.00
.it (Italie) 0.97
.ch (Suisse) 0.81
.ca (Canada) 0.78
.se (suède) 0.74
.kr (République de Corée) 0.72
.es (Espagne) 0.71
.cn (Chine) 0.68
.ru (Fédération de Russie) 0.67
.dk (Danemark) 0.67
.au (Australie) 0.65
.us (USA) 0.64
.gov 0.63

Langues (2) %
Anglais 76.59
Japonais 2.77
Allemand 2.28
Chinois 1.69
Français 1.09
Espagnol 0.81
Coréen 0.65
Italien 0.62
Néerlandais 0.36
Portugais 0.35
Suèdois 0.32
Dannois 0.14
Norvégien 0.14
Hébreu 0.02
Islandais 0.02
Inconnu 11.98

Top 10 des mots clés % de pages
sex 0.940
software cracks 0.010
MP3 0.460
hotmail 0.230
yahoo 1.440
napster 0.040
chat 1.060
warez 0.030
gnutella 0.003
porno 0.090

Notes:

(1) Les domaines de premier niveau (ou TLD, "Top Level Domain") .com, .net et .org ne sont plus exclusivement réservés aux compagnies ou ressortissants des USA (contrairement aux .edu), et ne sont donc pas représentatifs de sites américains uniquement. Néanmoins, ces domaines restent encore très USA-centrés. Le domaine .com est devenu un vaste fourre-tout qui a pris nettement l'ascendant sur les autres terminaisons. au point où il devient difficile de trouver un nom de domaine encore libre

La disparité des pourcentages des autres domaines peut s'expliquer par le nombre d'ordinateurs connectés dans le pays, et d'autre part par la facilité ou la difficulté à obtenir un nom de domaine. En effet, le nombre de domaines suisses et français est proche: les domaines français (.fr) représentent 1% des pages indexées par Google, alors que les domaines suisses (.ch) atteignent 0.8%. Or, le petit nombre de domaines .fr apparaît comme une conséquence directe des restrictions imposées par l'organisme chargé de la gestion des noms de domaines français (l'Afnic). il faut en effet passer par un fournisseur d'accès à Internet (ISP) et respecter la charte de nommage éditée par l'Afnic. Seule une société enregistrée au registre du commerce pourra obtenir un domaine .fr, pas question d'ouvrir un site avec son patronyme en .fr, il faudra adopter .nom.fr, et les associations sont dans l'obligation d'utiliser le .asso.fr . La situation en Suisse est différente dans la mesure où l'organisme en charge (SWITCH) propose l'achat en ligne des noms de domaines .ch et .li - les mêmes rêgles s'appliquent que vous représentiez une société ou une personne physique.

(2) Seules les langues reconnues par les filtres de Google sont prises en compte.

(3) Selon le filtre SafeSearch de Google.

Pour en savoir plus..

Posted a response ? — Webmention it

This site uses webmentions. If you've posted a response and need to manually notify me, you can enter the URL of your response below.

Want more ? — prev/next entries