the empty set

Le web vu par Google

.. ou un milliard et demi de pages servies

Google <http://google.com> est un moteur de recherche (dont le nom est dérivé du terme "Googol" qui signifie "10 à la puissance 100") créé en 1998 par deux étudiants de l'Université de Stanford, Larry Page et Sergey Brin.

Le succès de Google se base sur sa rapidité d'exécution et la qualité des résultats présentés. Il peut être attribué à l'efficacité de l'algorithme de recherche employé d'une part, et aux milliers de PC bon marchés interconnectés entre eux qui créent un des moteurs de recherche les plus rapide d'autre part.

A la base, son fonctionnement est très classique pour un moteur: il effectue dans son index des recherches en texte intégral pour trouver celles qui contiennent les mots que vous lui demandez (comme Alta Vista ou Excite p.ex.), mais les résultats sont pondérés par un indice de popularité appelé PageRank(tm).

PageRank au coeur de Google

Google est très démocratique de nature. Pour réaliser son classement, il se sert de la notion d'indice de popularité grâce à une technologie propriétaire appelée PageRank(tm). En clair, plus il y aura de pages dans l'index du moteur proposant un lien (comme un vote..) vers le document à classer, meilleur sera le rang de celui-ci. Cette page est donc dite "populaire", puisque de nombreux sites proposent un lien vers elle. Mais PageRank va plus loin: l'algorithme pondère le volume de liens vers la page à classer par l'importance des pages dont les liens sont issus. Ainsi, une page "importante" (populaire) qui posséderait un lien vers la page recherchée est pondérée plus fortement qu'une page "inconnue".

La notion d'indice de popularité présente néanmoins deux inconvénients majeurs : elle pénalise les pages récentes (donc proposant logiquement peu de liens vers elles) et les pages parlant d'un domaine très pointu, qui ont un indice faible même si elles sont très pertinentes.

Cela dit, Google reste un moteur très original et souvent très pertinent dans ses recherches. Son interface est minimaliste et propose très peu de publicité sur ses pages de résultats. Il constitue un outil à essayer absolument.

Google

Le web vu par Google

Quelques chiffres tirés de WIRED 8.12 (décembre 2000):

  • Google couvre plus de 1.6 milliard d'URLs (dont 220 millions sont des pages dupliquées)
  • La dominance des domaines américains (.com, .net, .org et .edu) reste encore bien réelle(1)
  • Le premier domaine non américain et .de (Allemagne) qui représente moins de 5% des pages indexées par Google
  • Le japonais est la deuxième langue la plus utilisée sur le net après l'anglais, mais n'atteint pas 3% des sites(2).
  • Toutes langues du net possèdent des pages explicitement destinées aux adultes. Celles au contenu explicitement pornographique atteignent 4% - ce qui représente environ 56 millions de pages - en comptant seulement celles dont l'accès est gratuit!(3)
Domaines de 1er niveau (TLD) (1) %
.com 48.94
.net 6.34
.edu 5.08
.de (Allemagne) 4.78
.org 4.76
.jp (Japon) 4.31
.uk (Royaume Uni) 4.01
sans nom 1.72
.tw (Taiwan) 1.20
.nl (Pays Bas) 1.10
.fr (France) 1.00
.it (Italie) 0.97
.ch (Suisse) 0.81
.ca (Canada) 0.78
.se (suède) 0.74
.kr (République de Corée) 0.72
.es (Espagne) 0.71
.cn (Chine) 0.68
.ru (Fédération de Russie) 0.67
.dk (Danemark) 0.67
.au (Australie) 0.65
.us (USA) 0.64
.gov 0.63

Langues (2) %
Anglais 76.59
Japonais 2.77
Allemand 2.28
Chinois 1.69
Français 1.09
Espagnol 0.81
Coréen 0.65
Italien 0.62
Néerlandais 0.36
Portugais 0.35
Suèdois 0.32
Dannois 0.14
Norvégien 0.14
Hébreu 0.02
Islandais 0.02
Inconnu 11.98

Top 10 des mots clés % de pages
sex 0.940
software cracks 0.010
MP3 0.460
hotmail 0.230
yahoo 1.440
napster 0.040
chat 1.060
warez 0.030
gnutella 0.003
porno 0.090

Notes:

(1) Les domaines de premier niveau (ou TLD, "Top Level Domain") .com, .net et .org ne sont plus exclusivement réservés aux compagnies ou ressortissants des USA (contrairement aux .edu), et ne sont donc pas représentatifs de sites américains uniquement. Néanmoins, ces domaines restent encore très USA-centrés. Le domaine .com est devenu un vaste fourre-tout qui a pris nettement l'ascendant sur les autres terminaisons. au point où il devient difficile de trouver un nom de domaine encore libre

La disparité des pourcentages des autres domaines peut s'expliquer par le nombre d'ordinateurs connectés dans le pays, et d'autre part par la facilité ou la difficulté à obtenir un nom de domaine. En effet, le nombre de domaines suisses et français est proche: les domaines français (.fr) représentent 1% des pages indexées par Google, alors que les domaines suisses (.ch) atteignent 0.8%. Or, le petit nombre de domaines .fr apparaît comme une conséquence directe des restrictions imposées par l'organisme chargé de la gestion des noms de domaines français (l'Afnic). il faut en effet passer par un fournisseur d'accès à Internet (ISP) et respecter la charte de nommage éditée par l'Afnic. Seule une société enregistrée au registre du commerce pourra obtenir un domaine .fr, pas question d'ouvrir un site avec son patronyme en .fr, il faudra adopter .nom.fr, et les associations sont dans l'obligation d'utiliser le .asso.fr . La situation en Suisse est différente dans la mesure où l'organisme en charge (SWITCH) propose l'achat en ligne des noms de domaines .ch et .li - les mêmes rêgles s'appliquent que vous représentiez une société ou une personne physique.

(2) Seules les langues reconnues par les filtres de Google sont prises en compte.

(3) Selon le filtre SafeSearch de Google.

Pour en savoir plus..

Ø permalink: https://davidroessli.com/logs/2000/12/le_web_vu_par_google/

Post a comment

(If you haven't left a comment here before, you may need to be approved by the site owner before your comment will appear. Until then, it won't appear on the entry. Thanks for waiting.)



Previous: Message de David

Next: ICANN


About

Hello, my name is David Roessli. I am a freelance web designer and developer based in Geneva, Switzerland.

This weblog is an nth attempt to solve my multiple online personalities and weblog/rss feeds burnout issues. (more)

Words

I have been contemplating the idea of upgrading my desktop Mac since this spring. The latest 27" iMac (Quad-Core) seemed the perfect candidate, but the release of Apple's 27" Monitor last September made me stick with the Mac Pro...

Music

The autopsy of an iconic album cover picked up on Kottke.org. A stacked graph of successive radio signals from pulsar CP 1919, in a 1977 astronomy encyclopedia that originated in a 1970 Ph.D. thesis. Fascinating <3...

Pictures

Check out my latest Flickr ramblings. Mostly day to day cameraphone pictures stolen here and there.


© 2000-2018 David Roessli | v4.1 | as valid xhtml and css as possible | hosted by Infomaniak | RSS feeds. Looking for my Privacy Policy ?