Les standards du Web et l’étude MAMA
La firme a l’origine du navigateur Opera a conduit une très intéressante enquête sur le respect des standards du Web à travers un échantillon de plus de trois millions de pages.
Cette étude est intitulé MAMA (Metadata Analysis and Mining Application) et elle révèle un tableau assez sombre de l’état actuel du respect des standards du Web.
Avant de tirer une conclusion quelconque d’une étude basée sur un échantillonnage du Web il faut s’interroger sur le choix des pages qui font partie de l’étude.
Cette question fait l’objet d’un compte rendu complet qui explique comment a été constitué la liste des 3 509 180 pages web scannées par l’étude MAMA. Initialement c’est le générateur aléatoire de Yahoo qui a été utilisé : http://random.yahoo.com/fast/ryl.
Bien que constituant un bon point de départ il a vite été nécessaire de suppléer aux défauts du générateur aléatoire de Yahoo qui ne pioche ses résultats que dans une liste statique constituée entre 2002 et 2004. Pour cela, ce sont les sites indexés par le projet DMoz qui ont été utilisés (près de cinq millions de sites en mars 2008). À cette liste on ajoute les sites des entreprises affiliées au W3C afin de voir si l’affiliation à l’organisme de standardisation du Web (World Wide Web Consortium) implique un meilleur respect des standards. La liste générée par le projet Alexa est également incluse dans l’étude MAMA afin d’obtenir un panel large et divers des pages Web existantes.
Une fois l’échantillon constitué le travail de fond d’analyse a pu commencer afin d’obtenir une vue précise de l’état actuel du Web sur le respect des standards. Une page récapitulative est présente sur le site et le détail de l’étude est également disponible sur le site d’Opera.
Le résultat le plus choquant de l’étude est que seulement 4,13 % des pages de l’étude MAMA passent l’étape de validation W3C sans erreur. Encore pire : sur les sites qui arborent fièrement les icônes de validité du W3C, il n’y en a que 50 % qui sont effectivement valides. Cela démontre qu’un site valide à un moment donné peut, au fil du temps et des changements, ne plus passer l’épreuve du validateur W3C. Il faut donc que les webmestres restent attentifs lors des modifications de leur pages.
Si on restreint les résultats aux sites des entreprises qui sont affiliés au W3C alors le taux de validation passe de 4,13 % à 20,15 % ce qui reste assez faible.
Dans le registre humoristique la pire page de l’étude MAMA est celle du site d’un obscur mouvement religieux américain qui contient près de 40 000 erreurs !
Un autre résultat intéressant concerne la prévalence de Flash sur les pages Web actuelles. Cette technologie flash est utilisée dans 33,5 % des sites (67 % dans le cas de la chine et près de 42 % pour la France). La technologie AJAX (fondée sur XMLHttpRequest) est présente dans 3,2 % des pages.
Un script (quel qu’il soit) est présent dans 74,5 % des pages de l’étude MAMA et JavaScript est la technologie qui domine largement.
D’autres résultats en bref…
* Les pages ayant un doctype “Transitional” sont dix fois plus nombreuses que les pages de type “Strict”.
* 85 % des pages de l’étude obligent les navigateurs à passer en mode Quirk.
* Les pages ayant été générés par Microsoft Word ont un taux de validation de 0,62 % alors que pour Apple IWeb on a un excellent taux de 81,9 %.
* Apache est le serveur de 67,72 % des domaines (Microsoft IIS représente 25,91 %).
En définitive cette étude MAMA effectuée par l’entreprise Opera Software est une mine de renseignements sur l’état actuel du Web. On y trouve une quantité de chiffres bruts et de statistiques qui permettent de se faire une idée plus juste du triste état de la compatibilité actuelle des pages avec les standards officiels du Web.
