Qu’est-ce que l’archivage numérique avec Wayback Machine ?

À l’exemple de l’univers, l’internet est un système qui s’étend et se modifie de façon constante. Tous les sites affectés par cette caractéristique de la toile ne sont pas toutefois amenés à totalement disparaître. Vous pouvez toujours en retrouver une trace grâce aux plateformes d’archivage du web.

Accéder à des sites web disparus et leurs contenus

L’archivage de sites web fonctionne sur la base d’une technologie appelée ‘Wayback Machine’. Cette dernière a été créée en 1996 par Brewster Kahle et Bruce Gilliat pour garder des traces de l’histoire du web. Les archives en questions peuvent être utilisées par des chercheurs et des historiens pour les besoins de la documentation. Certains pourraient toutefois aussi s’en servir à des fins plus ludiques. Vous pourriez notamment utiliser le site pour voir à quoi ressemblait YouTube en 2002.

D’autres peuvent aussi utiliser l’archivage de site web à des fins plus pratiques. Cette technologie permet en effet d’accéder à des sites qui n’existent plus, en incluant leur contenu. Les contenus que vous pourrez télécharger seront toutefois ceux qui étaient disponibles au moment de l’archivage.

Pour plus d’information, la page web est disponible sur ce lien.

Capture instantanée et collecte des contenus

Les pages affichées à l’aide de Wayback Machine ne reflètent que celles archivées par le service. Elles ne tiennent pas compte de la fréquence de mise à jour de la page. Une page que vous avez visitée peut avoir été mise à jour une fois par jour pendant un mois entier. Wayback Machine peut toutefois ne l’avoir archivée qu’à quelques reprises. Les captures instantanées de pages Web sont souvent disponibles et consultables sur Internet plus de 6 mois après leur archivage.

Le contenu accumulé dans le référentiel de Wayback Machine est collecté à l’aide d’un logiciel de spidering. Ce dernier identifie un domaine, souvent dérivé d’Alexa, et suit une série de règles pour cataloguer et récupérer du contenu. Le contenu est capturé et stocké sous forme de pages Web.

Les instantanés disponibles pour un domaine spécifique peuvent être visualisés à l’aide d’une formule URL particulière. Le terme DOMAIN.COM est remplacé par le nom de domaine d’intérêt. Il est ensuite saisi dans le champ d’adresse ‘Uniform Resource Identifier’ (URI) du navigateur.

Toutes les pages Web existantes sur internet ne sont pas forcément archivées par Wayback Machine. Les sites de discussion ou de courrier électronique ne figurent pas notamment parmi ces archives. Il en est de même pour sites Web qui bloquent explicitement Wayback Machine. Certains sites Web cachés derrière des mots de passe et qui ne sont pas accessibles au public n’y sont pas aussi archivés.

Leave a Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *