29 mai 2008

Dépôt légal de l'Internet

Dépôt légal de l'internet : captures de sites du domaine Justice

1. Identification du fonds

 

Intitulé / analyse

Dépôt légal de l'internet : captures de sites du domaine Justice (1998- )

Dates

Les captures de sites internet les plus anciennes datent de 1998.

 

 

2. Contexte

 

Nom du producteur

Les producteurs sont les services du Ministère de la justice et les organismes centraux dans le domaine de la Justice.

Les captures de sites internet sont réalisées par la Bibliothèque nationale de France (BnF) en charge du dépôt légal.

Histoire administrative

L'histoire du dépôt légal et ses objectifs sont rappelés sur le site de la Bibliothèque nationale de France : http://www.bnf.fr/pages/infopro/depotleg/depotleg.htm

La loi 2006-961 du 1 août 2006 étend le champ du dépôt légal aux « signes, signaux, écrits, images, sons ou messages de toute nature qui font l’objet d'une communication au public par voie électronique ». L'obligation pèse sur les personnes qui éditent et produisent les sites Internet. La loi habilite les organismes en charge du dépôt légal à collecter les contenus en ligne selon des procédures automatiques mais prévoit également le dépôt de supports ou envoi de fichiers.Les conditions de sélection et de consultation des informations collectées sont fixées par décret en Conseil d'Etat pris après avis de la Commission nationale de l'informatique et des libertés.

Modalités d'entrée

Les sites web et les pages web du domaine .fr ont été collectés selon deux démarches correspondant à deux modes de capture :

  • les sites capturés lors de collecte à grande échelle ou collecte large (collecte automatique testée en 1999 dans le cadre du projet européen NEDLIB, puis « instantané » du domaine .fr réalisé en juin 2002) ;
  • les sites capturés dans le cadre de collectes thématiques ciblées.

Le service des archives du ministère de la Justice collabore au dépôt légal de l'internet en proposant à la BnF des évolutions dans la liste des sites faisant l'objet d'une collecte thématique ciblée

 

 

3. Contenu et structure du fonds

 

Présentation du contenu

Sites internet publiés par le Ministère de la justice et par les organismes centraux dans le domaine de la Justice.

Ci-après sont énumérés les principaux ensembles documentaires. Il est possible d'accéder au descriptif les concernant par un lien :

Par ailleurs, en 2006, le service des archives du ministère de la Justice a proposé à la BnF une liste d'autres sites des domaines judiciaire et pénitentiaire méritant un archivage. Cette liste présentée ci-dessous est organisée selon les critères de sélection retenus :

Continuité des collections

  • École Nationale de la Magistrature (ENM) - www.enm.justice.fr
  • École Nationale de l'administration pénitentiaire (ENAP) - www.enap.justice.fr
  • Service de l'Emploi Pénitentiaire (SEP) - www.sep.justice.gouv.fr/
  • Mission de Recherche "Droit et Justice" (GIP) - www.gip-recherche-justice.fr
  • Établissement Public du Palais de Justice de Paris (EPPJP) - www.eppjp.justice.fr

Nouvelles collections

  • Établissement Public "Agence de Maîtrise d’Ouvrage des Travaux du Ministère de la Justice" (AMOTMJ) - www.amotmj.justice.fr
  • Groupement pour l’informatisation du Livre foncier d’Alsace Moselle (GILFAM) - www.gilfam.fr
  • Institut des Hautes Etudes sur la Justice (IHEJ) - www.ihej.org

Services e-administration

  • Casier judiciaire national - www.cjn.justice.gouv.fr
  • Protection des mineurs sur internet - www.internet-mineurs.gouv.fr

Sites thématiques ou évènementiels

  • Parrainage - www.parrainage.justice.gouv.fr
  • Enlèvements internationaux d'enfants et droits de visite transfrontières - www.enlevement-parental.justice.gouv.fr
  • Ado justice - www.ado.justice.gouv.fr
  • Le mariage civil - www.mariage.gouv.fr
  • Bicentenaire du code civil - www.bicentenaireducodecivil.fr/default_noflash.htm (version légère)

Echantillons de sites du domaine justice.fr (juridictions)

  • CA de Caen - www.ca-caen.justice.fr/
  • CA de Lyon - www.ca-lyon.justice.fr/
  • CA de Paris - www.ca-paris.justice.fr/
  • CA de Poitiers - www.ca-poitiers.justice.fr/
  • CA de Toulouse - www.ca-toulouse.justice.fr/
  • TGI de Chartres - www.tgi-chartres.justice.fr/
  • TGI d'Epinal - www.tgi-epinal.justice.fr/
  • TGI de Paris - www.tgi-paris.justice.fr/
  • TI de Châteaudun - www.ti-chateaudun.justice.fr
  • TI de Versailles - www.ti-versailles.justice.fr
  • CPH de Dreux - www.cph-dreux.justice.fr
  • CPH de Versailles - www.cph-versailles.justice.fr

Echantillons de sites du domaine justice.fr (établissements pénitentiaires)

  • Maison d'arret de Saint-Etienne - www.ma-saintetienne.justice.fr/
  • Centre de détention du Muret - www.cd-muret.justice.fr/
  • Maison d'arrêt de Strasbourg - www.ma-strasbourg.justice.fr

Évaluation, tris et éliminations, sort final

La qualité de capture d'un site n'est pas la même en fonction du type de collecte. Les deux modes de collecte mis en oeuvre par la BnF ont leurs spécificités propres dont découlent des résultats différents :

  • La collecte large (ou collecte automatique) offre une photographie du web (ou d’une partie du web) à un moment donné (en anglais : snapshot = instantané). Ce mode de collecte permet de reconstituer l'hypertextualité du web.
    A partir d'une liste d'URL de départ (ici, URL appartenant au domaine .fr) le robot navigue de manière exploratoire de lien en lien à la manière d'un internaute virtuel. Si de nouvelles URL (hors liste de départ) sont découvertes en cours de collecte, elles sont capturées si elles sont conformes au champ défini (le domaine .fr). S'ajoutent à cette contrainte les paramètres de la collecte : la profondeur est spécifié sur le domaine et le robot a l’autorisation de suivre les redirections (du .fr vers un autre TLD).
    L’archive ainsi collectée (pages, fichiers encapsulés et liens) constitue une photographie de la toile française à un instant donné et forme un tout navigable.

    Paramètres de la collecte large :

    • antériorité : les captures plus plus anciennes ont été réalisées en 1998, plus généralement, à partir de 1999.
    • fréquence : en général, une capture par an
  • La collecte ciblée (ou thématique) offre l'avantage de capturer la "totalité des documents" d'un même site. Le robot ne collecte que les sites mentionnés dans une liste de départ et strictement ceux-là à partir des paramètres de profondeur spécifiés. Chaque site archivé est un tout autonome.

    Paramètres de la collecte ciblée :

    • antériorité : Les captures plus plus anciennes ont été réalisées en 2005.
    • fréquence : en général, une capture par an.
    • profondeur : collecte de l'intégralité du site.
    • autorisation de redirection vers un autre site dans quelques cas.

La BnF a élaboré une grille de critères pour l'évaluation des captures effectuées dans la collecte thématique :

Critères d'évaluation des sites capturés

  • On retrouve la plupart des éléments sur les pages du site : OUI / NON
  • On accède à l'essentiel de l'arborescence du site : OUI / NON
  • On navigue aisément à l'intérieur du site : OUI / NON
  • Le robot a rencontré les obstacles suivants lors de la collecte :
    • Aucun
    • Contenus payants ou protégés par mot de passe
    • Contenus accessibles via un formulaire de recherche
    • Animations, éléments dynamiques
    • Diffusion audio ou vidéo en flux
    • Ne sais pas
  • En résumé, la capture est : bonne/ moyenne / mauvaise.

La grille est utilisée dans cet état des fonds pour décrire l'état d'un site capturé en collecte thématique. Elle est complétée de l'indication des parties de site non accessibles.

Accroissements

La ressource continue de s'accroître.

 

 

4. Conditions d'accès et d'utilisation

 

Conditions d'accès

Les archives de l’internet peuvent être consultées à la BnF, en Bibliothèque de recherche (sites François Mitterrand et Richelieu) à partir de postes informatiques dédiés. Pour cela, il faut justifier d'une recherche d'ordre universitaire, professionnel ou personnel, nécessitant le recours aux collections de la Bibliothèque de recherche
Des restrictions d'utilisation sont précisés pour certains sites.

Langue et écriture des documents

Les documents sont en français.

Instruments de recherche

Il n’existe pas à la BnF de liste complète des sites accessibles dans les archives de l’Internet.

 

 

7. Contrôle de la description

 

Contrôle de la description

Rédigée par Annie Godet, chargée d'études documentaires, sous la direction de Louis Faivre d'Arcier, conservateur du patrimoine. Validité de la description : août 2006.

pied de page