Lors de nos navigations sur internet, il arrive parfois que l’on ait besoin d’enregistrer une page web intéressante pour la conserver sous un format de fichier courant (texte ou pdf) afin de la consulter plus tard hors connexion ou de l’envoyer à un ami par email.

Cependant un fichier html, bien que lisible avec un simple éditeur de texte, contient beaucoup d’informations (liens, tags, balises, mises en pages, images…). Ces informations rendent la lecture de la page quasiment impossible avec un simple éditeur.

 

Pour avoir une idée, dans Firefox, vous pouvez afficher le code de la page web en cours en allant dans le menu Outils -> Développement Web et en cliquant sur « Outils de développement » ou « code source de la page ».

Vous verrez que le texte de la page, malgré la couleur syntaxique, est difficile à trouver au milieu de tous les ces liens et balises.

Ainsi un fichier html est conçu pour être lisible qu’à travers un navigateur ou autre logiciel compatible, capable d’analyser le code afin d’afficher correctement les informations.

 

La plupart des navigateurs permettent d’enregistrer une page Web au format Html avec seulement deux options : Page web complète ou Page web HTML uniquement.

 

Ci-après un extrait du contenu du répertoire des fichiers.

 

Ci-après, un extrait de l’affichage de la page web, enregistrée avec l’option HTML uniquement. Les images n’apparaissent pas. Si la connexion internet est active les images s’afficheront. Elles ne sont pas dans la page html mais se chargent automatiquement grâce aux liens enregistrés dans la page.

 

Pour enregistrer ou convertir des pages HTML en fichier texte ou en pdf il n’existe pas beaucoup de solutions simples. Tous les navigateurs en effet ne le permettent pas ou n’offrent pas toutes ces possibilités, du moins sans ajout de plugins complémentaires.

Si vous n’utilisez pas un de ces navigateurs, il vous reste la solution de chercher et d’installer le plugin adéquat  (s’il existe), ou bien de faire un simple copier / coller de la page dans le bloc note ou dans un traitement de texte comme Word ou Libre Office.

Une autre possibilité est d’imprimer la page dans un fichier au format pdf d’Adobe ou xps de Microsoft. Dans ce cas vous ne maîtriserez pas toujours la mise en page.

Une autre solution pour obtenir un fichier texte est d’utiliser des programmes spécialisés. Le logiciel portable et gratuit « HTMLAsText » de chez Nirsoft (que vous pouvez obtenir en cliquant sur ce lien : HTMLAsText)  fait très bien le travail. Il supprime les tags et balises des fichiers Html et ne garde que le texte.

Vous pouvez convertir un simple fichier ou plusieurs fichiers en lots se trouvant dans un même répertoire. Vous pouvez paramétrer la mise en page souhaitée. Cet outil est très pratique si vous avez beaucoup de fichiers à convertir, comme par exemple ceux d’un site Web aspiré à l’aide du logiciel HTTrack .

HTMLAsText permet de convertir des fichiers html en texte.

 

 

Pour convertir plusieurs fichiers d’un répertoire, activez le bouton radio « Convert Multiple Files ». La case « Scan Subfolder » (scanner les sous-répertoires) s’active, il suffit de la cocher ensuite.

Les autres options concernent la mise en page du fichier de sortie (nombre de caractères par ligne, caractères délimitant les cellules des tableaux, …).

 

Ci-dessous, extrait de la page web du site, traduite en texte par HTMLAsText.

 

Category: Internet
Hits: 3879

No comments