2 décembre 2012

Comment extraire les images d'un fichier PDF sur Ubuntu / Mint

Le petit utilitaire que je vais vous montrer est pour Linux Ubuntu ou Mint, mais ça doit surement marcher sur toutes les autres distributions basées sur Debian.

Donc on va se servir de pdfimages qui fait parti du package poppler-utils qui est un ensemble de logiciel bien pratique pour la manipulation de fichier PDF. Il est installé par défaut sur Mint mais il a pas l'air de l'être sur Ubuntu.

Installation

Pour savoir si vous avez un logiciel installé, ouvrez un terminal et tapez:

which nom-du-logiciel

Si la commande affiche rien c'est que vous l'avez pas, sinon elle devrait vous afficher le chemin vers le logiciel.

which pdfimages
/usr/bin/pdfimages

Donc si la commande vous à rien affichée, ouvrez un terminal et tapez:

sudo apt-get install poppler-utils

Regardez bien c'est pas une erreur, pdfimages fait partie du package poppler-utils donc il faut bien installer poppler-utils pour disposer de pdfimages.

Bien on est prêt !

Extraction des images

pdfimages va nous permettre d'extraire toutes les images d'un fichier PDF assez facilement en une ligne de de commande. Pour ça ouvrez un terminal et tapez:

pdfimages -j votre-fichier.pdf nomImage

L'option -j veut dire d' extraire les images au format jpg, donc avec cette commande il prend toutes les images du fichier PDF.

"nomImage" c'est le nom à donner à vos images extraites, vous mettez ce que vous voulez.

Heureusement il est possible de spécifier un intervalle de page, regardez par exemple si je veux extraire les images de la page 5 à la page 10.

pdfimages -j -f 5 -l 10 -p fichier.pdf monImage

Une petite explication s'impose.

  • -j : Pour extraire les images au format jpg.

  • -f : indique à partir de quelle page commencer l'extraction.

  • -l :indique à partir de quelle page arrêter l'extraction.

  • -p : inclus le numéro de la page dans le nom de l'image.

Si le PDF est protégé par un mot de passe vous devez ajouter les options -opw et -upw.

Un exemple:

pdfimages -j -opw nomProprietaire -upw motDepasseProprietaire fichier.pdf nonImage

Vous l'aurez compris opw = owner password et upw = user password.

1 commentaire:

  1. Bonjour,

    très bon tuto que je réserve,
    mais qu'en est-il des autres formats , par ex les .pps que l'on se transmet et qui contiennent beaucoup d'images!

    Merci
    @

    RépondreSupprimer