石田修二ホームページ > コンピュータメモ >    (サイト内検索

pdftotext

この記事を書き始めた時のバージョンは 3.0.3 です。現在は 3.0.4 です。

How to install

以下のサイトから、Windows版と言語パックの2つをダウンロードします。特に言語パックを忘れないように。

Cドライブに xpdf という名前のフォルダを作ります。

作成したら、例えば、32bitからbin32のフォルダの中身を c:\xpdf にコピー(移動)します。

ダウンロードした「xpdf-japanese.tar.gz」を解凍したら、C:\xpdf\japaneseというフォルダを作って,そこにコピーします。

その後、xpdfrc(拡張子ナシ)というファイルを作成します。中身は次の通りです(以下を入力するもよし、コピーするもよしです)。

textEncoding UTF-8
cidToUnicode Adobe-Japan1 "C:\xpdf\japanese\Adobe-Japan1.cidToUnicode"
unicodeMap ISO-2022-JP "C:\xpdf\japanese\ISO-2022-JP.unicodeMap"
unicodeMap EUC-JP "C:\xpdf\japanese\EUC-JP.unicodeMap"
unicodeMap Shift-JIS "C:\xpdf\japanese\Shift-JIS.unicodeMap"
cMapDir Adobe-Japan1 "C:\xpdf\japanese\CMap"
toUnicodeDir "C:\xpdf\japanese\CMap"

補足説明すると,1行目が、出力テキストの文字コード設定です。ここではunicodeにしています。EUC-JP出力をデフォルトにしたければ、EUC-JP、Shift-JISにしたければ、Shift-JISとします。

(参考)石田修二のxpdfrc

動かし方

任意のPDFファイル(仮にsample.pdfとしておきます)を\Users\[foobar] 以下に置きます。コマンドプロンプトから以下のおまじないを打ち込みます。

"C:\xpdf\pdftotext" -enc Shift-JIS sample.pdf

Pathが通っていれば、上の例であれば pdftotext -enc Shift-JIS sample.pdf でも構いません。

問題が無ければ、PDFファイルと同じ場所に、sample.txtというテキストファイルができているはずです。

今回はShift-JISで出力されていますが、もしEUC-JPで出力したければ、-enc EUC-JP とします。

ちなみに配置をそのまま残したい場合は -layoutオプションを付けます。

"C:\xpdf\pdftotext" -layout -enc Shift-JIS sample.pdf

unicodeで出力したければ、"C:\xpdf\pdftotext" sample.pdf で問題ありません。

一部のページのみ抽出するには?

オプション -f 開始ページ -l 終了ページ でいけるみたいです(未確認)。

Link


リンクはご自由にどうぞ。

【石田修二トップページ】  【コンピュータメモ】

Last modified: 2013-10-12 18:05:00