石田修二ホームページ > コンピュータメモ > (サイト内検索)
この記事を書き始めた時のバージョンは 3.0.3 です。現在は 3.0.4 です。
以下のサイトから、Windows版と言語パックの2つをダウンロードします。特に言語パックを忘れないように。
Cドライブに xpdf という名前のフォルダを作ります。
作成したら、例えば、32bitからbin32のフォルダの中身を c:\xpdf にコピー(移動)します。
ダウンロードした「xpdf-japanese.tar.gz」を解凍したら、C:\xpdf\japaneseというフォルダを作って,そこにコピーします。
その後、xpdfrc(拡張子ナシ)というファイルを作成します。中身は次の通りです(以下を入力するもよし、コピーするもよしです)。
textEncoding UTF-8 cidToUnicode Adobe-Japan1 "C:\xpdf\japanese\Adobe-Japan1.cidToUnicode" unicodeMap ISO-2022-JP "C:\xpdf\japanese\ISO-2022-JP.unicodeMap" unicodeMap EUC-JP "C:\xpdf\japanese\EUC-JP.unicodeMap" unicodeMap Shift-JIS "C:\xpdf\japanese\Shift-JIS.unicodeMap" cMapDir Adobe-Japan1 "C:\xpdf\japanese\CMap" toUnicodeDir "C:\xpdf\japanese\CMap"
補足説明すると,1行目が、出力テキストの文字コード設定です。ここではunicodeにしています。EUC-JP出力をデフォルトにしたければ、EUC-JP、Shift-JISにしたければ、Shift-JISとします。
(参考)石田修二のxpdfrc
任意のPDFファイル(仮にsample.pdfとしておきます)を\Users\[foobar] 以下に置きます。コマンドプロンプトから以下のおまじないを打ち込みます。
"C:\xpdf\pdftotext" -enc Shift-JIS sample.pdf
Pathが通っていれば、上の例であれば pdftotext -enc Shift-JIS sample.pdf
でも構いません。
問題が無ければ、PDFファイルと同じ場所に、sample.txtというテキストファイルができているはずです。
今回はShift-JISで出力されていますが、もしEUC-JPで出力したければ、-enc EUC-JP
とします。
ちなみに配置をそのまま残したい場合は -layout
オプションを付けます。
"C:\xpdf\pdftotext" -layout -enc Shift-JIS sample.pdf
unicodeで出力したければ、"C:\xpdf\pdftotext" sample.pdf
で問題ありません。
オプション -f 開始ページ -l 終了ページ
でいけるみたいです(未確認)。
リンクはご自由にどうぞ。
Last modified: 2013-10-12 18:05:00