FreeBSD-10.1 PDFからテキスト成分のみをすばやく抽出する簡単な方法

Home » 9200. My FreeBSD » FreeBSD-10.1 PDFからテキスト成分のみをすばやく抽出する簡単な方法
2015-09-01 9200. My FreeBSD, 9700. Emacs コメントはまだありません

こんにちは。
Emacsを使ってあれこれ文章を作成するようになり、FreeBSD上では完全になくてはならない
ツールになっています。しかし、いろいろ文章を作成していくなかで昔作成した書類なんかは
最終的にはPDFで保管されていることが多く、再利用するような場面が結構あったりします。
そんな時にPDFからテキストファイルに変換出来ると良いですよね。
今日はPDFからテキストに変換する方法について書いてみようと思います。


目次

1.変換ツールの概要

2.対応するOS

3.pdftotextのインストール

4.使い方

5.コマンドオプション

6.最新情報


動作環境

FreeBSD 10.1-RELEASE-p16

KDE-4.14.3

linuxやMacでも多少の違いはありますが同じことが出来ます。


1. 変換ツールの概要

PDFからテキストに変換するツールはpdftotextやpandocが有名です。pdftotextはその名の通りで
PDFからテキストへ変換するツールです。pandocはマルチフォーマットであらゆるフォーマットに対
応したツールです。今日はpdftotextについて説明します。


2. 対応するOS

xpdftotextは、UNIX、Linux、FreeBSDなどのunixの他、OS/2、Windows(32ビット),Mac
に対応しています。


3.pdftotextのインストール

FreeBSD-10.1の場合はportsよりインストール出来ます。
pdftotextはxpdfに含まれています。
japanese/xpdf


4.使い方

使い方はいたって簡単です。以下の様な使い方が出来ます。
オリジナルのPDFをhogehoge.pdf,変換後のテキストファイルをhogehoge.txtとして以下に例を
示します。

1)hogehoge.pdfをhogehoge.txtに変換する
$ pdftotext hogehoge.pdf hogehoge.txt

2)hogehoge.pdfの1ページから10ページをhogehoge.txtに変換する
$ pdftotext -f 1 -l 10 hogehoge.pdf hogehoge.txt

3)変換したテキストファイルを暗号化して所有者パスワードで保護する 
$ pdftotext -opw ‘password’ hogehoge.pdf hogehoge.txt

4)変換したテキストファイルを暗号化してユーザパスワードで保護する
$ pdftotext -upw ‘password’ hogehoge.pdf hogehoge.txt

5.コマンドオプション

root@dreamcraft:/home/satoshi # pdftotext
pdftotext version 0.34.0
Copyright 2005-2015 The Poppler Developers – http://poppler.freedesktop.org
Copyright 1996-2011 Glyph & Cog, LLC
Usage: pdftotext [options] [] -f : first page to convert
-l : last page to convert
-r : resolution, in DPI (default is 72)
-x : x-coordinate of the crop area top left corner
-y : y-coordinate of the crop area top left corner
-W : width of crop area in pixels (default is 0)
-H : height of crop area in pixels (default is 0)
-layout : maintain original physical layout
-fixed : assume fixed-pitch (or tabular) text
-raw : keep strings in content stream order
-htmlmeta : generate a simple HTML file, including the meta information
-enc : output text encoding name
-listenc : list available encodings
-eol : output end-of-line convention (unix, dos, or mac)
-nopgbrk : don’t insert page breaks between pages
-bbox : output bounding box for each word and page size to html. Sets -h tmlmeta

-opw : owner password (for encrypted files)
-upw : user password (for encrypted files)
-q : don’t print any messages or errors
-v : print copyright and version info
-h : print usage information
-help : print usage information
–help : print usage information
-? : print usage information


最新情報

詳しくは下記サイトが参考になります。
http://www.foolabs.com/xpdf/home.html
現在の最新版はCurrent version: 3.04 (2014-may-28) です。


では、今日はこのへんで。


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です