pdftotext
調べてみたらあった。
大半は有料だったが、Linuxにあるというので探ってみた
pdftotext
コマンドラインで使うということでパッケージを探してみた
ない。
ネットで探すとpopplerというソフトならあるらしい
Linuxで探してパッケージをインストール
解説書にpdftotextが存在した。
使ってみたがよくわからん。
htmlの変換はできるのでやり方が悪いということだけはわかる。
仕方ないのでググってみたらWindows版が存在するという
探ったらZIPファイルがあった。
Linuxからの移植ということもあってWindows版もコマンドラインで使うようだ。
こっちの場合はオプションなしですんなり動いた。
ZIPファイル落として解凍してダブルクリックでとりあえず動くことが分かったので、ターミナルを立ち上げた
最近はWindowsではパワーシェルというらしい。
PS C:\Users\hiran> C:\Users\Release-24.08.0-0\poppler-24.08.0\Library\bin\pdftotext.exe C:\Users\hiran\drive-004ドライブレコーダ説明書.pdf
こんな感じでコマンドラインをたたくとテキストを抽出してくれる。
poppler自体はpdfを加工するためのツール群の総称
解凍するとバイナリーファイルがたくさん入っているので、ターミナルでそれをたたく
代表的なもので下記のようにオプションでヘルプを呼び出すと使い方が出てくる
PS C:\Users\hiran> C:\Users\Release-24.08.0-0\poppler-24.08.0\Library\bin\pdftotext.exe -h
htmlにできるのとテキスト抽出以外は要はないが、いろいろあるようだ
各コマンドでたたくといろいろできるのだろう
とりあえず無料でpdfからテキスト抽出は可能なソフトが存在した
ちなみにgithubから検索に引っかかったが、ログインとかは要らない
ダウンロードが可能だ。
上記リリースバージョンは2024年10月のものだと記載がある
勉強すればただで使えるが、勉強しないなら金払え。
Last Updated on 2025年5月18日7:40 pm by cgishop