大量のPDFファイルを、pdfminerを使ってtextファイルに変換する

本日のメニュー

大量の英文pdfファイルを読みたいのだけれど、英単語がそもそもわからない。ひとまずpdfファイルをtextファイルに変換して、単語をリスト化して、頻出単語を上から順番に暗記しよう。きっとその方が早く読める！と信じることにした。過去の高校・大学受験で培った悪しき精神だと思う。

そういうわけで、大量の英文pdfファイルを鍋に投入し、茹でてtextファイルに変換することにした。気分はさながら椀子そば大会のために大量のそばを茹でる気分。

Python version: 3.6.1 |Anaconda 4.4.0 (x86_64)

pdfminer version: 20170419

消化に困る大量のpdfファイル

pdfminer　←インストール方法末尾の参照URLをチェック
PyPDF2よりも、pdfminerの方が良い結果を得られる、らしい。

日本語の文章には対応していない（と思われる）ので、ご留意ください。

胃もたれしそうな大量のtextファイル

大量のtextファイルから、頻出単語を500個くらい抽出する。その単語の意味を覚える（英文を早く読むのに効果があるかは、不明）。

結果として、英語力の向上にあまり効果はなさそうだった。

pdfファイルをtextファイルに変換する部分は、こちらの記事から引用（一部改変）しました。

StringIOのインポートエラーへの対処はこちらを参考にしました。

osモジュールの使い方

pdfminerのページ

anaconda環境におけるpdfminerのインストール手順はこちらを参考にしました。

おまけの電車