input & output

暇な公認会計士が、監査や身近な会計、その他自由に意見を述べています。

大量のPDFファイルを、pdfminerを使ってtextファイルに変換する

本日のメニュー


大量の英文pdfファイルを読みたいのだけれど、英単語がそもそもわからない。ひとまずpdfファイルをtextファイルに変換して、単語をリスト化して、頻出単語を上から順番に暗記しよう。きっとその方が早く読める!と信じることにした。過去の高校・大学受験で培った悪しき精神だと思う。


そういうわけで、大量の英文pdfファイルを鍋に投入し、茹でてtextファイルに変換することにした。気分はさながら椀子そば大会のために大量のそばを茹でる気分。

調理台の環境


Python version: 3.6.1 |Anaconda 4.4.0 (x86_64)

pdfminer version: 20170419

 

食材


消化に困る大量のpdfファイル

 

調理器具


pdfminer ←インストール方法末尾の参照URLをチェック
PyPDF2よりも、pdfminerの方が良い結果を得られる、らしい。

 

調理の失敗として想定されること


日本語の文章には対応していない(と思われる)ので、ご留意ください。

 

今日の鍋


 

PDF to TEXT

 

完成品


胃もたれしそうな大量のtextファイル

 

次の調理


大量のtextファイルから、頻出単語を500個くらい抽出する。その単語の意味を覚える(英文を早く読むのに効果があるかは、不明)。

 

input-and-output.hatenablog.com

 結果として、英語力の向上にあまり効果はなさそうだった。

 

 

参考文献、参照URL


pdfファイルをtextファイルに変換する部分は、こちらの記事から引用(一部改変)しました。

qiita.com

 

StringIOのインポートエラーへの対処はこちらを参考にしました。

kusanohitoshi.blogspot.jp

 

osモジュールの使い方

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

 

pdfminerのページ

PDFMiner

 

anaconda環境におけるpdfminerのインストール手順はこちらを参考にしました。

https://github.com/conda-forge/pdfminer-feedstockhttps://conda-forge.org/feedstocks

 

おまけの電車

https://www.instagram.com/p/BYMex5bHOFc/

#電車寿司