input & output

完全文系プログラミングど素人が機械学習に興味を持ってしまった。

大量のPDFファイルを、pdfminerを使ってtextファイルに変換する

本日のメニュー


大量の英文pdfファイルを読みたいのだけれど、英単語がそもそもわからない。ひとまずpdfファイルをtextファイルに変換して、単語をリスト化して、頻出単語を上から順番に暗記しよう。きっとその方が早く読める!と信じることにした。過去の高校・大学受験で培った悪しき精神だと思う。


そういうわけで、大量の英文pdfファイルを鍋に投入し、茹でてtextファイルに変換することにした。気分はさながら椀子そば大会のために大量のそばを茹でる気分。

調理台の環境


Python version: 3.6.1 |Anaconda 4.4.0 (x86_64)

pdfminer version: 20170419

 

食材


消化に困る大量のpdfファイル

 

調理器具


pdfminer ←インストール方法末尾の参照URLをチェック
PyPDF2よりも、pdfminerの方が良い結果を得られる、らしい。

 

調理の失敗として想定されること


日本語の文章には対応していない(と思われる)ので、ご留意ください。

 

今日の鍋


 

PDF to TEXT

 

完成品


胃もたれしそうな大量のtextファイル

 

次の調理


大量のtextファイルから、頻出単語を500個くらい抽出する。その単語の意味を覚える(英文を早く読むのに効果があるかは、不明)。

 

input-and-output.hatenablog.com

 結果として、英語力の向上にあまり効果はなさそうだった。

 

 

参考文献、参照URL


pdfファイルをtextファイルに変換する部分は、こちらの記事から引用(一部改変)しました。

qiita.com

 

StringIOのインポートエラーへの対処はこちらを参考にしました。

kusanohitoshi.blogspot.jp

 

osモジュールの使い方

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

 

pdfminerのページ

PDFMiner

 

anaconda環境におけるpdfminerのインストール手順はこちらを参考にしました。

https://github.com/conda-forge/pdfminer-feedstockhttps://conda-forge.org/feedstocks

 

おまけの電車

https://www.instagram.com/p/BYMex5bHOFc/

#電車寿司