本日のメニュー
大量の英文pdfファイルを読みたいのだけれど、英単語がそもそもわからない。ひとまずpdfファイルをtextファイルに変換して、単語をリスト化して、頻出単語を上から順番に暗記しよう。きっとその方が早く読める!と信じることにした。過去の高校・大学受験で培った悪しき精神だと思う。
そういうわけで、大量の英文pdfファイルを鍋に投入し、茹でてtextファイルに変換することにした。気分はさながら椀子そば大会のために大量のそばを茹でる気分。
調理台の環境
Python version: 3.6.1 |Anaconda 4.4.0 (x86_64)
pdfminer version: 20170419
食材
消化に困る大量のpdfファイル
調理器具
pdfminer ←インストール方法末尾の参照URLをチェック
PyPDF2よりも、pdfminerの方が良い結果を得られる、らしい。
調理の失敗として想定されること
日本語の文章には対応していない(と思われる)ので、ご留意ください。
今日の鍋
完成品
胃もたれしそうな大量のtextファイル
次の調理
大量のtextファイルから、頻出単語を500個くらい抽出する。その単語の意味を覚える(英文を早く読むのに効果があるかは、不明)。
input-and-output.hatenablog.com
結果として、英語力の向上にあまり効果はなさそうだった。
参考文献、参照URL
pdfファイルをtextファイルに変換する部分は、こちらの記事から引用(一部改変)しました。
StringIOのインポートエラーへの対処はこちらを参考にしました。
osモジュールの使い方
pdfminerのページ
anaconda環境におけるpdfminerのインストール手順はこちらを参考にしました。
https://github.com/conda-forge/pdfminer-feedstockhttps://conda-forge.org/feedstocks
おまけの電車