本日のメニュー
先日下ごしらえした大量のtextファイルから頻出英単語を抽出する。
input-and-output.hatenablog.com
調理台の環境
Python version: 3.6.1 |Anaconda 4.4.0 (x86_64)
調理器具
os , re
今日はあまり特殊なモジュールは使わない。
調理の失敗として想定されること
以下のプログラムでは、pythonファイルを実行したフォルダのtextファイルが対象となるので、textファイルとpythonファイルは同じフォルダに投入しておかないと失敗する。
今日の鍋
完成品
さっぱりと仕上がった単語リスト。
単語リストを眺めてみると、上位1000単語は非常に基礎的な、多分中学生レベルの単語がほとんどだ。英語論文が読めないのは単語を知らないせいというよりも、単語の使い方、イディオム、文法が弱いことに原因があるような気がして来た。
また、結果を全て眺めてみると、pdfminerでうまくtext化できず文字化けしているものや、( )がくっついているものなど、正確な単語となっていないものが多くあった。こういったものは、文字化けしないように抽出方法を改善すべきか、それとも思い切ってサンプルから除外してしまうかは難しいところ。今回は同系統の論文群で、使われている単語に大きな差はないって前提のもと、サンプルから除外して上記pythonファイルを実行した。
参考文献、参考URL
いつも通りの「退屈なことはPythonにやらせよう」。
タイトル長いから、「TaiPy」って略しちゃいたい。
退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング
- 作者: Al Sweigart,相川愛三
- 出版社/メーカー: オライリージャパン
- 発売日: 2017/06/03
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (5件) を見る