大量のtextファイルから、使用されている単語の数を集計する（英語限定）

本日のメニュー

先日下ごしらえした大量のtextファイルから頻出英単語を抽出する。

input-and-output.hatenablog.com

調理台の環境

Python version: 3.6.1 |Anaconda 4.4.0 (x86_64)

調理器具

os , re

今日はあまり特殊なモジュールは使わない。

調理の失敗として想定されること

以下のプログラムでは、pythonファイルを実行したフォルダのtextファイルが対象となるので、textファイルとpythonファイルは同じフォルダに投入しておかないと失敗する。

今日の鍋

テキストファイルで使用されている英単語の数をカウントする。

完成品

さっぱりと仕上がった単語リスト。

単語リストを眺めてみると、上位1000単語は非常に基礎的な、多分中学生レベルの単語がほとんどだ。英語論文が読めないのは単語を知らないせいというよりも、単語の使い方、イディオム、文法が弱いことに原因があるような気がして来た。

また、結果を全て眺めてみると、pdfminerでうまくtext化できず文字化けしているものや、( )がくっついているものなど、正確な単語となっていないものが多くあった。こういったものは、文字化けしないように抽出方法を改善すべきか、それとも思い切ってサンプルから除外してしまうかは難しいところ。今回は同系統の論文群で、使われている単語に大きな差はないって前提のもと、サンプルから除外して上記pythonファイルを実行した。