input & output

完全文系プログラミングど素人が機械学習に興味を持ってしまった。

大量のtextファイルから、使用されている単語の数を集計する(英語限定)

本日のメニュー


先日下ごしらえした大量のtextファイルから頻出英単語を抽出する。

 

input-and-output.hatenablog.com

 

 

調理台の環境


Python version: 3.6.1 |Anaconda 4.4.0 (x86_64)

 

調理器具


os , re

今日はあまり特殊なモジュールは使わない。

 

調理の失敗として想定されること


以下のプログラムでは、pythonファイルを実行したフォルダのtextファイルが対象となるので、textファイルとpythonファイルは同じフォルダに投入しておかないと失敗する。

 

今日の鍋


テキストファイルで使用されている英単語の数をカウントする。

 

完成品


さっぱりと仕上がった単語リスト。

単語リストを眺めてみると、上位1000単語は非常に基礎的な、多分中学生レベルの単語がほとんどだ。英語論文が読めないのは単語を知らないせいというよりも、単語の使い方、イディオム、文法が弱いことに原因があるような気がして来た。

また、結果を全て眺めてみると、pdfminerでうまくtext化できず文字化けしているものや、( )がくっついているものなど、正確な単語となっていないものが多くあった。こういったものは、文字化けしないように抽出方法を改善すべきか、それとも思い切ってサンプルから除外してしまうかは難しいところ。今回は同系統の論文群で、使われている単語に大きな差はないって前提のもと、サンプルから除外して上記pythonファイルを実行した。

 

参考文献、参考URL


いつも通りの「退屈なことはPythonにやらせよう」。

タイトル長いから、「TaiPy」って略しちゃいたい。

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

 

 

今日の電車


https://www.instagram.com/p/BYU749KnIRn/

#箱根登山鉄道 #実物を撮り忘れる #ぷらレールで代用