input & output

暇な公認会計士が、監査や身近な会計、その他自由に意見を述べています。

鉄道

大量のtextファイルから、使用されている単語の数を集計する(英語限定)

本日のメニュー 先日下ごしらえした大量のtextファイルから頻出英単語を抽出する。 input-and-output.hatenablog.com 調理台の環境 Python version: 3.6.1 |Anaconda 4.4.0 (x86_64) 調理器具 os , re 今日はあまり特殊なモジュールは使わない。 調理の失敗…

大量のPDFファイルを、pdfminerを使ってtextファイルに変換する

本日のメニュー 大量の英文pdfファイルを読みたいのだけれど、英単語がそもそもわからない。ひとまずpdfファイルをtextファイルに変換して、単語をリスト化して、頻出単語を上から順番に暗記しよう。きっとその方が早く読める!と信じることにした。過去の高…

今年の新規上場会社の「Ⅰの部」のPDFファイルをまとめて入手する。

新規上場会社の1の部を一つずつ落としていくのが面倒だったので、Pythonでスクレイピングプログラム作ってみました。あと、EF81が小田急引っ張ってました。