とある事情により、Google Playに登録されているアプリのランキングをリスト化する必要が発生しました。
アプリのランキングページは、こんな構成になっています。
- 無料
- 人気(有料)アプリ
- 売上トップのアプリ
- 無料
- 人気(有料)ゲーム
- 売上トップのゲーム
それぞれ200個のアプリが表示されるので、つまり200 x 6で1200アプリをリスト化しなくてはなりません。さすがに手作業でそれを実施していくのは嫌だし、何より間違いの元なのでPuppeteerを使ってスクレイピングを行い、リスト(CSV)を作成するスクリプトを作成しました。
取得するのは以下の4つです。
- アプリ名
- 提供元
- カテゴリー
- Google Playのアプリのページ(URL)
本当はアプリのアイコンも取得するようにしていたのですが、画像周りは権利やら著作権やらでややこしいことになりそうな気がするので、公開版では外しています。
スクリプトはGitHubで公開していますので、必要な方はどうぞ……って、普通は必要にならないか(笑)
出力されたCSVファイルの文字コードはUTF-8なので、そのままExcelで開くと文字化けするのでお気をつけて。
あと、自分用に作ったのでエラー処理はほとんど無いです。