[基礎編] PythonでWebスクレイピング

| - 初めに -

最近はWebスクレイピングにお熱である。

株投資の戦略を検証するために、株の情報を収集して、シミュレーションを作ったり、インスタグラムから好きな人の画像をダウンロードしたり、機械学習のデータ集めに利用したりしている。そういう時に役に立つのはWebスクレイピングである。

| - ツールの準備 -

1. 利用する言語: python3

2. スクレイピングするために、重要なモジュール

  • requests:

  • インストール: pip install requests

  • 概要:標準的なHTTPライブラリ

  • Beautiful Soup

  • インストール: pip install beautifulsoup4

  • 概要:HTMLの構造解をした上で、HTMLを綺麗に成形してくれる。

  • Selenium

  • インストール: pip install selenium

  • 概要: ページの操作(ボタンをクリックしたり、formに文字を入れたりする)をしてくれる

| - 参考ソース -

https://github.com/makotovnjp/WebScraping

この公開ソースでは、以下の事ができる

  1. cophieu68.vnのホームページから株の情報を取得できる.

  2. インスタグラムから好きな人の全画像をダウロードできる

git clone した後に、以下のフォーマットの通りに、

config.pyのファイルを作成し、同じフォルダに保存すると、利用できる。

--- config.py ---

username = "****" # cophieu68.vnのユーザアカウント password = "****" instagram_username = "****" instagram_password = "****"

| - 最後に -

他にこういうデータが自動的に取得したいという要望がございましたら、お気軽くご連絡くださいませ。

© 2020 by HACHIX Corporation​