【Python】Webスクレイピング(対はてな) - BeautifulSoup使用

作成途中

概要

Python スクリプトを使って、ログインが必要なサイトである「https://www.hatena.ne.jp/login」にアクセスしてスクレイピングする。
このとき、HTML の解析を BeautifulSoup4 を使う。


準備

selenium のインストール

こちらを参照。(Ubuntu 17.04)


実装

hatenaLogin2.py

#!/usr/bin/env python3
# -*- coding: utf-8 -*- 
# 参考にしたサイト
# - https://qiita.com/_akisato/items/2daafdbc3de544cf6c92#%E3%82%BD%E3%83%BC%E3%82%B9-1
#
# 事前に以下を実行してパッケージをインストールしておくこと
# pip3 install requests
# pip3 install lxml
# pip3 install beautifulsoup4

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
import sys
import json
import requests
from bs4 import BeautifulSoup
import codecs

loginUrl = "https://www.hatena.ne.jp/login"
username = "アカウント"
password = "パスワード"

options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')

driver = webdriver.Chrome(chrome_options=options)

driver.get(loginUrl)
#html = driver.page_source.encode('utf-8')
html = driver.page_source

soup   = BeautifulSoup(html, "lxml")
header = soup.find("head") 
title  = header.find("title").text

print(title)

(作成途中。上記のように head で先頭を見つけて、辿っていくことになりそう)