Webスクレイピング

2022年9月11日2026年5月18日

著者：副業の宮殿｜製造業に携わる現役エンジニア。技術士試験対策書籍をKindleで複数出版。技術ブログ「副業の宮殿」にて製造業DX・AI活用の情報を発信中。

１回目：ログインからブラウザ操作のためのコード

browser = webdriver.chrome()
url = ‘https://lll’
browser = get(url)
sleep(4)

elem_username = browser.find_element_by_id(‘usename’)
elem_usename.send_keys(’aaa’)

elem_password = browser.find_element_by_id(‘password’)

！pip install ・・・・
Jupyter Lab使用時のインストールコマンドコード

browser = get(url)

：

IDサイトにログインする

.find_element_by_id(‘aaa’)
aaaのidの要素を見つける

.send_keys(‘aaa’)
aaaを入力する

.click()
ログインボタンをクリックする

2回目：テキストを取得

elem = browser.find_element_by_id(‘name’)
name = elem.txet

elem_th = browser.find_element_by_tag_name(‘th’)
keys = []
for elem_th in elems_th:

key = elem_th.text
keys.append(key)

import pandas as pd
df = pd.DataFrame()
df[‘項目’] = keys
df.to_csv(‘講師情報’,index=False)

.replace(‘\n’,’aaa’)
aaaに置き換える

find_element　⇔ find_elements
単数取得⇔複数取得

3回目：beautiful soup　データ取得

import requests
from bs4 import BeautifulSoup

url = ‘ ‘
res = requests.get(url)

soup = BeautifulSoup

soup.find_all(‘p’,attrs={‘class’: ‘subscribers’})[0]
n_subscribers = int(subscribers.text.split(‘:’)[1])

print(soup.)

soup.select(‘subscribers’)

4回目：beautiful soupでランキングサイトのデータ取得

この記事を書いた人

天才