青空文庫で公開されている太宰治 著の「走れメロス」をBeautifulSoupで取得する方法について記載。
事前にurllib3とbeautifulsoup4をインストールすること。
実行環境は次のとおり。
環境
MacBook Air (M1,2020)
macOS Monterey 12.0.1
python 3.10.6
urllib3 2.1.0
beautifulsoup4 4.12.2
走れメロス
https://www.aozora.gr.jp/cards/000035/files/1567_14913.html
import urllib.request
from bs4 import BeautifulSoup
#URL(走れメロス)
url = "https://www.aozora.gr.jp/cards/000035/files/1567_14913.html"
#APIコール
response = urllib.request.urlopen(url)
#HTMLソース
html = response.read().decode("shift_jis")
#文章の抽出
soup = BeautifulSoup(html, "html.parser")
#class_="main_text"の部分を取得し、不要な空白文字を削除
text_melos = soup.find("div", class_="main_text").text.replace("\r", "").replace("\u3000", "")
後日、本内容を利用した記事を投稿予定。