MENU

[Python]青空文庫で公開されている「走れメロス」をBeautifulSoupでスクレイピングする方法

青空文庫で公開されている太宰治 著の「走れメロス」をBeautifulSoupで取得する方法について記載。

事前にurllib3とbeautifulsoup4をインストールすること。

実行環境は次のとおり。
環境
MacBook Air (M1,2020)
macOS Monterey 12.0.1
python 3.10.6
urllib3 2.1.0
beautifulsoup4 4.12.2

走れメロス
https://www.aozora.gr.jp/cards/000035/files/1567_14913.html

import urllib.request
from bs4 import BeautifulSoup

#URL(走れメロス)
url = "https://www.aozora.gr.jp/cards/000035/files/1567_14913.html"

#APIコール
response = urllib.request.urlopen(url)

#HTMLソース
html = response.read().decode("shift_jis")

#文章の抽出
soup = BeautifulSoup(html, "html.parser")

#class_="main_text"の部分を取得し、不要な空白文字を削除
text_melos = soup.find("div", class_="main_text").text.replace("\r", "").replace("\u3000", "")

後日、本内容を利用した記事を投稿予定。

この記事を書いた人

サークル「データのうみかぜ」代表。趣味でRTAや旅行の動画を公開しています。

目次