Python 爬虫示例:豆瓣电影 Top250
代码实现:
python
import requestsfrom bs4 import BeautifulSoup
def crawl_douban_movies():
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36'
}
movies = []
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
for item in soup.select('.item'):
title = item.select('.title')[0].text
rating = item.select('.rating_num')[0].text
movies.append({'title': title, 'rating': rating})
return movies
#
运行示例
movies = crawl_douban_movies()print(movies[:3])
详细说明:
1.
导入库:首先,我们需要导入 requests 库来发送 HTTP 请求,以及 BeautifulSoup 库
来解析 HTML 文档。
2.
3.
定义爬取函数:crawl_douban_movies 函数用于爬取豆瓣电影 Top250 的信息。它首
先定义了目标 URL 和请求头,请求头中的 User-Agent 用于模拟浏览器访问,以避免
被网站反爬虫机制拦截。
4.
5.
发送请求:使用
requests.get
方法发送
GET
请求到豆瓣电影
Top250
的页面,并传入
headers
参数。