IT基地-Python学习记录--利用Urllib、BeautifulSoup实现简单抓取百度百科

首页 > Python > 正文

李蓝猫

2021-07-11

评论者

Python

14 0

Urllib基本简介

在Python中urllib提供了一系列用于操作URL的功能，也是内置方法

可以进行通用的GET、POST请求以及添加Header头等类似PHP curl的操作

Beautiful Soup基本简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库

安装操作  pip install beautifulsoup4

具体方法移步 beautifulsoup文档

我的样例提供的只是个基础的抓取百度百科一个页面获得其中的关键字名字和Url

# -*- coding: utf-8 -*-
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
 
htmls = urlopen(
'https://baike.baidu.com/item/%E7%BE%8E%E6%9C%9D%E9%A6%96%E8%84%91%E4%BC%9A%E6%99%A4/22564671').read().decode('UTF-8')
soup = BeautifulSoup(htmls, 'html.parser')
listUrls = soup.find_all('a', href=re.compile("/item/"))
for url in listUrls:
if url.get_text() != '本人编辑':
print(url.get_text(), "https://baike.baidu.com" + url['href'])

输出

美国 https://baike.baidu.com/item/%E7%BE%8E%E5%9B%BD/125486
朝鲜 https://baike.baidu.com/item/%E6%9C%9D%E9%B2%9C/191777
金正恩 https://baike.baidu.com/item/%E9%87%91%E6%AD%A3%E6%81%A9/26
黄永宏 https://baike.baidu.com/item/%E9%BB%84%E6%B0%B8%E5%AE%8F/48472
新加坡 https://baike.baidu.com/item/%E6%96%B0%E5%8A%A0%E5%9D%A1
板门店宣言 https://baike.baidu.com/item/%E6%9D%BF%E9%97%A8%E5%BA%97%E5%AE%A3%E8%A8%80/22545351

311 0

311

IT基地

李蓝猫

精彩推荐

暂无评论

文明用语取消回复

李蓝猫

精彩推荐

暂无评论

文明用语 取消回复

文明用语取消回复