欢迎您光临本站
首页 > Python > 正文
李蓝猫头像
李蓝猫

2021-07-11

评论者
Python
14 0

Urllib基本简介

在Python中urllib提供了一系列用于操作URL的功能,也是内置方法

可以进行通用的GET、POST请求以及添加Header头 等 类似PHP curl的操作


Beautiful Soup基本简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库

安装操作  pip install beautifulsoup4

具体方法移步 beautifulsoup文档


我的样例提供的只是个基础的抓取百度百科一个页面获得其中的关键字名字和Url

# -*- coding: utf-8 -*-
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
 
htmls = urlopen(
'https://baike.baidu.com/item/%E7%BE%8E%E6%9C%9D%E9%A6%96%E8%84%91%E4%BC%9A%E6%99%A4/22564671').read().decode('UTF-8')
soup = BeautifulSoup(htmls, 'html.parser')
listUrls = soup.find_all('a', href=re.compile("/item/"))
for url in listUrls:
if url.get_text() != '本人编辑':
print(url.get_text(), "https://baike.baidu.com" + url['href'])

输出

美国 https://baike.baidu.com/item/%E7%BE%8E%E5%9B%BD/125486
朝鲜 https://baike.baidu.com/item/%E6%9C%9D%E9%B2%9C/191777
金正恩 https://baike.baidu.com/item/%E9%87%91%E6%AD%A3%E6%81%A9/26
黄永宏 https://baike.baidu.com/item/%E9%BB%84%E6%B0%B8%E5%AE%8F/48472
新加坡 https://baike.baidu.com/item/%E6%96%B0%E5%8A%A0%E5%9D%A1
板门店宣言 https://baike.baidu.com/item/%E6%9D%BF%E9%97%A8%E5%BA%97%E5%AE%A3%E8%A8%80/22545351


版权声明:本站所提供的文章、图片等内容均为用户发布或互联网整理而来,仅供学习参考,如有侵犯您的版权,请联系我们客服人员删除。

311

精彩推荐

暂无评论

文明用语