Urllib基本简介
在Python中urllib提供了一系列用于操作URL的功能,也是内置方法
可以进行通用的GET、POST请求以及添加Header头 等 类似PHP curl的操作
Beautiful Soup基本简介
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库
安装操作 pip install beautifulsoup4
具体方法移步 beautifulsoup文档
我的样例提供的只是个基础的抓取百度百科一个页面获得其中的关键字名字和Url
# -*- coding: utf-8 -*- from urllib.request import urlopen from bs4 import BeautifulSoup import re htmls = urlopen( 'https://baike.baidu.com/item/%E7%BE%8E%E6%9C%9D%E9%A6%96%E8%84%91%E4%BC%9A%E6%99%A4/22564671').read().decode('UTF-8') soup = BeautifulSoup(htmls, 'html.parser') listUrls = soup.find_all('a', href=re.compile("/item/")) for url in listUrls: if url.get_text() != '本人编辑': print(url.get_text(), "https://baike.baidu.com" + url['href'])
输出
美国 https://baike.baidu.com/item/%E7%BE%8E%E5%9B%BD/125486 朝鲜 https://baike.baidu.com/item/%E6%9C%9D%E9%B2%9C/191777 金正恩 https://baike.baidu.com/item/%E9%87%91%E6%AD%A3%E6%81%A9/26 黄永宏 https://baike.baidu.com/item/%E9%BB%84%E6%B0%B8%E5%AE%8F/48472 新加坡 https://baike.baidu.com/item/%E6%96%B0%E5%8A%A0%E5%9D%A1 板门店宣言 https://baike.baidu.com/item/%E6%9D%BF%E9%97%A8%E5%BA%97%E5%AE%A3%E8%A8%80/22545351
版权声明:本站所提供的文章、图片等内容均为用户发布或互联网整理而来,仅供学习参考,如有侵犯您的版权,请联系我们客服人员删除。