环境搭建
google chrome
编辑器(sublime、pyCharm、atom)
爬虫三步走
第一步:使用requests获得数据:
- 导入requests
- 使用requests.get获取网页源码
1 | import requests |
第二步:使用BeautifulSoup4解析数据:
- 导入bs4
- 解析网页数据
- 寻找数据
- for循环打印
1 | from bs4 import BeautifulSoup |
第三步:使用pandas保存数据:
- 导入pandas
- 新建list对象
- 使用to_csv写入
1 | import pandas |
import urllib.request
#导入urllib.request
f = urllib.request.urlopen(‘http://www.baidu.com/')
#打开网址,返回一个类文件对象
f.read(500)
#打印前500字符
f.read(500).decode(‘utf-8’)
#打印前500字符并修改编码为utf-81
2
3
4
5
6
Requests包:由于requests是python的第三方库,阅读[快速上手requests](http://docs.python-requests.org/zh_CN/latest/user/quickstart.html)
#### 使用Requests库获取百度首页信息:
import requests #导入requests库
r = requests.get(‘https://www.baidu.com/')
#使用requests.get方法获取网页信息
r
r.text #打印结果
r.encoding=’utf-8’ #修改编码
r.text #打印结果`