使用scrapy框架抓取知乎用户信息
首先先改一下设置文件setting.py中的信息
1、将ROBOTSTXT_OBEY = False
这里改为False,默认是True
2、修改请求头
DEFAULT_REQUEST_HEADERS = {
‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8’,
‘Accept-Language’: ‘en’,
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36’
}
zhihu.py
1 | # -*- coding: utf-8 -*- |
pipelines.py
1 | # -*- coding: utf-8 -*- |