[原创][python]知网统计年鉴爬虫--爬取中国城市统计年鉴为例

这里只有作者精心编写的学习经历!
Carol
帖子: 1
注册时间: 2020年7月16日, 14:21

#11 Re: [原创][python]知网统计年鉴爬虫--爬取中国城市统计年鉴为例

未读文章 Carol » 2020年7月16日, 14:23

cumtzzy 写了:
2019年12月14日, 13:44
gzl1996 写了:
2019年9月26日, 22:15
应该是cookies受限了,添加一下cookies和agent到headers里即可~
请问具体怎么添加呢?
我像下面这样添加的,但是下载下来的还是11k的登录页。我的环境是校园网,可以ip登录的。
谢谢!

Code: 全选

 headers = {
'Content-Type': 'application/x-www-form-urlencoded',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/79.0.3945.79 Safari/537.36',
'Cookie': 'Ecp_notFirstLogin=XReBcB; Ecp_ClientId=5181125135201245198; '
'ASP.NET_SessionId=badtpj4qupoja3ehuojr3pxk; SID_kns=123121; SID_klogin=125141; SID_crrs=125131; '
'SID_krsnew=125134; cnkiUserKey=e0756d86-2851-9cf7-03df-5b4505a1d6aa; SID_kcms=124105; '
'SID_knsdelivery=125123; SID_knsvote=125121; SID_kinfo=125105; SID_kxreader_new=011123; '
'SID_kns_kdoc=015011121; SID_kvisual=125105; IsLogin=; Ecp_session=1; '
'UM_distinctid=16de3348183475-0e9d4d31b43c89-b363e65-1fa400-16de3348184684; RsPerPage=50; '
'SID_kns_new=123106; Hm_lvt_6e967eb120601ea41b9d312166416aa6=1571826370,1573715575; '
'Hm_lpvt_6e967eb120601ea41b9d312166416aa6=1573715575; SID_kredis=125141; '
'KNS_SortType=SCDB%21%28%25e8%25a2%25ab%25e5%25bc%2595%25e9%25a2%2591%25e6%25ac%25a1%252c'
'%2527INTEGER%2527%29+desc; DisplaySave=5; '
'_pk_ref=%5B%22%22%2C%22%22%2C1576238960%2C%22https%3A%2F%2Fwww.cnki.net%2F%22%5D; _pk_ses=*; '
'LID=WEEvREcwSlJHSldRa1FhcEE0QVN2K0s4bmJXK2l0VmFDSEVnRmxxWDVDYz0'
'=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!; Ecp_LoginStuts={"IsAutoLogin":true,'
'"UserName":"sh0292","ShowName":"%E4%B8%AD%E5%9B%BD%E7%9F%BF%E4%B8%9A%E5%A4%A7%E5%AD%A6%E5%9B%BE%E4'
'%B9%A6%E9%A6%86","UserType":"bk","BUserName":"","BShowName":"","BUserType":"","r":"XReBcB"}; '
'c_m_LinID=LinID=WEEvREcwSlJHSldRa1FhcEE0QVN2K0s4bmJXK2l0VmFDSEVnRmxxWDVDYz0'
'=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=12/13/2019 20:51:50; '
'c_m_expire=2019-12-13 20:51:50',
}
请问你的问题解决了吗?我也遇到了类似的问题,爬下来的excel页面打开是登录页。
 

Link:
Hide post links
Show post links

gs_ywj
帖子: 1
注册时间: 2020年7月17日, 19:11

#12 Re: [原创][python]知网统计年鉴爬虫--爬取中国城市统计年鉴为例

未读文章 gs_ywj » 2020年7月17日, 19:18

gzl1996 写了:
2019年9月26日, 21:35
感谢您的回复,我现在可以运行了,是因为我自己少安装了一个依赖包。现在下载的文件文件名和扩展名都正常,但缺少内容,都是一个11KB的知网登陆界面,我确定我学校是购买了年鉴库的,在网页上也可以下载。您知道如何解决这种情
您好,请问这个代码你能运行吗?修改什么设置了吗?我怎么运行不了,各种安装包都有,依然运行出错,不知道啥原因呢?

Link:
Hide post links
Show post links


回复