MoonsSoft
热门作品
  • 2018京东商品评价
    京东评价采集器操作简单,
  • 2018拼多多评价采
    拼多多评价采集器,主要操
  • 2018图片批量切片
    图片分割器上线,主要功能
  • 拼多多(升级版)批量
    拼多多批量图片采集下载器
  • 2018搜索引擎百度
    当前软件为百度图片采集器
  • 联系我们
  • 微信:577122380
  • QQ:577122380
  • 邮箱:shanyecf@126.com
  • python采集网页html源码
    ✐ 2018-12-14  ❤ 614

    最正式的做法是仿照http的过程,在用爬虫获取网页的时候,加入头部,伪装成浏览器。 Http 其实就是 请求/响应模式,永远都是 客户端向服务端发送请求,然后服务端再返回响应。

     有一个问题就是 头部改怎么加?可以打开你的浏览器,按F12,(我用的是谷歌浏览器:查找name标签后复制其headers)

    import urllib.request
     
    url = r'http://douban.com'
    headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
    req = urllib.request.Request(url=url,headers=headers)
    res = urllib.request.urlopen(req)
    html = res.read().decode('utf-8')
    print(html)


    我要留言

    评论(0)

    后面还有条评论,点击查看>>
    友情链接: 联系我们
    联系我们:QQ / 微信:577122380 (点我QQ回话)
    Copyright © mos360.cn By Moons Soft Studio
    
    咨询反馈
    扫码关注

    微信公众号

    返回顶部