风哥教程

培训 . 交流 . 分享
Make progress together!

海量新闻数据采集

[复制链接]
内容发布:suger| 发布时间:2021-6-9 16:27:47
前一段时间,因公司需求需要爬取大量的新闻网站,预计有上千个网站,做过爬虫的小伙伴们都知道数据需求量大意味着工作量也很大。最主要是的很多大的网站都是反爬很严的啊,特别是封ip。想到每次需求量大,找ip都是令人头大的事。
虽然公司需求量大,但是我们作为技术怎么能被难倒呢?封ip不存在的,一家靠谱的代理商就搞定啦!对于这种大需求的数据,我们是不想浪费时间和ip进行斗争的,所以我们选择了一种新的代理模式——动态转发。今天我们就分享下这种使用方式,需求的小伙伴赶快行动起来吧。
完整代码示例
#! -*- encoding:utf-8 -*-    import requests    import random    # 要访问的目标页面    targetUrl = "https://www.weibo.com/"    # 要访问的目标HTTPS页面    # targetUrl = "https://www.weibo.com/"    # 代理服务器(产品官网 www.16yun.cn)    proxyHost = "t.16yun.cn"    proxyPort = "31111"    # 代理验证信息    proxyUser = "16HIVUPQ"    proxyPass = "720646"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {        "host" : proxyHost,        "port" : proxyPort,        "user" : proxyUser,        "pass" : proxyPass,    }    # 设置 http和https访问都是用HTTP代理    proxies = {        "http"  : proxyMeta,        "https" : proxyMeta,    }    #  设置IP切换头    tunnel = random.randint(1,10000)    headers = {"Proxy-Tunnel": str(tunnel)}    resp = requests.get(targetUrl, proxies=proxies, headers=headers)    print resp.status_code    print resp.textProxy-Tunnel保持IP不变Keep-Alive保持IP不变urllib2scrapy


实践是检验真理的唯一标准,所以小伙伴们不要记住就可以了,需要实践哦。




上一篇:你怎么看“开放三胎政策”
下一篇:8K@60HZ/4K@120HZ超高带宽输出性能稳定
回复

使用道具 举报

1框架
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门文章教程

  • 实战PHP与MySQL权威指南PDF电子书下载
  • 大数据技术与应用入门培训教程(电子版下载
  • Oracle 12cR2 九大新功能全面曝光_详解云数
  • Oracle OCP认证考试IZ0-053题库共712题数据
  • MySQL5权威指南(第3版)PDF电子版下载
  • 风哥Oracle数据库巡检工具V1.0(附2.6网页
快速回复 返回顶部 返回列表