风哥教程

培训 . 交流 . 分享
Make progress together!

爬虫学习之人口数据的采集

[复制链接]
内容发布:suger| 发布时间:2021-5-14 16:17:17
最近,备受瞩目的第七次人口普查数据公布了,数据显示全国总人口141178万人,与2010年相比,增加了7206万人,增长5.38%,从数据中可以看出中国人口占世界人口的18%,我们仍然是世界第一人口大国。从普查数据中还可以看出人口结构稳定,但也出现了结构性的问题,年龄结构两升一降,老龄化依然是比较突出的数据。我们都知道老龄化是一个全球性问题。人口老龄化的趋势大体上是不可倒转的,因此对于我们国家来说这是一个比较大且长期的基本国情。
关于我们国家历年的人口数据来源,我们可以从“国家统计局”网站中获取。这是一个由国家统计局提供的网站,里面有很多国家公开的数据信息。今天我们学习下使用python进行历年人口数据的分析。我们主要是这三方面进行数据的采集,总人口、增长率、人口结构。不过像采集这样的网站数据必须要挂上代理,这里我们使用的是亿牛云爬虫代理动态转发模式的,史上最简单方便的代理模式。
完整代码如下:
#! -*- encoding:utf-8 -*-    import requests    import random    # 要访问的目标页面    targetUrl = "www.stats.gov.cn"    # 要访问的目标HTTPS页面    # targetUrl = "https://www.stats.gov.cn"    # 代理服务器(产品官网 www.16yun.cn)    proxyHost = "t.16yun.cn"    proxyPort = "31111"    # 代理验证信息    proxyUser = "username"    proxyPass = "password"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {        "host" : proxyHost,        "port" : proxyPort,        "user" : proxyUser,        "pass" : proxyPass,    }    # 设置 http和https访问都是用HTTP代理    proxies = {        "http"  : proxyMeta,        "https" : proxyMeta,    }    #  设置IP切换头    tunnel = random.randint(1,10000)    headers = {"Proxy-Tunnel": str(tunnel)}    resp = requests.get(targetUrl, proxies=proxies, headers=headers)    print resp.status_code    print resp.text






上一篇:作为爬虫工作者你会选代理吗?
下一篇:Scrapy爬虫之美团
回复

使用道具 举报

1框架
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门文章教程

  • 实战PHP与MySQL权威指南PDF电子书下载
  • 大数据技术与应用入门培训教程(电子版下载
  • Oracle 12cR2 九大新功能全面曝光_详解云数
  • Oracle OCP认证考试IZ0-053题库共712题数据
  • MySQL5权威指南(第3版)PDF电子版下载
  • 风哥Oracle数据库巡检工具V1.0(附2.6网页
快速回复 返回顶部 返回列表