风哥教程

培训 . 交流 . 分享
Make progress together!

携程评论数据很简单

[复制链接]
内容发布:suger| 发布时间:2021-9-3 16:35:48
这几天小编在技术交流群里看到有小伙伴反应说b不会爬取携程的评论数据,那么今天小编就小伙伴安排上,作为一个爱分享技术的爬虫爱好者,今天必须教会大家如何爬取携程评论数据。
首先我们以长隆野生动物时间为例,重点讲解下如何去爬取评论数据。我们先分析下数据源,这里的数据源指的是html网页,作为爬虫初学者怎么判断呢?我们先在浏览器里面搜索携程,然后在网页里面搜索景点:长隆野生动物世界,我们通过分析数据包,查看里面的数据,可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。ok,没问题之后,下面开始编写Python程序去请求数据。
提示以下操作需要需要登录,所以在爬取过程中需要加入代理,本文代理来源于:https://www.16yun.cn/。代码构建如下:
[AppleScript] syntaxhighlighter_viewsource syntaxhighlighter_copycode
// 要访问的目标页面
string targetUrl = "https://you.ctrip.com/sight/changlongyeshengdongwushijie2020086/6802.html";


// 代理服务器(产品官网 www.16yun.cn)
string proxyHost = "http://t.16yun.cn";
string proxyPort = "31111";

// 代理验证信息
string proxyUser = "username";
string proxyPass = "password";

// 设置代理服务器
WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);


ServicePointManager.Expect100Continue = false;

var request = WebRequest.Create(targetUrl) as HttpWebRequest;

request.AllowAutoRedirect = true;
request.KeepAlive = true;
request.Method    = "GET";
request.Proxy     = proxy;

//request.Proxy.Credentials = CredentialCache.DefaultCredentials;

request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);

// 设置Proxy Tunnel
// Random ran=new Random();
// int tunnel =ran.Next(1,10000);
// request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));


//request.Timeout = 20000;
//request.ServicePoint.ConnectionLimit = 512;
//request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36";
//request.Headers.Add("Cache-Control", "max-age=0");
//request.Headers.Add("DNT", "1");


//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass));
//request.Headers.Add("Proxy-Authorization", "Basic " + encoded);

using (var response = request.GetResponse() as HttpWebResponse)
using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8))
{
    string htmlStr = sr.ReadToEnd();
通过以上的爬虫示例就可以把评论数据爬下来了,有兴趣的小伙伴可以实践下呀。




回复

使用道具 举报

1框架
高级模式
B Color Image Link Quote Code Smilies |上传

本版积分规则

热门文章教程

  • 风哥Oracle数据库巡检工具V1.0(附2.6网页
  • Oracle 12cR2 九大新功能全面曝光_详解云数
  • 实战PHP与MySQL权威指南PDF电子书下载
  • 大数据技术与应用入门培训教程(电子版下载
  • Oracle OCP认证考试IZ0-053题库共712题数据
  • MySQL5权威指南(第3版)PDF电子版下载
快速回复 返回顶部 返回列表