当前位置:首页php爬虫:百级别知乎用户数据爬取与分析 举报文章

php爬虫:百级别知乎用户数据爬取与分析

作者:admin    来源:用户投稿    时间:2015.10.3   

  代码托管地址:https://github.com/hhqcontinue/zhihuSpider

  文/Hector

  这次抓取了110的用户数据,数据分析结果如下:

  

PHP爬虫 数据抓取 数据分析 爬虫抓取数据

  开发前的准备

  安装linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu;

  安装PHP5.6或以上版本;

  安装curl、pcntl扩展。

  使用PHP的curl扩展抓取页面数据

  PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

  本程序是抓取知乎的用户数据,要能访问用户个人页面,需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候,之所以能够看到用户的信息,是因为在点击链接的时候,浏览器帮你将本地的cookie带上一齐提交到新的页面,所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息,然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面,我是用了自己的cookie,在页面中可以看到自己的cookie信息:

  

PHP爬虫 数据抓取 数据分析 爬虫抓取数据

  一个个地复制,以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

  初始的示例:

    $url = 'http://www.zhihu.com/people/mora-hu/about'; 
    //此处mora-hu代表用户ID    $ch = curl_init($url); 
    //初始化会话    curl_setopt($ch, CURLOPT_HEADER, 0);    
    curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  
    //设置请求COOKIE    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);    
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
     //将curl_exec()获取的信息以文件流的形式返回,而不是直接出。    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);     
     $result = curl_exec($ch);    
    return $result;  //抓取的结果
好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百万  级别  用户  用户数  户数  数据  分析  
  • 相关搜索
图片推荐
    不懂代码也能建炫酷网站 微企点H5建站杀出重围

    不懂代码也能建炫酷网站 微企点H5建站杀出重围

    中国互联网经过十余年的发展,深刻地影响了国家的政治、经济、社会各个方面。特别是近几年来,互联网在经济社会运行、改革和商业模式创新等方面发挥了巨大作用,成为经济增长的驱动力。我国广大的中小微企业是经济和
    您应该没见过这么好用的外卖订餐系统!

    您应该没见过这么好用的外卖订餐系统!

    江湖外卖O2O系统是一套本地跑腿订餐配送系统,基于原生APP开发,多年来一直致力于为中小实体商家和O2O创业者提供多元化的O2O解决方案,帮助实体商家实现互联网+的转型升级。通过LBS定位,推荐附近商
    XY苹果助手:iOS9开启全民公测模式 系统BUG频出

    XY苹果助手:iOS9开启全民公测模式 系统BUG频出

    就在iOS9 Beta2正式推送两周后,苹果继续向外发布了新的iOS9 Beta3测试系统,版本号为13A4293g。这次测试系统的推送方式,与以往有所不同,苹果并不止是在注册成功的开发者们范围内适用
    不以营销为目的的内容都是耍流氓

    不以营销为目的的内容都是耍流氓

    很多人都知道内容的重要性,都会跟着喊内容为王这种很有道理的口号,但是很多人都没有搞清楚内容存在的价值到底是什么。或者已经知道内容要干什么了,比如以下就是最典型的认识:  内容就是为了取悦观众,让人目瞪
    太厉害  IBM的人工智能“沃森”玩起内容营销来了

    太厉害 IBM的人工智能“沃森”玩起内容营销来了

    2011年2月17日,IBM的人工智能系统沃森作为选手参加了美国最受欢迎的智力竞猜电视节目《危险边缘》,并连续击败了该节目历史上最为成功的两位选手肯詹宁斯和布拉德鲁特,成为了《危险边缘》节目新的冠军。
    新手微商怎么找客源微商代理怎么做?

    新手微商怎么找客源微商代理怎么做?

    新手做微商,最发愁的就是找客源。很多新手在网上抱怨自己几个月都不出单子,也找不到客户,所以觉得微商是骗子。那么,真的是骗人的吗?当然不,君不见很多做微商的人都已经是大赚特赚,为什么他们行你不行?就因为
    外卖O2O火起来了:但仅靠支付 撑不起一根完整的商业链

    外卖O2O火起来了:但仅靠支付 撑不起一根完整的商业链

    这几天,广州像是罩在了巨大的电吹风之下,连续高温不退,热得人心烦,吃午餐时,大家都懒得外出去晒那不值钱的太阳光,开始在网上叫外卖。叫的次数多了,就对年内突然火爆起来的外卖O2O,引发了一些思考。   
    豆瓣广告看不懂?因为它故意用“敌意品牌”营销策略

    豆瓣广告看不懂?因为它故意用“敌意品牌”营销策略

    这几天,社交媒体热议如何评价豆瓣貌似11年来第一支品牌广告;现在,让我们先忽略这个逗你玩儿的标题,也暂且放下看懂没看懂的纠结,并不去讨论我是否喜欢的主观态度,仅从营销角度来分析一下豆瓣这支广告背后的策
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面