当前位置:首页php爬虫:百级别知乎用户数据爬取与分析 举报文章

php爬虫:百级别知乎用户数据爬取与分析

作者:admin    来源:用户投稿    时间:2015.10.3   

  代码托管地址:https://github.com/hhqcontinue/zhihuSpider

  文/Hector

  这次抓取了110的用户数据,数据分析结果如下:

  

PHP爬虫 数据抓取 数据分析 爬虫抓取数据

  开发前的准备

  安装linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu;

  安装PHP5.6或以上版本;

  安装curl、pcntl扩展。

  使用PHP的curl扩展抓取页面数据

  PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

  本程序是抓取知乎的用户数据,要能访问用户个人页面,需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候,之所以能够看到用户的信息,是因为在点击链接的时候,浏览器帮你将本地的cookie带上一齐提交到新的页面,所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息,然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面,我是用了自己的cookie,在页面中可以看到自己的cookie信息:

  

PHP爬虫 数据抓取 数据分析 爬虫抓取数据

  一个个地复制,以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

  初始的示例:

    $url = 'http://www.zhihu.com/people/mora-hu/about'; 
    //此处mora-hu代表用户ID    $ch = curl_init($url); 
    //初始化会话    curl_setopt($ch, CURLOPT_HEADER, 0);    
    curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  
    //设置请求COOKIE    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);    
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
     //将curl_exec()获取的信息以文件流的形式返回,而不是直接出。    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);     
     $result = curl_exec($ch);    
    return $result;  //抓取的结果
好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百万  级别  用户  用户数  户数  数据  分析  
  • 相关搜索
图片推荐
    网红将催生新商业模式 更受广告和电商倚重

    网红将催生新商业模式 更受广告和电商倚重

    [摘要]现在,通过直播APP人人都可以实现网络直播,成为网红也越来越容易。  网红,就是网络红人的简称。网红不仅仅是当下最热词汇,它还是一个时代。在这个时代里,有网红模式的风雨变迁,有网红经济和网红生
    企业“互联网+”转型,你还需要一个解决方案

    企业“互联网+”转型,你还需要一个解决方案

    星巴克紧随互联网的脚步,通过互联网转型,现在每周通过手机支付的订单超过100万笔。  时至今日已经很难找到一家不提供手机应用或缺少社交媒体战略的大型企业。海尔掌门人张瑞敏也曾表示,传统企业要么触网,要
    Google欲借助腾讯代理运营谷歌云

    Google欲借助腾讯代理运营谷歌云

    谷歌没打算在中国直接推出自己的云服务谷歌云,而是秘密计划让腾讯成为谷歌云在中国的代理试图撬开中国云市场,如果项目敲定并且顺利,谷-腾组合会出现双赢局面,外界也会解读阿里云真正遇到了竞争对手。谷歌云意图
    从知乎的软文争端到社交网络的内容建设

    从知乎的软文争端到社交网络的内容建设

    文/ Superwyh  我知乎有三个帐号,一个是实名帐号,用的繁体的「王亞暉」;二个是出于对知乎匿名系统的不信任,专门回答匿名问题的帐号,偶尔也实名回答一些感情问题;三个是我专门回答技术问题的小号,
    关键词的排斥和吸引研究

    关键词的排斥和吸引研究

    当我们的多个关键词出现在标题中的时候,当用户在搜索一个关键词的时候,另外的关键词可能和这个关键词形成很好的匹配,但时也有可能这几个关键词之间会形成排斥,比如地域性的问题、相关性差的关键词以及重复性的关
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面