当前位置:首页php爬虫:百级别知乎用户数据爬取与分析 举报文章

php爬虫:百级别知乎用户数据爬取与分析

作者:admin    来源:用户投稿    时间:2015.10.3   

  代码托管地址:https://github.com/hhqcontinue/zhihuSpider

  文/Hector

  这次抓取了110的用户数据,数据分析结果如下:

  

PHP爬虫 数据抓取 数据分析 爬虫抓取数据

  开发前的准备

  安装linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu;

  安装PHP5.6或以上版本;

  安装curl、pcntl扩展。

  使用PHP的curl扩展抓取页面数据

  PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

  本程序是抓取知乎的用户数据,要能访问用户个人页面,需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候,之所以能够看到用户的信息,是因为在点击链接的时候,浏览器帮你将本地的cookie带上一齐提交到新的页面,所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息,然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面,我是用了自己的cookie,在页面中可以看到自己的cookie信息:

  

PHP爬虫 数据抓取 数据分析 爬虫抓取数据

  一个个地复制,以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

  初始的示例:

    $url = 'http://www.zhihu.com/people/mora-hu/about'; 
    //此处mora-hu代表用户ID    $ch = curl_init($url); 
    //初始化会话    curl_setopt($ch, CURLOPT_HEADER, 0);    
    curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  
    //设置请求COOKIE    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);    
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
     //将curl_exec()获取的信息以文件流的形式返回,而不是直接出。    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);     
     $result = curl_exec($ch);    
    return $result;  //抓取的结果
好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百万  级别  用户  用户数  户数  数据  分析  
  • 相关搜索
图片推荐
    全球手机出货量排行榜上,华为反超了小米

    全球手机出货量排行榜上,华为反超了小米

    华为会成为下一个三星吗?  到 2018 年,华为有望在国内市场营收上超越苹果。  7 月 22 日,在发布了消费者业务上半年业绩报告后,CEO 余承东这样说。这半年,华为智能手机出货量达到了 482
    搜索引擎优化如何做好内链和外链?

    搜索引擎优化如何做好内链和外链?

    一、超链接分析是当今搜索引擎的主要算法  当今的搜索引擎算法非常复杂,包括百度和谷歌都有很多规则,这么多规则当中基本上都是依托于超链接分析技术,整个互联网的页面都是通过超链接链接到一起的,所以超链接是
    揭露体验站源码月赚万元的夸大宣传害了谁

    揭露体验站源码月赚万元的夸大宣传害了谁

    百万盟,相信很多做网赚的站长都比较熟悉,淘金站旗下的一个体验站。相信每一个网赚站长或者普通读者,看到firm网站上的建站业务,都心动了。现在主推的两个网站,任务小站(懒人专用框架任务站)建站2000元
    跨境遇上移动:BellaBuy如何另辟蹊径?

    跨境遇上移动:BellaBuy如何另辟蹊径?

    【编者按】站在移动+跨境的风口上,来自硅谷的玩家Wish在过去一年可谓是赚足了眼球,它的快速增长也在一定程度上反应了商家和消费者对移动跨境电商平台的渴望。而当一个行业出现新机遇时,玩家绝对不会仅有一个
    百度之夜后百度关注用户投票新动作

    百度之夜后百度关注用户投票新动作

    前几天刚刚在上海的搜索大会听到百度lee讲的内容,我前天还特意分享了我的一些心得和看法,昨天看到卢松松的博客也发表了百度的投稿,在文章中有重申了百度的两个观点:  网页搜索的未来:基于深度数据挖掘机用
    傻瓜式过万流量精品软文写作法(一)

    傻瓜式过万流量精品软文写作法(一)

    在硬广告过度泛滥的互联网时代,想要降低成本,提高转化,软文是必不可少的工具,那么,如何才可以写出精品软文?  分享以下五个步骤,当做软文模板填充内容即可!  一、诱因  对于无欲无求的人,任何营销都是
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面