当前位置:首页php爬虫:百级别知乎用户数据爬取与分析 举报文章

php爬虫:百级别知乎用户数据爬取与分析

作者:admin    来源:用户投稿    时间:2015.10.3   

  代码托管地址:https://github.com/hhqcontinue/zhihuSpider

  文/Hector

  这次抓取了110的用户数据,数据分析结果如下:

  

PHP爬虫 数据抓取 数据分析 爬虫抓取数据

  开发前的准备

  安装linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu;

  安装PHP5.6或以上版本;

  安装curl、pcntl扩展。

  使用PHP的curl扩展抓取页面数据

  PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

  本程序是抓取知乎的用户数据,要能访问用户个人页面,需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候,之所以能够看到用户的信息,是因为在点击链接的时候,浏览器帮你将本地的cookie带上一齐提交到新的页面,所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息,然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面,我是用了自己的cookie,在页面中可以看到自己的cookie信息:

  

PHP爬虫 数据抓取 数据分析 爬虫抓取数据

  一个个地复制,以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

  初始的示例:

    $url = 'http://www.zhihu.com/people/mora-hu/about'; 
    //此处mora-hu代表用户ID    $ch = curl_init($url); 
    //初始化会话    curl_setopt($ch, CURLOPT_HEADER, 0);    
    curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  
    //设置请求COOKIE    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);    
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
     //将curl_exec()获取的信息以文件流的形式返回,而不是直接出。    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);     
     $result = curl_exec($ch);    
    return $result;  //抓取的结果
好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百万  级别  用户  用户数  户数  数据  分析  
  • 相关搜索
图片推荐
    一起探讨网站内页怎么优化的SEO精髓

    一起探讨网站内页怎么优化的SEO精髓

    今天来聊聊网站内页怎么优化的经验,首先我们要知道,自己的网站是一个什么类型的网站。只要你是想通过网站seo优化来得到流量,那么就必须让每一个页面都具备排名的资格。我认为,一般来说网站的主要流量入口不是
    利用建站宝盒快速搭建一个三站合一的企业网站

    利用建站宝盒快速搭建一个三站合一的企业网站

    随着互联网的不断进步,人们生活方式和工作方式也在发生着快速变化,逐渐朝着网络化、快速 化、全面化发展。总所周知,中国互联网数量已经远超六亿,手机网民也已达到五亿人的规模,而仅手机微信注册用户就有十亿之
    我是这样看搜狗搜索与知乎合作的

    我是这样看搜狗搜索与知乎合作的

    几日前,卢松松有幸参加了搜狗搜索的产品发布会,邀请函介绍说是有一个神秘产品,心里非常期待,到了会场后才发现原来是:搜狗搜索与知乎合作,全面接入了知乎内容数据。  腾讯投资知乎,还撮合搜狗知乎合作,因为
    支付宝关闭双功能收款 商户收款方式归一

    支付宝关闭双功能收款 商户收款方式归一

    【亿邦动力网讯】1月23日消息,据亿邦动力网了解,支付宝已于日前发布中小商户双功能收款产品前台下线公告,商户以后只能申请单一接口收款。    支付宝双功能收款产品已被下线  公告显示,由于支付宝公司策
    BuzzFeed创始人:社交网络情商打败智商

    BuzzFeed创始人:社交网络情商打败智商

    [导读]在Facebook和整个社交分享世界里,有心远比有脑子更重要。    BuzzFeed创始人乔纳-佩雷蒂(腾讯科技配图)  腾讯科技讯(迭影)北京时间4月30日消息,据国外媒体报道,美国新闻聚
    大数据分析告诉你,什么样的文章能获得疯转

    大数据分析告诉你,什么样的文章能获得疯转

    社交媒体追踪服务分析工具BuzzSumo,2014年5月前后对社交媒体上超过1亿篇文章进行了分析,试图找出一个答案:  什么样的内容才能让用户乐于分享,获得病毒式传播?  这个大问题又内含或细分为一些
    SEO如何应对百度最新排名算法

    SEO如何应对百度最新排名算法

    每一篇文章都是一把钥匙,引导你打开知识的宝库,在这个宝库里面可能有很多的东西,可能有黄金遍地,可能有美女如云,或者帅哥如云。可能有你看到的室外桃园,不管你看到的东西是什么,半亩良田唯一的目的,就是要教
    利用热点事件营销引流上万

    利用热点事件营销引流上万

    8月份优衣库的事件很多人说是炒作,可是官方不承认这是炒作,但实际上很多商家却利用优衣库的事件火了一把,比如下面的这件衣服。    能够利用事件营销把一件又黄有暴力的衣服销售达到1000多件,算是一个非
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面