当前位置：首页→php爬虫：百级别知乎用户数据爬取与分析举报文章

php爬虫：百级别知乎用户数据爬取与分析

作者：admin 来源：用户投稿时间：2015.10.3

　　代码托管地址：https://github.com/hhqcontinue/zhihuSpider

　　文/Hector

　　这次抓取了110的用户数据，数据分析结果如下：

　　开发前的准备

　　安装linux系统(Ubuntu14.04)，在VMWare虚拟机下安装一个Ubuntu;

　　安装PHP5.6或以上版本;

　　安装curl、pcntl扩展。

　　使用PHP的curl扩展抓取页面数据

　　PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

　　本程序是抓取知乎的用户数据，要能访问用户个人页面，需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候，之所以能够看到用户的信息，是因为在点击链接的时候，浏览器帮你将本地的cookie带上一齐提交到新的页面，所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息，然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面，我是用了自己的cookie，在页面中可以看到自己的cookie信息：

　　一个个地复制，以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

　　初始的示例：

    $url = 'http://www.zhihu.com/people/mora-hu/about'; 
    //此处mora-hu代表用户ID    $ch = curl_init($url); 
    //初始化会话    curl_setopt($ch, CURLOPT_HEADER, 0);    
    curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  
    //设置请求COOKIE    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);    
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
     //将curl_exec()获取的信息以文件流的形式返回，而不是直接出。    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);     
     $result = curl_exec($ch);    
    return $result;  //抓取的结果

好文打赏，给Ta鼓励

扫一扫用手机阅读本文

Tags：百万级别用户用户数户数数据分析

相关搜索

图片推荐

: 阿里和苏宁在一起了：一个图线下一个图流量
导读：对于此次合作，苏宁和阿里的算盘分别怎么打?　　　　8月10日下午4时，阿里巴巴集团与苏宁云商集团股份有限公司共同宣布达成全面战略合作。根据协议，阿里巴巴集团将投资约283亿元人民币参与苏宁云商的

: 汽车之家CEO秦致：私有化是为谋求更多机会和可能
新浪科技讯北京时间4月28日凌晨消息，汽车之家CEO秦致日前发布内部邮件，称私有化是为了给公司未来的发展谋求更多的机会和可能。　　汽车之家在本月16日发布公告，准备以31.50美元每ADS的价格进行

: 过度依赖SEO的几大“后遗症”
过度依赖SEO的几大后遗症　　在互联网兴起的21世纪，网络推广也开始走向用户，SEO作为网络推广项目的领头羊，自然被企业或个人看中，也有很多新手迫切的想学习SEO技术，SEO技术做得好的话，能让企业在

: 新网站上线前需要做哪些seo工作
我们经常会看到一些站长说，自己的网站几天就百度权重1了，排除掉作弊的手法和幸运成分，如果新网站在上线前就做好了seo基础工作，短时间获得不错的排名还是有可能的。那么新网站上线前需要做哪些seo工作呢?

: 拐点将至：拿什么来维持IP的火热？
2016年，IP的竞争更加白热化，伴随《花千骨》、《芈月传》、《琅琊榜》、《鬼吹灯》等多部热门网络小说被改编为影视、动漫、手游等作品，IP已经进入了全版权产业的深耕耘阶段。　　当下IP价值的泡沫化一直

: 支付宝微信O2O竞赛转战便民服务
虽然红包大战的比试已经降温，但对于用户基数占比庞大的微信和支付宝，竞争依然在继续。哪里有需求哪里就有机遇，这次他们又瞄准了需求度及使用频率都很高的便民服务。微信上线智慧城市，支付宝预备加入城市生活功能

: 网站不添加内容也有好的排名
今天在QQ群里大家讨论了一个问题：有一个网站长时间没有什么更新、排名很好。长时间不更新的网站体验并不好，不是说网站需要经常更新内容吗?前两天也在搜外问答里看到一位朋友提问：一个不更新的页面怎样让快照更

: P2P平台又现奇葩跑路公告专家提醒投资者要“擦亮眼”
北京一家名为创利投的P2P平台通过自家微信公号推送跑路信息。　　　　图片来源：视觉中国　　随着网贷行业整改加速，千余家P2P平台成为问题平台，出现提现困难、停业整顿甚至跑路。而在整改潮中，P2P问题平

| 关于本站 | 联系我们 | 免责声明 | 诚招英才 | 网站地图 |
技术支持：凡夫网赚网正版程序授权验证
国家工信部备案号：粤ICP备14095247号-5 在线留言

联系QQ 邮箱：976382653@qq.com 微信：976382653 在线留言: 发布软文; 广告自助购; 文章调用; 常见问题; 保存到桌面

php爬虫：百级别知乎用户数据爬取与分析

热门阅读

图片推荐

阿里和苏宁在一起了：一个图线下一个图流量

汽车之家CEO秦致：私有化是为谋求更多机会和可能

过度依赖SEO的几大“后遗症”

新网站上线前需要做哪些seo工作

拐点将至：拿什么来维持IP的火热？

支付宝微信O2O竞赛转战便民服务

网站不添加内容也有好的排名

P2P平台又现奇葩跑路公告专家提醒投资者要“擦亮眼”

你是怎么知道非凡网赚网的？