scrapy爬取汽车之家全量口碑数据

关键词：python, scrapy, selenium, css伪类

最近准备做车评方面的数据分析工作，计划使用汽车之家口碑中的数据。

当我开始用我传统的方法scrapy去爬取时发现，汽车之家对文字内容作了一定的反爬处理。把大段的文本内容，抽出一部分高频的关键词，通过css伪类的方式进行展示。比如“满意”是其中一个词，通过看html源码，如“最满意的一点”却是：“最的一点”。那么如果简单的通过获取html内容就只能得到：最的一点。如果文章中的许多高频词都不能获取到，那文章也是没有意义的了。

如下： 的所表达的内容是由伪类定义的，::before content:满意。

我最直接的想法是，从源代码中找到定义class=”hs_kw0_mainpl”的css文件，然后通过解析规范后，把还原成原始的内容。但是找了一段时间也没找着。而在分析的过程中，发现即使是相同一个词，比如“满意”，其class并不是一成不变一直是hs_kw0_mainpl的。一段时间后可能又变成了另外一个class，但类似于这种格式的class名。

既然相同的词class也会改变，那么肯定是动态生成的css文件了。那么做出class到对应文字的映射是没有意义的。

继续尝试。

通过google搜索，发现，是可以通过js获取到伪类的属性值的。

如下代码：

getComputedStyle(document.getElementsByClassName('hs_kw0_mainmX')[0],'before')
.getPropertyValue('content')

1 2	getComputedStyle(document.getElementsByClassName('hs_kw0_mainmX')[0],'before') .getPropertyValue('content')

简单解释：

document.getElementsByClassName(‘hs_kw0_mainmX’) 通过类名获取dom对象

getComputedStyle(dom, ‘before’) 通过getComputedStyle获取经过浏览器渲染后的最终结果。填入第二个参数，则可以获取到伪类数据。

最后通过 .getPropertyValue(‘content’) 获取content的属性的值。

坑：

1、我本机的chrome可以，通过该方法正常获取到汽车之家口碑网站伪类内容。而本机的firefox却不能。应该就是版本问题，未深究。

2、getComputedStyle(dom, ‘before’)中，第二个参数：’before’，一定是’before’，而不是’::before’，如果填’::before’，什么也获取不到。而我在google上搜出的答案，如 http://stackoverflow.com/questions/3743513/how-do-i-access-style-properties-of-pseudo-elements-with-jquery ,等是getComputedStyle(document.querySelector(‘.element’), ‘:before’)或者’::before’，一个冒号或两个冒号的表达方式。而我机器chrome版本 56.0.2924.87 (64-bit)，是不行的。我也是百般尝试，才发现汽车之家网站使用’before’才可以。而我自己编写的测试demo，使用getComputedStyle(document.querySelector(‘.element’), ‘::before’)却是正常的。未更深究。

好了，现在知道怎么获取到那个被替换成span的文字的content的了。

那么现在思路就清晰了。通过浏览器访问，并执行js代码，获取到该span的伪类设置的值，再进行文字的替换。

模拟浏览器我使用的是selenium工具，总体感觉比较方便。

期间遇到的问题：

1、通过selenium打开chrome浏览器去访问网页，正常我这边速度大概一秒爬一个地址，但总有一定的概率，1/5000左右，网页不动了，第一次跑的时候，开了8个进程同时跑，一秒一页的话，预计第二天应该能有30w左右数据，第二天来了发现，才十万，而打开的7个浏览器都不动了，而任务却没有进行完。

大概原因是selenium等待网页加载完毕后继续执行，虽然网页已经显示出了内容，但可能有一些因素导致一直无法触发browser.get()加载完毕的条件。

browser = webdriver.Chrome()
browser.get(response.url)

1 2	browser = webdriver.Chrome() browser.get(response.url)

解决方法：

首先：设置超时时间： browser.set_page_load_timeout(15)

try:
    self.browser.get(response.url)
except TimeoutException:
    #重启bower
    self.browser.quit()
    self.chrome_init()

try:

self.browser.get(response.url)

except TimeoutException:

#重启bower

self.browser.quit()

self.chrome_init()

当遇到超时异常时，重启浏览器。可以解决。

2、因为目前计划只需要爬去网页的内容，所以图片和其他不必要的东西就不要加载了，以节省资源。

我开始搜索如何设置，禁用flash和图片加载。有不少地方讲到。而参数设置，我并没在selenium文档中找到具体Chrome浏览器设置的介绍。

于是开始各种尝试，对启动浏览器时进行设置参数。

最终有效的设置结果是：

chrome_options = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2,"plugins.plugins_disabled": ["Shockwave Flash"] }
chrome_options.add_experimental_option("prefs", prefs)
self.browser = webdriver.Chrome(chrome_options=chrome_options)

chrome_options = webdriver.ChromeOptions()

prefs = {"profile.managed_default_content_settings.images": 2,"plugins.plugins_disabled": ["Shockwave Flash"] }

chrome_options.add_experimental_option("prefs", prefs)

self.browser = webdriver.Chrome(chrome_options=chrome_options)

网上有不少设置方式，在我这里却没有生效，以上是尝试了许多种方法中，最终有效的方法。

对于这次汽车之家口碑数据的爬取，大概就这些吧。截止到2017年3月初，大概83w条口碑数据。最终爬下来未压缩的文字数据：1.5G。这还不包括追加的口碑和评论。主要是下图中的内容：

期望我走过的坑，能帮到后来的人。

我把爬取的数据分享到百度网盘了，压缩后500M，如对自然语言感兴趣的，可以直接拿去研究。

链接: https://pan.baidu.com/s/1hrNMkdA 密码: tux3

=====2017.8.12 更新=====

github地址： https://github.com/keepangry/autohome_koubei_crawler.git

=====end=====

格式如下：

爬取文本内容样例：
id,"content","created_at","url",series_id,"series_name",spec_id,"spec_name","address","buy_date","buy_price",space,power,manipulation,fuel,comfort,surface,trim,ratio,"purpose","title","date"
8,"2016年12月07日发表了口碑口碑《完美小钢炮，动力十足》【最满意的一点】动力十，操控稳定极好...","2017-03-06 12:07:13","http://k.autohome.com.cn/spec/25904/view_1389721_1.html?st=23&amp;piap=0|3170|0|0|1|0|0|0|0|0|1",3170,"奥迪A3",25904,"奥迪A32016款 Limousine 35 TFSI 领英型","成都","2016年5月","19.30万元",3,5,4,4,3,5,4,4,"自驾游泡妞","完美小钢炮，动力十足","2016年12月07日"
7,"2016年12月08日发表了口碑口碑《漂亮 精致 唯美》【最满意的一点】1、A3获过内饰5、售后...","2017-03-06 12:07:13","http://k.autohome.com.cn/spec/25905/view_1391269_1.html?st=22&amp;piap=0|3170|0|0|1|0|0|0|0|0|1",3170,"奥迪A3",25905,"奥迪A32016款 Limousine 35 TFSI 风尚型","天津","2016年9月","20.00万元",4,5,5,4,5,5,5,4,"上下班购物自驾游泡妞","漂亮 精致 唯美","2016年12月08日"

'购买车型': 'spec_name',
 '购买地点': 'address',
 '购买时间': 'buy_date',
 '裸车购买价': 'buy_price',
 '空间': 'space',
 '动力': 'power',
 '操控': 'manipulation',
 '油耗': 'fuel',
 '舒适性': 'comfort',
 '外观': 'surface',
 '内饰': 'trim',
 '性价比': 'ratio',
 '购车目的': 'purpose',

爬取文本内容样例：

id,"content","created_at","url",series_id,"series_name",spec_id,"spec_name","address","buy_date","buy_price",space,power,manipulation,fuel,comfort,surface,trim,ratio,"purpose","title","date"

8,"2016年12月07日发表了口碑口碑《完美小钢炮，动力十足》【最满意的一点】动力十，操控稳定极好...","2017-03-06 12:07:13","http://k.autohome.com.cn/spec/25904/view_1389721_1.html?st=23&piap=0|3170|0|0|1|0|0|0|0|0|1",3170,"奥迪A3",25904,"奥迪A32016款 Limousine 35 TFSI 领英型","成都","2016年5月","19.30万元",3,5,4,4,3,5,4,4,"自驾游泡妞","完美小钢炮，动力十足","2016年12月07日"

7,"2016年12月08日发表了口碑口碑《漂亮精致唯美》【最满意的一点】1、A3获过内饰5、售后...","2017-03-06 12:07:13","http://k.autohome.com.cn/spec/25905/view_1391269_1.html?st=22&piap=0|3170|0|0|1|0|0|0|0|0|1",3170,"奥迪A3",25905,"奥迪A32016款 Limousine 35 TFSI 风尚型","天津","2016年9月","20.00万元",4,5,5,4,5,5,5,4,"上下班购物自驾游泡妞","漂亮精致唯美","2016年12月08日"

'购买车型': 'spec_name',

'购买地点': 'address',

'购买时间': 'buy_date',

'裸车购买价': 'buy_price',

'空间': 'space',

'动力': 'power',

'操控': 'manipulation',

'油耗': 'fuel',

'舒适性': 'comfort',

'外观': 'surface',

'内饰': 'trim',

'性价比': 'ratio',

'购车目的': 'purpose',

全部评论：8条

加载中...

教育关系国家官方 2017-03-17 22:21

测试

回复
strongant 2017-06-09 15:25

抓取脚本分享一下呗？

回复
- 教育关系国家 2017-07-16 16:29
  
  嗯。
  
  回复
  - strongant 2017-11-13 15:35
    
    666
    
    回复
- 教育关系国家 2017-07-16 16:30
  
  估计得等一段时间了，现在在上海出差，代码在北京电脑上，回头弄到github上。
  
  回复
  - strongant 2017-07-26 09:14
    
    好的，谢谢
    
    回复
    - 曾经的回忆 2017-08-12 10:17
      
      已经传到git上了，地址在博文中，懒得改成可运行了，但之前是可运行的。如果需要，你参考看看吧。
      
      回复
  - strongant 2017-11-13 15:35
    
    666
    
    回复

发表评论点击这里取消回复。

昵称*

邮箱*

网址

scrapy爬取汽车之家全量口碑数据

【转】我和闺女的相处方式尺度大吗？

php无imagecreatefromjpeg()函数解决方案

全部评论：8条

发表评论点击这里取消回复。

标签云

关注我么么哒！

最新文章

又到了关键时刻，正心听命

眼睛视力矫正记录

机器学习模型面试问题

技术想法

AI待学习

scrapy爬取汽车之家全量口碑数据

微信扫一扫,分享到朋友圈

【转】我和闺女的相处方式尺度大吗？

php无imagecreatefromjpeg()函数解决方案

猜你喜欢

【算法系列-2】求字符串的全排列

【算法系列-1】不定长二维数组 穷举组合 参数搜索 grid search

隐马尔科夫模型 实现中文分词

隐马尔科夫模型

python使用crf++，非系统调用

centos源码编译安装python2.7.6并安装机器学习包scikit-learn 完全无问题安装流程

全部评论：8条

发表评论 点击这里取消回复。

标签云

关注我 么么哒！

最新文章

又到了关键时刻，正心听命

眼睛视力矫正记录

机器学习模型面试问题

技术想法

AI待学习

关注我们的公众号

【算法系列-1】不定长二维数组穷举组合参数搜索 grid search

隐马尔科夫模型实现中文分词

发表评论点击这里取消回复。

关注我么么哒！