博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
编写一个爬虫类库——(一)想法
阅读量:4966 次
发布时间:2019-06-12

本文共 721 字,大约阅读时间需要 2 分钟。

有的时候,我会写一些爬虫程序来自动获取一些信息,之前一段时间用过来驱动Chrome获取信息,我之前也写过一系列来介绍它。Puppeteer是Google官方出品,本身质量非常好高,提供的功能也非常强大,但它本身并不是针对爬虫程序定制的,用起来存在如下不便之处:

  1. 提供的API过多,想找到需要的API比较费时间。
  2. 提供的API比较底层,要实现想要的功能往往需要多个接口组合
  3. 有的功能没有提供, 需要通过一些私有接口或改源码的方式来实现
  4. 日志,输入输出,任务调度,重试策略等都需要额外的库才能实现。

加上我也不是经常有些蜘蛛程序的需求,只是偶尔心血来潮的时候写一下玩玩。导致每次使用都要在Puppeteer的API列表和我之前的博客文章中查一遍才能进行功能的开发。

另外,具体开发蜘蛛程序的时候,针对站点的数据解析比较费时费力,需要提供一个方便强大的调试工具。

基于以上原因,我变有了一个自己写一个依托于Chrome,专门针对蜘蛛程序的类库的想法,主要目标如下:

  1. 提供简单的库,每次使用的时候基本上能一目了然
  2. 提供常用的库,常见的功能拿来就能使用
  3. 提供日志,输入输出,任务调度等常见的功能库集成
  4. 提供直观好用的调试工具,方便蜘蛛程序的开发

该工具我打算使用.net core来写,有宇宙第一IDE加持的话,开发和后期使用时非常简单的。我已经实现了一个小的原型了,虽然目前功能还不完善,但已经可以用来来实现一些简单的数据爬取的。

由于最近的工作和家里的事情都比较多,后面的开发进度估计就要慢不少了,我后续也会写一些文章介绍开发过程中的心得的。

转载于:https://www.cnblogs.com/TianFang/p/11142993.html

你可能感兴趣的文章
javascript
查看>>
C++程序设计基础(6)内存分配
查看>>
启动Tomcat,startup.bat一闪而过的解决办法
查看>>
Problem K: 数字菱形
查看>>
css清除浮动
查看>>
111
查看>>
xml(可扩展标记语言)
查看>>
去掉DataTable列中的重复行
查看>>
matlab isfield
查看>>
STL源代码剖析——STL算法stl_algo.h
查看>>
【转载】 C#使用String.Format拼接字符串
查看>>
通过yum安装phpMyAdmin及配置过程
查看>>
Marvolo Gaunt's Ring CodeForces - 855B
查看>>
-e $request_filename + nginx内置变量
查看>>
20180323 DataTable增加DataRow方式优化
查看>>
Linux - awk 文本处理工具二
查看>>
cf 337 div2 c
查看>>
解决display:inline-block;行内块元素出现空白空隙问题
查看>>
2056=不敢死队问题
查看>>
Django框架
查看>>