爬山虎采集器是一款操作简单的网页数据抓取工具,能够采集绝大多数网站上的内容,涵盖网页表格、文档、图片以及各类格式的文件,并自动完成批量下载并保存到本地计算机。该工具采集速度快、效率高,支持将数据导出为表格、文本、数据库、网站API等多种格式。爬山虎采集器支持定时执行任务、自动发布内容以及增量采集更新,全流程自动化运行,几乎无需人工介入,明显提升了用户从网络获取信息的效率。有相关需求的用户欢迎下载试用!
如何使用【简易模式】采集数据
第一步:打开客户端,选择简易模式

选择相应的采集模板

也可以根据入关键词搜索,筛选对应的模板分类

第二步:预览模板的采集字段和示例数据

根据提示,输入对应的参数(此模板是输入需要采集的关键词)

第三步:运行并下载
开始即可查看加载的进程

任务列表中:选中任务/点击查看

选择合适的保存格式

爬山虎采集器功能介绍
1、向导模式
操作简便,通过鼠标点选即可自动生成采集脚本。
2、定时运行
可按设定时间自动执行任务,无需人工值守。
3、独创高速内核
自研浏览器引擎,处理速度较快,性能优于同类产品。
4、智能识别
能自动判断网页中的列表、表单结构(如多选框、下拉列表等)。
5、广告屏蔽
内置定制化广告过滤模块,兼容AdblockPlus规则,支持用户自定义过滤条件。
6、多种数据导出
支持导出至Txt、Excel、MySQL、SQLServer、SQlite、Access及网站等多种格式或平台。

爬山虎采集器软件优势
1、上手容易,通过可视化操作界面,用鼠标点击就能完成数据采集,采用向导式流程,用户无需技术基础,输入网址后一键提取内容,对编程零基础的用户非常友好。
2、依靠自主研发的智能识别算法,可自动判断列表数据和分页信息,准确率高达95%。支持深入采集多层页面,快速精确地获取所需内容。
3、新一代智能爬虫工具学习门槛低,结合智能算法与可视化界面,内置大量模板,用户只需简单设置并点击鼠标,即可完成数据采集任务。
4、适用性强,能覆盖99%的网站类型,包括静态页面、动态页面、单页应用及移动端应用,同时支持数据的获取与提交操作。
5、内置丰富多样的网站采集模板,覆盖多个不同领域。选择模板加载数据后,经过简单配置就能迅速获得准确信息,满足多种采集场景需求。

爬山虎采集器常见问题
问:怎样跳过列表中的前N条数据?
1、有时候需要排除采集结果中的前几项,例如在抓取表格时,去掉表头那一行。
2、点击列表模式菜单中的“设置列表xpath”选项进行配置。
问:如何抓取Cookie并手动配置?
1、用谷歌浏览器打开目标网站,并完成登录操作。
2、按F12键调出开发者工具,切换到Network选项卡。
3、按F5刷新页面,从列表中选择一个网络请求。
4、复制所需的Cookie信息后,在爬山虎采集器中编辑任务,进入第三步,设置HTTP Header。
更新日志
v5.0.2.5版本
解决部分网站卡死问题;
增加分组的运行历史;
性能提升;
优化OCR功能;
修复其他问题。