SpiderFlow - 一个无需写代码的爬虫平台 开源软件


https://gitee.com/ssssssss-team/spider-flow


---SpiderFlow安装简单,首先准备环境:

JDK >= 1.8

Mysql >= 5.7

Maven >= 3.0

下载项目源码后,

设置Eclipse仓库,菜单Window->Preferences->Maven->User Settings->User Settings 后边的Browse,然后导入自己的Maven目录的conf目录下的settings.xml文件,然后点Apply,在点OK

导入到Eclipse,菜单file->Import,然后选择Maven->Existing Maven Projects,点击Next>按钮,选择工作目录,然后点击Finish按钮,即可导入成功

导入数据库,基础表:spider-flow/db/spiderflow.sql

打开并运行org.spiderflow.SpiderApplication.java

打开浏览器,输入(http://localhost:8088/)

此时就能看到可视化的管理后台了,可以进行爬虫列表的管理:

构建爬虫十分方便,通过可视化面板,使用拖拽组件的方式,就能很快地实现一个网络爬虫


---SpiderFlow使用不同的节点来组成爬虫逻辑,包括:

开始节点:爬虫的起点,所有流程图必须有该节点

爬取节点:用于请求HTTP/HTTPS页面或接口

定义变量:用于定义变量之后,可以与表达式配套使用,实现动态设置各项参数(如动态请求分页地址)

输出节点:主要用于调试,测试时会把输出打印到页面中,另外也可以用来自动保存到数据库或文件

循环节点:实现循环逻辑

等待结束:等待到该节点之前所有节点执行完毕时才会执行下一级节点

执行SQL:主要用于与数据库交互(查询/修改/插入/删除等等)

子流程:主要用于调用其他流程

执行函数:主要用于调用一些关联性不大,无需返回值的函数,如下载文件,保存文件等

连接线:用来流转至下一个节点


---使用

SpiderFlow功能丰富,

支持Xpath/JsonPath/css选择器/正则提取/混搭提取

支持JSON/XML/二进制格式

支持多数据源、SQL select/selectInt/selectOne/insert/update/delete

支持爬取JS动态渲染(或ajax)的页面

支持代理

支持自动保存至数据库/文件

常用字符串、日期、文件、加解密等函数

支持插件扩展(自定义执行器,自定义方法)

任务监控,任务日志

支持HTTP接口

支持Cookie自动管理

支持自定义函数


---总结

SpiderFlow 以图形化方式定义爬虫流程,无需代码即可实现一个爬虫。无需编写代码,在线定制爬虫规则,利用自定义的逻辑图设计方法,很方便就能设计出网络爬虫,且插件丰富,高度灵活,扩展方便,规则定制灵活。


网络爬虫,是互联网数据抓取的主要方式之一,许多人都会有类似的需求。然而,网络爬虫的编写,通常需要掌握一定的代码编写能力,乃至于比较复杂的项目组织构建能力,有一定的技术门槛。

SpiderFlow,通过可视化的方便,无需编写代码,仅需拖拽链接节点,就能构建一个爬虫应用,十分便捷。


SpiderFlow 以图形化方式定义爬虫流程,无需代码即可实现一个爬虫。无需编写代码,在线定制爬虫规则;插件丰富,拥有 redis、mongodb、oss、ocr、IP代理池、selenium等插件,高度灵活,扩展方便,规则定制灵活。


签名:这个人很懒,什么也没有留下!
最新回复 (0)
返回