PiFlow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。本次版本更新如下特性: 增加了运行单个数据处理组件、当前及以下数据处理组件功能; 增加了测试数据管理功能; 增加了数据处理组件显隐功...

新闻来源:开源大数据流水线系统 PiFlow V1.0 发布