PiFlow是一个简单易用,功能强大的大数据流水线系统,混合型科学大数据流水线系统,包含丰富的处理器组件,提供Shell、DSL、Web配置界面、任务调度、任务监控等功能!
软件特色
简单易用
可视化配置流水线
监控流水线
查看流水线日志
检查点功能
扩展性强:
支持自定义开发数据处理组件
性能优越:
基于分布式计算引擎Spark开发
功能强大:
提供100+的数据处理组件
包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等
集成了微生物领域的相关算法
使用方法
解压piflow-server-v0.9.tar.gz:
tar-zxvfpiflow-server-v0.9.tar.gz
编辑配置文件config.properties
运行、停止、重启PiFlowServer
start.sh、stop.sh、restart.sh、status.sh
测试PiFlowServer
设置环境变量PIFLOW_HOME
vim/etc/profile
exportPIFLOW_HOME=/yourPiflowPath/bin
exportPATH=PATH:PIFLOW_HOME/bin
运行如下命令
piflowflowstartexample/mockDataFlow.json
piflowflowstopappID
piflowflowinfoappID
piflowflowlogappID
piflowflowGroupstartexample/mockDataGroup.json
piflowflowGroupstopgroupId
piflowflowGroupinfogroupId
如何配置config.properties
#sparkandyarnconfig
spark.master=yarn
spark.deploy.mode=cluster
#hdfsdefaultfilesystem
fs.defaultFS=hdfs://10.0.86.191:9000
#yarnresourcemanager.hostname
yarn.resourcemanager.hostname=10.0.86.191
#ifyouwanttousehive,sethivemetastoreuris
#hive.metastore.uris=thrift://10.0.88.71:9083
#showdatainlog,set0ifyoudonotwanttoshowdatainlogs
data.show=10
#serverport
server.port=8002
#h2dbport
h2.port=50002