行业大数据智能化分析应用缺少高效易用的大数据分析处理与编程计算能力支撑,一直面临诸多痛点。
现有众多大数据系统平台相互不统一,编程方法与编程语言环境不同,难以选择使用;
现有主流大数据平台编程技术门槛高,难以为普通行业技术人员学习使用;
行业大数据综合分析应用,会涉及到数据查询分析、机器学习、深度学习、图计算、流式计算等多种不同的数据模型和计算模式,现有大数据平台难以满足要求。
因此,行业迫切需要一种易于学习和操作使用、跨平台统一化的大数据分析处理与编程计算系统工具平台。
本平台可提供丰富的数据存储管理与数据处理能力,提供数据库查询分析、机器学习、深度学习、图计算、流式计算等多种大数据计算模式与建模分析功能,这些功能以图标化算子形式内置在系统中,用户能通过拖拽方式,在无需代码编程的情况下,方便快捷地开发数据分析处理程序和算法模型。平台底层可根据需要集成使用各种主流大数据存储与计算系统,实现跨平台统一大数据处理与智能分析编程与应用开发。平台可广泛应用于各类行业和企业的大数据处理与智能化分析应用开发,从而大大降低大数据分析处理与建模门槛,提升大数据智能化应用开发效率。
平台底层支持Alluxio、HDFS、HBase、Hive、关系型数据库、分布式数据库、图数据库等存储系统,上层通过跨平台统一计算任务调度实现Scikit-learn、Spark、Flink、Tensorflow、Pytorch等主流计算平台的混合调度,从而支持数据查询分析、机器学习、深度学习、图计算等数据分析任务以及AutoML自动化AI建模和调优。基于计算流图的可视化拖拽式编程,可以快速构建业务模型并上线部署,从而服务于各行业的大数据分析和应用,为大数据分析建模降本提效,加速产业数字化应用落地。
银行信用评分卡建立
银行信用评分卡是银行根据客户的相关数据去评价用户风险得分的重要工具,得分的高低会直接影响到用户的授信额度。传统的评分卡建立流程需要业务人员和开发人员合作,业务人员梳理业务、开发人员编辑代码,整个过程耗时长、人员参与多、沟通成本大。 利用大数据可视化分析平台,用户可以方便快捷地将用户流水数据、用户资产负债数据、央行征信数据导入。在无需编程的情况下,用户通过拖拽分组聚合算子求出用户6个月的流水总额,并对表中的缺失字段进行填充。通过数据集的连接构建出可以用于建模的数据,将该数据与逻辑回归相连接并进行预测打分,最终评估准确率,构建完毕的模型可以一键保存部署上线,帮助银行对用户信用风险进行打分。
支持基于可视化计算流图和算子免代码拖拽式编程, 可视化流程图和算子可提供算法名称与业务名称双模式显示。同时也支持Python、R、Scala程序设计语言代码编程开发模式
跨平台统一大数据编程计算环境,支持数据查询、图计算、机器学习、深度学习、流式计算等多种计算模式,可集成使用Hadoop、Spark、Tensorflow、Scikit-learn、Flink等主流平台
支持HDFS/Alluxio等分布式文件系统、HBase/Hive分布式数据库、MySQL及Oracle等关系数据库、以及Neo4j等图数据库,并可根据企业需要集成各种数据源的存储系统
以算子形式提供近百个数据分析处理算法,涵盖常用数据处理、数据查询、统计分析、机器学习、深度学习、图计算、文本分析算法,并能支持用户自定义复合算子,提供行业复杂业务算子构建能力
支持用户开发共享复杂业务模型,对计算流图中的分析模型可进行一键保存进入模型库,保存后的模型可共享复用,并支持快速部署上线服务,并能以RESTful API接口对外提供模型预测服务
集成Echarts报表可视化插件包,支持柱状图、散点图、饼图、热力图以及网络关系图等丰富多样的数据可视化展现方式,同时支持常用算法模型可视化,帮助用户了解建模流程中的数据变化