2017干貨分享丨全球100款大數(shù)據(jù)工具匯總（附圖）

來源：簡書時間：2017-06-30 16:20:59 作者：小維斗

　　1、 Talend Open Studio

　　是第一家針對的數(shù)據(jù)集成工具市場的ETL(數(shù)據(jù)的提取Extract、傳輸Transform、載入Load)開源軟件供應商。Talend的下載量已超過200萬人次，其開源軟件提供了數(shù)據(jù)整合功能。其用戶包括美國國際集團（AIG）、康卡斯特、電子港灣、通用電氣、三星、Ticketmaster和韋里遜等企業(yè)組織。

　　2、DYSON

　　探碼科技自主研發(fā)的DYSON智能分析系統(tǒng)，可以完整的實現(xiàn)大數(shù)據(jù)的采集、分析、處理。DYSON智能分析系統(tǒng)專業(yè)針對互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析，挖掘。可以靈活迅速地抓取網(wǎng)頁上散亂分布的信息，并通過強大的處理功能，準確挖掘出所需數(shù)據(jù)，是目前使用人數(shù)最多的網(wǎng)頁采集工具.

　　3、YARN

　　一種新的Hadoop資源管理器，它是一個通用資源管理系統(tǒng)，可為上層應用提供統(tǒng)一的資源管理和調(diào)度，解決了舊MapReduce框架的性能瓶頸。它的基本思想是把資源管理和作業(yè)調(diào)度/監(jiān)控的功能分割到單獨的守護進程。

　　4、Mesos

　　由加州大學伯克利分校的AMPLab首先開發(fā)的一款開源群集管理軟件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架構(gòu)。對數(shù)據(jù)中心而言它就像一個單一的資源池，從物理或虛擬機器中抽離了CPU，內(nèi)存，存儲以及其它計算資源，很容易建立和有效運行具備容錯性和彈性的分布式系統(tǒng)。

　　5、Datale

　　由探碼科技研發(fā)的一款基于Hadoop的大數(shù)據(jù)平臺開發(fā)套件，RAI大數(shù)據(jù)應用平臺架構(gòu)。

　　6、 Ambari

　　作為Hadoop生態(tài)系統(tǒng)的一部分，提供了基于Web的直觀界面，可用于配置、管理和監(jiān)控Hadoop集群。目前已支持大多數(shù)Hadoop組件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

　　7、ZooKeeper

　　一個分布式的應用程序協(xié)調(diào)服務，是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的工具，讓Hadoop集群里面的節(jié)點可以彼此協(xié)調(diào)。ZooKeeper現(xiàn)在已經(jīng)成為了 Apache的頂級項目，為分布式系統(tǒng)提供了高效可靠且易于使用的協(xié)同服務。

　　8、Thrift

　　在2007年facebook提交Apache基金會將Thrift作為一個開源項目，對于當時的facebook來說創(chuàng)造thrift是為了解決facebook系統(tǒng)中各系統(tǒng)間大數(shù)據(jù)量的傳輸通信以及系統(tǒng)之間語言環(huán)境不同需要跨平臺的特性。

　　9、Chukwa

　　監(jiān)測大型分布式系統(tǒng)的一個開源數(shù)據(jù)采集系統(tǒng)，建立在HDFS/MapReduce框架之上并繼承了Hadoop的可伸縮性和可靠性，可以收集來自大型分布式系統(tǒng)的數(shù)據(jù)，用于監(jiān)控。它還包括靈活而強大的顯示工具用于監(jiān)控、分析結(jié)果。

　　10、Lustre

　　一個大規(guī)模的、安全可靠的、具備高可用性的集群文件系統(tǒng)，它是由SUN公司開發(fā)和維護的。該項目主要的目的就是開發(fā)下一代的集群文件系統(tǒng)，目前可以支持超過10000個節(jié)點，數(shù)以PB的數(shù)據(jù)存儲量。

　　11、HDFS

　　Hadoop Distributed File System，簡稱HDFS，是一個分布式文件系統(tǒng)。HDFS是一個高度容錯性的系統(tǒng)，適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應用。

　　12、GlusterFS

　　一個集群的文件系統(tǒng)，支持PB級的數(shù)據(jù)量。GlusterFS 通過RDMA和TCP/IP方式將分布到不同服務器上的存儲空間匯集成一個大的網(wǎng)絡化并行文件系統(tǒng)。

　　13、Alluxio

　　前身是Tachyon，是以內(nèi)存為中心的分布式文件系統(tǒng)，擁有高性能和容錯能力，能夠為集群框架（如Spark、MapReduce）提供可靠的內(nèi)存級速度的文件共享服務。

　　14、Ceph

　　新一代開源分布式文件系統(tǒng)，主要目標是設計成基于POSIX的沒有單點故障的分布式文件系統(tǒng)，提高數(shù)據(jù)的容錯性并實現(xiàn)無縫的復制。

　　15、PVFS

　　一個高性能、開源的并行文件系統(tǒng)，主要用于并行計算環(huán)境中的應用。PVFS特別為超大數(shù)量的客戶端和服務器端所設計，它的模塊化設計結(jié)構(gòu)可輕松的添加新的硬件和算法支持。

　　16、QFS

　　Quantcast File System (QFS) 是一個高性能、容錯好、分布式的文件系統(tǒng)，用于開發(fā)支持 MapReduce處理或者需要順序讀寫大文件的應用。

　　17、 Logstash

　　一個應用程序日志、事件的傳輸、處理、管理和搜索的平臺?？梢杂盟鼇斫y(tǒng)一對應用程序日志進行收集管理，提供了Web接口用于查詢和統(tǒng)計。

　　18、Scribe

　　Scribe是Facebook開源的日志收集系統(tǒng)，它能夠從各種日志源上收集日志，存儲到一個中央存儲系統(tǒng)（可以是NFS，分布式文件系統(tǒng)等）上，以便于進行集中統(tǒng)計分析處理。

　　19、Flume

　　Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)。同時，F(xiàn)lume支持對數(shù)據(jù)進行簡單處理，并寫入各種數(shù)據(jù)接受方（可定制）。

　　20、RabbitMQ

　　一個受歡迎的消息代理系統(tǒng)，通常用于應用程序之間或者程序的不同組件之間通過消息來進行集成。RabbitMQ提供可靠的應用消息發(fā)送、易于使用、支持所有主流操作系統(tǒng)、支持大量開發(fā)者平臺。

　　21、ActiveMQ

　　Apache出品，號稱“最流行的，最強大”的開源消息集成模式服務器。ActiveMQ特點是速度快，支持多種跨語言的客戶端和協(xié)議，其企業(yè)集成模式和許多先進的功能易于使用，是一個完全支持JMS1.1和J2EE 1.4規(guī)范的JMS Provider實現(xiàn)。

　　22、Kafka

　　一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，它可以處理消費者規(guī)模網(wǎng)站中的所有動作流數(shù)據(jù)，目前已成為大數(shù)據(jù)系統(tǒng)在異步和分布式消息之間的最佳選擇。

　　23、Spark

　　一個高速、通用大數(shù)據(jù)計算處理引擎。擁有Hadoop MapReduce所具有的優(yōu)點，但不同的是Job的中間輸出結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。它可以與Hadoop和Apache Mesos一起使用，也可以獨立使用。

　　24、Kinesis

　　可以構(gòu)建用于處理或分析流數(shù)據(jù)的自定義應用程序，來滿足特定需求。Amazon Kinesis Streams 每小時可從數(shù)十萬種來源中連續(xù)捕獲和存儲數(shù)TB數(shù)據(jù)，如網(wǎng)站點擊流、財務交易、社交媒體源、IT日志和定位追蹤事件。

　　25、 Hadoop

　　一個開源框架，適合運行在通用硬件，支持用簡單程序模型分布式處理跨集群大數(shù)據(jù)集，支持從單一服務器到上千服務器的水平scale up。Apache的Hadoop項目已幾乎與大數(shù)據(jù)劃上了等號，它不斷壯大起來，已成為一個完整的生態(tài)系統(tǒng)，擁有眾多開源工具面向高度擴展的分布式計算。高效、可靠、可伸縮，能夠為你的數(shù)據(jù)存儲項目提供所需的YARN、HDFS和基礎(chǔ)架構(gòu)，并且運行主要的大數(shù)據(jù)服務和應用程序。

　　26、Spark Streaming

　　實現(xiàn)微批處理，目標是很方便的建立可擴展、容錯的流應用，支持Java、Scala和Python，和Spark無縫集成。Spark Streaming可以讀取數(shù)據(jù)HDFS，F(xiàn)lume，Kafka，Twitter和ZeroMQ，也可以讀取自定義數(shù)據(jù)。

　　27、Trident

　　是對Storm的更高一層的抽象，除了提供一套簡單易用的流數(shù)據(jù)處理API之外，它以batch(一組tuples)為單位進行處理，這樣一來，可以使得一些處理更簡單和高效。

　　28、Flink

　　于今年躋身Apache頂級開源項目，與HDFS完全兼容。Flink提供了基于Java和Scala的API，是一個高效、分布式的通用大數(shù)據(jù)分析引擎。更主要的是，F(xiàn)link支持增量迭代計算，使得系統(tǒng)可以快速地處理數(shù)據(jù)密集型、迭代的任務。

　　29、Samza

　　出自于LinkedIn，構(gòu)建在Kafka之上的分布式流計算框架，是Apache頂級開源項目。可直接利用Kafka和Hadoop YARN提供容錯、進程隔離以及安全、資源管理。

　　30、Storm

　　Storm是Twitter開源的一個類似于Hadoop的實時數(shù)據(jù)處理框架。編程模型簡單，顯著地降低了實時處理的難度，也是當下最人氣的流計算框架之一。與其他計算框架相比，Storm最大的優(yōu)點是毫秒級低延時。

　　31、Yahoo S4 （Simple Scalable Streaming System）

　　是一個分布式流計算平臺，具備通用、分布式、可擴展的、容錯、可插拔等特點，程序員可以很容易地開發(fā)處理連續(xù)無邊界數(shù)據(jù)流（continuous unbounded streams of data）的應用。它的目標是填補復雜專有系統(tǒng)和面向批處理開源產(chǎn)品之間的空白，并提供高性能計算平臺來解決并發(fā)處理系統(tǒng)的復雜度。

　　32、HaLoop

　　是一個Hadoop MapReduce框架的修改版本，其目標是為了高效支持迭代，遞歸數(shù)據(jù)分析任務，如PageRank，HITs，K-means，sssp等。

　　33、Presto

　　是一個開源的分布式SQL查詢引擎，適用于交互式分析查詢，可對250PB以上的數(shù)據(jù)進行快速地交互式分析。Presto的設計和編寫是為了解決像Facebook這樣規(guī)模的商業(yè)數(shù)據(jù)倉庫的交互式分析和處理速度的問題。Facebook稱Presto的性能比諸如Hive和MapReduce要好上10倍有多。

　　34、 Drill

　　于2012年8月份由Apache推出，讓用戶可以使用基于SQL的查詢，查詢Hadoop、NoSQL數(shù)據(jù)庫和云存儲服務。它能夠運行在上千個節(jié)點的服務器集群上，且能在幾秒內(nèi)處理PB級或者萬億條的數(shù)據(jù)記錄。它可用于數(shù)據(jù)挖掘和即席查詢，支持一系列廣泛的數(shù)據(jù)庫，包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌云存儲和Swift。

　　35、Phoenix

　　是一個Java中間層，可以讓開發(fā)者在Apache HBase上執(zhí)行SQL查詢。Phoenix完全使用Java編寫，并且提供了一個客戶端可嵌入的JDBC驅(qū)動。Phoenix查詢引擎會將SQL查詢轉(zhuǎn)換為一個或多個HBase scan，并編排執(zhí)行以生成標準的JDBC結(jié)果集。

　　36、Pig

　　是一種編程語言，它簡化了Hadoop常見的工作任務。Pig可加載數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)以及存儲最終結(jié)果。Pig最大的作用就是為MapReduce框架實現(xiàn)了一套shell腳本，類似我們通常熟悉的SQL語句。

　　37、Hive

　　是基于Hadoop的一個數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供簡單的sql查詢功能，可以將sql語句轉(zhuǎn)換為MapReduce任務進行運行。其優(yōu)點是學習成本低，可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計，不必開發(fā)專門的MapReduce應用，十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。

　　38、SparkSQL

　　前身是Shark，SparkSQL拋棄原有Shark的代碼并汲取了一些優(yōu)點，如內(nèi)存列存儲（In-Memory Columnar Storage）、Hive兼容性等。由于擺脫了對Hive的依賴性，SparkSQL無論在數(shù)據(jù)兼容、性能優(yōu)化、組件擴展方面都得到了極大的方便。

　　39、Stinger

　　原來叫Tez，是下一代Hive，由Hortonworks主導開發(fā)，運行在YARN上的DAG計算框架。某些測試下，Stinger能提升10倍左右的性能，同時會讓Hive支持更多的SQL。

　　40、Tajo

　　目的是在HDFS之上構(gòu)建一個可靠的、支持關(guān)系型數(shù)據(jù)的分布式數(shù)據(jù)倉庫系統(tǒng)，它的重點是提供低延遲、可擴展的ad-hoc查詢和在線數(shù)據(jù)聚集，以及為更傳統(tǒng)的ETL提供工具。

　　41、Impala

　　Cloudera 聲稱，基于SQL的Impala數(shù)據(jù)庫是“面向Apache Hadoop的領(lǐng)先的開源分析數(shù)據(jù)庫”。它可以作為一款獨立產(chǎn)品來下載，又是Cloudera的商業(yè)大數(shù)據(jù)產(chǎn)品的一部分。Cloudera Impala 可以直接為存儲在HDFS或HBase中的Hadoop數(shù)據(jù)提供快速、交互式的SQL查詢。

　　42、 Elasticsearch

　　是一個基于Lucene的搜索服務器。它提供了一個分布式、支持多用戶的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java開發(fā)的，并作為Apache許可條款下的開放源碼發(fā)布，是當前流行的企業(yè)級搜索引擎。設計用于云計算中，能夠達到實時搜索、穩(wěn)定、可靠、快速、安裝使用方便。

　　43、Solr

　　基于Apache Lucene，是一種高度可靠、高度擴展的企業(yè)搜索平臺。知名用戶包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。

　　44、Shark

　　即Hive on Spark，本質(zhì)上是通過Hive的HQL解析，把HQL翻譯成Spark上的RDD操作，然后通過Hive的metadata獲取數(shù)據(jù)庫里的表信息，實際HDFS上的數(shù)據(jù)和文件，會由Shark獲取并放到Spark上運算。Shark的特點就是快，完全兼容Hive，且可以在shell模式下使用rdd2sql()這樣的API，把HQL得到的結(jié)果集，繼續(xù)在scala環(huán)境下運算，支持自己編寫簡單的機器學習或簡單分析處理函數(shù)，對HQL結(jié)果進一步分析計算。

　　45、Lucene

　　基于Java的Lucene可以非常迅速地執(zhí)行全文搜索。據(jù)官方網(wǎng)站聲稱，它在現(xiàn)代硬件上每小時能夠檢索超過150GB的數(shù)據(jù)，它擁有強大而高效的搜索算法。

　　46、Terracotta

　　聲稱其BigMemory技術(shù)是“世界上首屈一指的內(nèi)存中數(shù)據(jù)管理平臺”，支持簡單、可擴展、實時消息，聲稱在190個國家擁有210萬開發(fā)人員，全球1000家企業(yè)部署了其軟件。

　　47、 Ignite

　　是一種高性能、整合式、分布式的內(nèi)存中平臺，可用于對大規(guī)模數(shù)據(jù)集執(zhí)行實時計算和處理，速度比傳統(tǒng)的基于磁盤的技術(shù)或閃存技術(shù)高出好幾個數(shù)量級。該平臺包括數(shù)據(jù)網(wǎng)格、計算網(wǎng)格、服務網(wǎng)格、流媒體、Hadoop加速、高級集群、文件系統(tǒng)、消息傳遞、事件和數(shù)據(jù)結(jié)構(gòu)等功能。

　　48、GemFire

　　Pivotal宣布它將開放其大數(shù)據(jù)套件關(guān)鍵組件的源代碼，其中包括GemFire內(nèi)存中NoSQL數(shù)據(jù)庫。它已向Apache軟件基金會遞交了一項提案，以便在“Geode”的名下管理GemFire數(shù)據(jù)庫的核心引擎。

　　49、 GridGain

　　由Apache Ignite驅(qū)動的GridGrain提供內(nèi)存中數(shù)據(jù)結(jié)構(gòu)，用于迅速處理大數(shù)據(jù)，還提供基于同一技術(shù)的Hadoop加速器。

　　50、MongoDB

　　是一個基于分布式文件存儲的數(shù)據(jù)庫。由C++語言編寫。旨在為web應用提供可擴展的高性能數(shù)據(jù)存儲解決方案。介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的開源產(chǎn)品，是非關(guān)系數(shù)據(jù)庫當中功能最豐富、最像關(guān)系數(shù)據(jù)庫的產(chǎn)品。

　　51、Redis

　　是一個高性能的key-value存儲系統(tǒng)，和Memcached類似，它支持存儲的value類型相對更多，包括string（字符串）、list（鏈表）、set（集合）和zset（有序集合）。Redis的出現(xiàn)，很大程度補償了memcached這類key/value存儲的不足，在部分場合可以對關(guān)系數(shù)據(jù)庫起到很好的補充作用。

　　52、HDFS

　　Hadoop分布式文件系統(tǒng)(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點。HDFS是一個高度容錯性的系統(tǒng)，適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應用。

　　53、HBase

　　是Hadoop的數(shù)據(jù)庫，一個分布式、可擴展、大數(shù)據(jù)的存儲。是為有數(shù)十億行和數(shù)百萬列的超大表設計的，是一種分布式數(shù)據(jù)庫，可以對大數(shù)據(jù)進行隨機性的實時讀取/寫入訪問。提供類似谷歌Bigtable的存儲能力，基于Hadoop和Hadoop分布式文件系統(tǒng)（HDFS）而建。

　　54、Neo4j

　　是一個高性能的，NOSQL圖形數(shù)據(jù)庫，它將結(jié)構(gòu)化數(shù)據(jù)存儲在網(wǎng)絡上而不是表中。自稱“世界上第一個和最好的圖形數(shù)據(jù)庫”，“速度最快、擴展性最佳的原生圖形數(shù)據(jù)庫”，“最大和最有活力的社區(qū)”。用戶包括Telenor、Wazoku、ebay、必能寶（Pitney Bowes）、MigRaven、思樂（Schleich）和Glowbl等。

　　55、 Vertica

　　基于列存儲高性能和高可用性設計的數(shù)據(jù)庫方案，由于對大規(guī)模并行處理（MPP）技術(shù)的支持，提供細粒度、可伸縮性和可用性的優(yōu)勢。每個節(jié)點完全獨立運作，完全無共享架構(gòu)，降低了共享資源的系統(tǒng)競爭。

　　56、Cassandra

　　是一個混合型的非關(guān)系的數(shù)據(jù)庫，類似于Google的BigTable，其主要功能比Dynamo （分布式的Key-Value存儲系統(tǒng)）更豐富。這種NoSQL數(shù)據(jù)庫最初由Facebook開發(fā)，現(xiàn)已被1500多家企業(yè)組織使用，包括蘋果、歐洲原子核研究組織（CERN）、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他機構(gòu)。

　　57、CouchDB

　　號稱是“一款完全擁抱互聯(lián)網(wǎng)的數(shù)據(jù)庫”，它將數(shù)據(jù)存儲在JSON文檔中，這種文檔可以通過Web瀏覽器來查詢，并且用JavaScript來處理。它易于使用，在分布式上網(wǎng)絡上具有高可用性和高擴展性。

　　58、Dynamo

　　是一個經(jīng)典的分布式Key-Value 存儲系統(tǒng)，具備去中心化、高可用性、高擴展性的特點。Dynamo在Amazon中得到了成功的應用，能夠跨數(shù)據(jù)中心部署于上萬個結(jié)點上提供服務，它的設計思想也被后續(xù)的許多分布式系統(tǒng)借鑒。

　　59、 Amazon SimpleDB

　　是一個用Erlang編寫的高可用的NoSQL數(shù)據(jù)存儲，能夠減輕數(shù)據(jù)庫管理工作，開發(fā)人員只需通過Web服務請求執(zhí)行數(shù)據(jù)項的存儲和查詢，Amazon SimpleDB 將負責余下的工作。作為一項Web 服務，像Amazon的EC2和S3一樣，是Amazon網(wǎng)絡服務的一部分。

　　60、 Hypertable

　　是一個開源、高性能、可伸縮的數(shù)據(jù)庫，它采用與Google的Bigtable相似的模型。它與Hadoop兼容，性能超高，其用戶包括電子港灣、百度、高朋、Yelp及另外許多互聯(lián)網(wǎng)公司。

　　61、Kettle

　　這是一個ETL工具集，它允許你管理來自不同數(shù)據(jù)庫的數(shù)據(jù)，通過提供一個圖形化的用戶環(huán)境來描述你想做什么，而不是你想怎么做。作為Pentaho的一個重要組成部分，現(xiàn)在在國內(nèi)項目應用上逐漸增多。

　　62、 Kylin

　　是一個開源的分布式分析引擎，提供了基于Hadoop的超大型數(shù)據(jù)集（TB/PB級別）的SQL接口以及多維度的OLAP分布式聯(lián)機分析。最初由eBay開發(fā)并貢獻至開源社區(qū)。它能在亞秒內(nèi)查詢巨大的Hive表。

　　63、 Kibana

　　是一個使用Apache 開源協(xié)議的Elasticsearch 分析和搜索儀表板，可作為Logstash和ElasticSearch日志分析的 Web 接口，對日志進行高效的搜索、可視化、分析等各種操作。

　　64、 Druid

　　是一個用于大數(shù)據(jù)實時查詢和分析的高容錯、高性能、分布式的開源系統(tǒng)，旨在快速處理大規(guī)模的數(shù)據(jù)，并能夠?qū)崿F(xiàn)快速查詢和分析。

　　65、 KNIME

　　全稱是“康斯坦茨信息挖掘工具”（Konstanz Information Miner），是一個開源分析和報表平臺。宣稱“是任何數(shù)據(jù)科學家完美的工具箱，超過1000個模塊，可運行數(shù)百個實例，全面的集成工具，以及先進的算法”。

　　66、Zeppelin

　　是一個提供交互數(shù)據(jù)分析且基于Web的筆記本。方便你做出可數(shù)據(jù)驅(qū)動的、可交互且可協(xié)作的精美文檔，并且支持多種語言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

　　67、Azkaban

　　一款基于Java編寫的任務調(diào)度系統(tǒng)任務調(diào)度，來自LinkedIn公司，用于管理他們的Hadoop批處理工作流。Azkaban根據(jù)工作的依賴性進行排序，提供友好的Web用戶界面來維護和跟蹤用戶的工作流程。

　　68、 Splunk

　　是機器數(shù)據(jù)的引擎。使用 Splunk 可收集、索引和利用所有應用程序、服務器和設備（物理、虛擬和云中）生成的快速移動型計算機數(shù)據(jù)，從一個位置搜索并分析所有實時和歷史數(shù)據(jù)

　　69、Pentaho

　　是世界上最流行的開源商務智能軟件，以工作流為核心的、強調(diào)面向解決方案而非工具組件的、基于java平臺的商業(yè)智能(Business Intelligence)套件。包括一個web server平臺和幾個工具軟件：報表、分析、圖表、數(shù)據(jù)集成、數(shù)據(jù)挖掘等，可以說包括了商務智能的方方面面。

　　70、Jaspersoft

　　提供了靈活、可嵌入的商業(yè)智能工具，用戶包括眾多企業(yè)組織：高朋、冠群科技、美國農(nóng)業(yè)部、愛立信、時代華納有線電視、奧林匹克鋼鐵、內(nèi)斯拉斯加大學和通用動力公司。

　　71、 SpagoBI

　　Spago被市場分析師們稱為“開源領(lǐng)袖”，它提供商業(yè)智能、中間件和質(zhì)量保證軟件，另外還提供相應的Java EE應用程序開發(fā)框架。

　　72、Lumify

　　歸Altamira科技公司（以國家安全技術(shù)而聞名）所有，這是一種開源大數(shù)據(jù)整合、分析和可視化平臺。

　　73、Lingual

　　是Cascading的高級擴展，為Hadoop提供了一個ANSI SQL接口極大地簡化了應用程序的開發(fā)和集成。Lingual實現(xiàn)了連接現(xiàn)有的商業(yè)智能（BI）工具，優(yōu)化了計算成本，加快了基于Hadoop的應用開發(fā)速度。

　　74、Beam

　　基于Java提供了統(tǒng)一的數(shù)據(jù)進程管道開發(fā)，并且能夠很好地支持Spark和Flink。提供很多在線框架，開發(fā)者無需學太多框架。

　　75、Cascading

　　是一個基于Hadoop建立的API，用來創(chuàng)建復雜和容錯數(shù)據(jù)處理工作流。它抽象了集群拓撲結(jié)構(gòu)和配置，使得不用考慮背后的MapReduce，就能快速開發(fā)復雜的分布式應用。

　　76、HPCC

　　作為Hadoop之外的一種選擇，是一個利用集群服務器進行大數(shù)據(jù)分析的系統(tǒng)，HPCC在LexisNexis內(nèi)部使用多年，是一個成熟可靠的系統(tǒng)，包含一系列的工具、一個稱為ECL的高級編程語言、以及相關(guān)的數(shù)據(jù)倉庫，擴展性超強

　　77、Hivemall

　　結(jié)合了面向Hive的多種機器學習算法，它包括了很多擴展性很好的算法，可用于數(shù)據(jù)分類、遞歸、推薦、k最近鄰、異常檢測和特征哈希等方面的分析應用。

　　78、 RapidMiner

　　具有豐富數(shù)據(jù)挖掘分析和算法功能，常用于解決各種的商業(yè)關(guān)鍵問題，解決方案覆蓋了各個領(lǐng)域，包括汽車、銀行、保險、生命科學、制造業(yè)、石油和天然氣、零售業(yè)及快消行業(yè)、通訊業(yè)、以及公用事業(yè)等各個行業(yè)。

　　79、 Mahout

　　目的是“為快速創(chuàng)建可擴展、高性能的機器學習應用程序而打造一個環(huán)境”，主要特點是為可伸縮的算法提供可擴展環(huán)境、面向Scala/Spark/H2O/Flink的新穎算法、Samsara（類似R的矢量數(shù)學環(huán)境），它還包括了用于在MapReduce上進行數(shù)據(jù)挖掘的眾多算法。

　　80、Tableau

　　Tableau 是一款企業(yè)級的大數(shù)據(jù)可視化工具。Tableau 可以讓你輕松創(chuàng)建圖形，表格和地圖。它不僅提供了PC桌面版，還提供了服務器解決方案，可以讓您在線生成可視化報告。服務器解決方案可以提供了云托管服務。Tableau的客戶包括巴克萊銀行，Pandora和Citrix等企業(yè)

　　81、Infogram

　　Infogram的最大優(yōu)勢在于，讓您的可視化信息圖表與實時大數(shù)據(jù)相鏈接。只須三個簡單步驟，您可以選擇在眾多圖表，地圖，甚至是視頻可視化模板中進行選擇。 Infogram支持團隊賬號。

　　82、ChartBlocks

　　ChartBlocks是一個易于使用在線工具，它無需編碼，便能從電子表格，數(shù)據(jù)庫中構(gòu)建可視化圖表。整個過程可以在圖表向?qū)У闹笇峦瓿?。您的圖表將在HTML5的框架下使用強大的Java庫D3.js創(chuàng)建圖表。你的圖表是響應式的，并且可以和任何的屏幕尺寸及設備兼容。您還可以將圖表嵌入任何網(wǎng)頁中，分享在Twitter和Facebook上。

　　83、Datawrapper

　　Datawrapper是一款專注于新聞和出版的可視化工具。華盛頓郵報，衛(wèi)報，華爾街日報和Twitter等媒體都使用了這一工具。Datawrapper非常容易使用，不需要任何編程基礎(chǔ)。你只需要上傳你的數(shù)據(jù)，便能輕松地創(chuàng)建和發(fā)布圖表，甚至是地圖。Datawrapper提供了眾多的自定義布局及地圖模板。

　　84、Plotly

　　Plotly幫助你在短短幾分鐘內(nèi)，從簡單的電子表格中開始創(chuàng)建漂亮的圖表。Plotly已經(jīng)為谷歌、美國空軍和紐約大學等機構(gòu)所使用。 Plotly是一個非常人性化的網(wǎng)絡工具，讓你在幾分鐘內(nèi)啟動。如果你的團隊希望為JavaScript和Python等編程語言提供一個API接口的話，Plotly是一款非常人性化的工具。

　　85、RAW

　　RAW彌補了很多工具在電子表格和矢量圖形（SVG）之間的缺失環(huán)節(jié)。你的大數(shù)據(jù)可以來自MicrosoftExcel中，谷歌文檔或是一個簡單的逗號分隔的列表。它最厲害的功能是可以很容易地導出可視化結(jié)果，因為它和Adobe Illustrator，Sketch 和Inkscape是相容的。

　　86、Visual.ly

　　isual.ly是一個可視化的內(nèi)容服務。它提供專門的大數(shù)據(jù)可視化的服務，用戶包括了VISA，耐克，Twitter，福特和國家地理等。如果你想完全外包可視化文件給第三方。你可以使用非常簡化的在線流程：你只需描述你的項目，服務團隊將在項目的整個持續(xù)時間內(nèi)和你在一起。 Visual.ly給您發(fā)送所有項目關(guān)鍵點的郵件通知，也將讓你不斷給出反饋。

　　87、D3.js

　　毋容置疑D3.js是最好的數(shù)據(jù)可視化工具庫。D3.js運行在JavaScript上，并使用HTML，CSS和SVG。 D3.js是開源工具，使用數(shù)據(jù)驅(qū)動的方式創(chuàng)建漂亮的網(wǎng)頁。 D3.js可實現(xiàn)實時交互。這個庫非常強大和前沿，所以它帶有沒有預置圖表也不支持IE9。

　　88、Ember Charts

　　Ember Charts – 顧名思義是一種基于Ember.js框架和使用d3.js的可視化工具。Ember Charts以繪制時間序列圖，柱狀圖，餅圖和散點圖為主。它非常優(yōu)易于擴展。同為Ember.js開發(fā)團隊，Ember Charts聚焦于圖形互動性。它有極強的錯誤處理能力，當你遇到壞數(shù)據(jù)時，系統(tǒng)也不會崩潰

　　89、NVD3

　　NVD3運行在d3.js之上, 它可建立可重用的圖表組件。該項目的目標是保持所有的圖表整潔和可定制性。 NVD3是d3.js之上的簡單的接口，保持了d3.js的所有強大功能。 NVD3由Novus Partners前端工程師開發(fā)和使其保持了圖表技術(shù)洞察力。

　　90、Google Charts

　　Google Charts 以HTML5和SVG為基礎(chǔ)，充分考慮了跨瀏覽器的兼容性，并通過VML支持舊版本的IE瀏覽器。所有您將創(chuàng)建的圖表是交互式的，有的還可縮放。Google Charts是非常人性化和他們的網(wǎng)站擁有一個非常好的，全面的模板庫，你可以從中找到所需模板。

　　91、FusionCharts

　　FusionCharts是最全面的JavaScript圖表庫，包括90個圖表和900種地圖。如果你不是特別喜歡的JavaScript。FusionCharts可以輕松集成像jQuery庫，Angularjs和React框架以及ASP.NET和PHP語言。 FusionCharts支持JSON和XML數(shù)據(jù)，并提供許多格式圖表：PNG，JPEG，SVG和PDF。

　　92、Highcharts

　　Highcharts是一個JavaScript API與jQuery的集成，全球最大的100家公司中有61家正在使用它。圖表使用SVG格式，并使用VML支持舊版瀏覽器。它提供了兩個專門的圖表類型：Highstock和Highmaps，并且還配備了一系列的插件。你可以免費使用它，而如果你想建立付費的應用，只須支付少量牌照費用。此外，你還可以使用Highcharts云服務。

　　93、Chart.js

　　對于一個小項目的圖表，chart.js是一個很好的選擇。開源，只有11KB大小，這使得它快速且易于使用，它支持多種圖表類型: 餅圖，線性圖和雷達圖等。

　　94、Leaflet

　　你是否專注于專業(yè)的大數(shù)據(jù)解決方案？無需餅圖和條形圖？Leafleft 基于Open Street Map數(shù)據(jù)，使用HTML5 / CSS3繪制互動式可視化圖。您可以使用他們的擴展插件庫添加熱點圖（heatmaps）和動畫標記。 Leaflet 是開源和只有33 KB大小。

　　95、Chartist.js

　　Chartist.js的開發(fā)社區(qū)一直致力于打敗所有其他JavaScript圖表庫。它使用了Sass的個性化風格，它的SVG輸出是響應式的。

　　96、n3-charts

　　N3-charts是一種基于AngularJS框架的工具。它建立在D3.js之上，幫助您創(chuàng)建簡單的互動圖表。 N3-charts是一種小型化的圖表工具，不適用于大型項目。

　　97、 Sigma JS

　　Sigma JS 是交互式可視化工具庫。由于使用了WebGL技術(shù)，你可以使用鼠標和觸摸的方式來更新和變換圖表。Sigma JS同時支持JSON和GEXF兩種數(shù)據(jù)格式。這為它提供了大量的可用互動式插件。Sigma JS 專注于網(wǎng)頁格式的網(wǎng)絡圖可視化。因此它在大數(shù)據(jù)網(wǎng)絡可視化中非常有用。

　　98、Polymaps

　　Polymaps是一款地圖可視化一個JavaScript工具庫。 Polymaps使用SVG實現(xiàn)從國家到街道一級地理數(shù)據(jù)的可視化。您可以使用CSS格式來修改你的樣式。Polymaps使用GeoJSON來解釋地理數(shù)據(jù)。它是創(chuàng)建heatmap熱點圖的最好的工具之一。您創(chuàng)建的所有地圖都可以變成動態(tài)圖。

　　99、Processing.js

　　Processing.js是一個基于可視化編程語言的JavaScript庫。作為一種面向Web的JavaScript庫，Processing.js是您能夠有效進行網(wǎng)頁格式圖表處理。這使得它成為了一種非常好交換式可視化工具。 Processing.js需要一個兼容HTML5的瀏覽器來實現(xiàn)這一功能。

　　100、Pentaho BI

　　Pentaho BI 平臺不同于傳統(tǒng)的BI 產(chǎn)品，它是一個以流程為中心的，面向解決方案（Solution）的框架。其目的在于將一系列企業(yè)級BI產(chǎn)品、開源軟件、API等等組件集成起來，方便商務智能應用的開發(fā)。它的出現(xiàn)，使得一系列的面向商務智能的獨立產(chǎn)品如Jfree、Quartz等等，能夠集成在一起，構(gòu)成一項項復雜的、完整的商務智能解決方案。

　　注：本文來源簡書，作者：小維斗，版權(quán)著作權(quán)屬原創(chuàng)者所有，原文鏈接www.jianshu.com/p/fdb7cf825f37 編輯：Fynlch（王培），數(shù)據(jù)觀微信公眾號（ID:cbdioreview），欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊，可搜索數(shù)據(jù)觀（中國大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)www.21jieyan.cn）進入查看。

責任編輯：王培

精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

2017干貨分享丨全球100款大數(shù)據(jù)工具匯總（附圖）