【IT】今なぜApache Sparkが急成長しているのか…各種現場での実用速度を達成したビッグデータ分析@Next2ch

1名無しさん@Next2ch:2015/03/20(金) 16:43:26.32 ID:???

編集者注記:
Vaibhav Nivargiはデータ分析サービスのプロバイダClearStory Dataのファウンダでチーフアーキテクト。

今週はApache Sparkの、今急速に大きくなりつつあるコミュニティがニューヨークに集まり
自分たちのコラボレーションにより
Sparkが今日のもっとも人気の高いオープンソースプロジェクトに育ったことを祝った。

U.C. BerkeleyのAMPLabで2009年にローンチした
Apache Sparkは、最近の1年半で急激に人気を高めた。
Sparkのコントリビュータは2014年で500名近くになり
Apache Software Foundationと世界中のオープンソースのビッグデータプロジェクトの中で
もっともアクティブなプロジェクトになっている。

われわれも、かなり早い時期から、このクラスタコンピューティングのプラットホームに着目し
もはや自分のソフトウェアをすべてスクラッチで作る時代ではない、と感じていた。

それはインメモリの並列処理により、同じくインメモリのHadoop MapReduceの
100倍速くプログラムを動かすことができ、ディスクを使った場合でも10倍は速い。
これによって複数(〜数10件)のデータソースを瞬時にしてブレンドしたり、統一することができる。

2名無しさん@Next2ch:2015/03/20(金) 16:44:14.96 ID:???

Gartnerによると、2016年には全企業の73%がビッグデータに投資していると思われるが
しかしそれでも、大半の企業はビッグデータのメリットを十分に生かすことができない…
彼らはビッグデータを十分に管理できないからだ。

Sparkは今多くの企業や団体が採用しており
2014年のGray Sort Benchmark、Daytona 100TBカテゴリーではソートの世界記録を樹立した。

ビッグデータを扱う場合Sparkには、Hadoopとの互換性という利点もあり
また、そのリッチなAPIにより、JavaやPython、Scala、それにSQLなど、人気の高い言語で
ソフトウェアのコードをよりシンプルに書ける。
構造化データと非構造化データの両方を扱え、機械学習やデータマイニングもサポートしている。

Sparkを全面的に統合したアプリケーションは、さまざまな分野の企業の指導者たちに
反復的データ集合の巨大なワークロードを、これまでに彼らが想像したことがないほど高い効率性で処理して
そこから得られるインサイトを提供する。
どんなに大きくて複雑なデータに対しても、われわれはSparkによって初めて、データを探究する自由を獲得する。
企業内で日々、あちこちに数多くの‘データの孤島’が肥大していても、もはや臆する必要はない。

(全文はリンク先で)

以下ソース
http://jp.techcrunch.com/2015/03/20/20150319on-the-growth-of-apache-spark/


このスレッドは過去ログです。