«

»

2月 08

Hadoop / Spark Conference Japan 2016(2月8日、東京)講演・LTのプログラム・講演資料


日本Hadoopユーザー会主催イベント「Hadoop Conference Japan 2016」「Spark Conference Japan 2016」を2月8日に東京・品川区内で開催しました。

今回は、Spark Conference Japanをはじめて併催しました。Apache Sparkの主要開発者である Xin Reynold 氏(Databricks)をお招きして、次期バージョンSpark 2.0の最新情報をご紹介頂きました。 様々な講演者が集結し、技術トピックはもちろんのこと、Yahoo! Japan、さくらインターネット、niconico、ソフトバンク、ローソン、リクルートライフスタイル、IHI等によるHadoop / Sparkの事例・取り組みも紹介されました。また、皆様に投票にご協力頂いたライトニングトーク選定の結果にもとづき魅力的な22件に発表頂きました。

このほか、会場内では、Hadoopゾウさんの登場、きらきらシールの配布、Hadoop/Spark書籍の特別販売、ランチやドリンクなどのご提供などを実施しました。

イベントWebサイト: https://hcj2016.eventbrite.com/

hcj2016

▲懇親会での集合写真

イベントの様子等は次のページでも取り挙げて頂いています
・ Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく (Publickey)
・ Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定 (Publickey)
・ Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく (Publickey)
YARN、HDFS、そしてSparkの将来像とは:「Hadoop/Spark Con」基調講演 (ZDNet Japan)
変化の先にある進化,そして本当の浸透をめざすHadoopとSpark (Gihyo.jp)
先進ユーザーがリードするHadoop/Spark応用事例~Sparkで5倍の性能アップ~ (ThinkIT)
Beyond Hadoop ─Databricks共同創業者に訊くApache Sparkのポテンシャル (Gihyo.jp)
Hadoopは分散処理のプラットフォームになる~米Clouderaエンジニア (クラウドWatch)

 


■日時
2016年2月8日(月) 10:00~19:00 (受付開始 9:30)

■会場
きゅりあん (東京都品川区、大井町駅すぐ)

■主催
日本Hadoopユーザ会

■スポンサー(申込順)
リクルートテクノロジーズ、MapR Technologies、Cloudera、日本アイ・ビー・エム、Hortonworks Japan、NTTデータ

■プログラム

  Keynote
10:00 ご挨拶、Hadoopを取り巻く環境2016 [講演資料]
 濱野 賢一朗 (日本Hadoopユーザー会, NTTデータ)
Hadoopの現在と未来 [講演資料]
 鯵坂 明(Hadoopコミッタ)、小沢 健史(Hadoopコミッタ)
Yahoo! JAPANのデータプラットフォームの全体像と未来
 遠藤 禎士(ヤフー)
Hadoopのストレージの現状と展望 [講演資料]
 Todd Lipcon(Cloudera)
Spark Conference Japanの開催にあたって [講演資料]
 猿田 浩輔(Apache Sparkコミッタ)
Spark 2.0: What’s Next [講演資料]
 Reynold Xin(Databricks)
さくらインターネットが構築した、Apache Sparkによる原価計算システム
 須藤 武文(さくらインターネット)
  A会場
B会場
C会場
D会場
ランチ会場
ライトニングトーク
ランチ会場
ライトニングトーク
ランチ会場
Apache Spark 超入門 [講演資料]
猿田 浩輔(NTTデータ)
13:00 データドリブン企業における、Hadoop基盤とETL ~niconicoでの実践例~ [講演資料1] [講演資料2]
嶋内 翔(Cloudera)
志村 誠(ドワンゴ)
YARN: Resource Manager for Analytic Platform
小沢 健史(NTT)
ストリーミングアーキテクチャ: State から Flow へ [講演資料]
草薙 昭彦(MapR Technologies)
次世代アーキテクチャから見たHadoop/Sparkの位置づけ ~特にRDMA・NVMを軸としたときの分散並列処理の観点から
神林 飛志(ノーチラステクノロジーズ)
13:45 On-Premises Hadoopクラスタ構築の苦労体験と運用ノウハウ
松浦 晋(SoftBank)
関谷 雅宏(SoftBank)
KuduによるHadoopのトランザクションアクセスと分析パフォーマンスのトレードオフ解消 [講演資料]
Todd Lipcon(Cloudera)
リクルートライフスタイルの考えるストリームデータの活かし方 ~AWS + Kafka + Spark Streaming~ [講演資料]
車田 篤史(リクルートライフスタイル)
堤 崇行(NTTデータ)
ビッグデータ可視化の性能を徹底検証 ~SparkSQL、Hive on Tez、Hive LLAPを用いた既存RDBデータ処理の特徴~ [講演資料]
新郷 美紀(NEC)
蒋 逸峰(Hortonworks)
14:30 顧客事例から学んだ、エンタープライズでの”マジな”Hadoop導入の勘所 [講演資料]
立山 重幸(日本オラクル)
今あらためて考えるHive ~ユースケースの広がりにより顕在化した課題と対応~
吉田 耕陽(NTTデータ)
さくらインターネットが構築した、Apache Sparkによる原価計算システムの仕組みとその背景
須藤 武文(さくらインターネット)
Spark MLlib Now and Beyond [講演資料]
石川 有(リクルートテクノロジーズ)
15:15 基幹業務もHadoopで!! ~ローソンにおける店舗発注業務へのHadoop + Hive導入と、 その取り組みについて~ [講演資料]
須田 桂伍(フューチャーアーキテクト)
Hiveを高速化するLLAP [講演資料]
小澤 祐也(ヤフー)
Deep Dive into Project Tungsten [講演資料]
Reynold Xin(Databricks)
SparkによるGISデータを題材とした時系列データ処理 [講演資料]
鈴木 由宇(IHI)
土橋 昌(NTTデータ)
16:00 Maintainable Cloud Architecture of Hadoop [講演資料]
佐々木 海(Treasure Data)
Hadoop Security Recap: -セキュリティ関連の概要/近況のおさらいとLDAP/AD, Kerberos, Apache Ranger [講演資料]
今井 雄太(Hortonworks)
Exploiting GPUs in Spark [講演資料]
石崎 一明(日本アイ・ビー・エム)
Hive on Sparkを活用した高速データ分析 [講演資料]
加嵜 長門 (DMM.comラボ)
   懇親会・ライトニングトーク (17:00-19:00) - 参加費:2000円

 ■ ライトニングトーク

▼ランチタイム: A会場

  • いろいろなストリーム処理プロダクトをベンチマークしてみた [発表資料] (三木 健司, ヤフー)
  • 僕の考える最強のビックデータエンジニア [発表資料] (山田 雄, リクルートライフスタイル)
  • TensorFlowの分散処理技術とGoogleの機械学習プロダクト [発表資料] (佐藤 一憲, Google)
  • 金融機関でのHive/Presto事例紹介 [発表資料] (岩永 亮介, Amazon Web Services Japan)
  • サポートメンバは見た! Hadoopバグワースト10 [発表資料] (鯵坂 明, NTTデータ)
  • 本当にあったHadoopの恐い話~Blockはどこへきえた? [発表資料] (山下 真一, NTTデータ)

▼ランチタイム: B会場

  • 自動的なビッグデータ機械学習技術:Spark上で複数の学習アルゴリズムの自動選択が可能に [発表資料] (上田 晴康, 富士通研究所)
  • Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発 [発表資料] (河原 亮, 日本アイ・ビー・エム)
  • JVM, OSレベルのチューニングによるSparkアプリケーションの最適化 [発表資料] (千葉 立寛, 日本アイ・ビー・エム
  • データサイエンスにおける一次可視化からのSpark on Elasticsearchの利用 (大木 基至, NTTコミュニケーションズ)
  • グラフデータベース事始め [発表資料] (中井 亮矢, 日本オラクル)
  • GunosyにおけるSpark Streaming活用事例 [講演資料] (森本 淳司, Gunosy)

▼懇親会

  • NetflixにおけるPresto/Spark活用事例 [発表資料] (岩永 亮介, Amazon Web Services Japan)
  • Fluentd and Kafka [発表資料] (Masahiro Nakagawa, Treasure Data)
  • スキーマつきストリームデータ処理基盤、Confluent Platformとは? [発表資料] (木村 宗太郎, ドワンゴ)
  • 5分で身に付く! Apache Hadoop開発 [発表資料] (鯵坂 明, NTTデータ)
  • NIIでいろいろなHadoop環境(だけじゃないけど)を作ったり壊したり動かし続けたりしている話 [発表資料] (谷沢 智史, ボイスリサーチ)
  • 運用作業の証跡も,再利用する手順の記述も,教材作成もLiterate Computingでやってみる [発表資料] (政谷 好伸, 国立情報学研究所)
  • Spark Streamingで作る、つぶやきビッグデータのクローン [発表資料] (野田 純一, GMOインターネット, 秋葉原IT戦略研究所)
  • Mesos/Hashicorpで実現するSparkの柔軟な実行環境 (木内 満歳, クリエーションライン)
  • Apache Sparkがリアルタイム分析でNOSQLのApache Cassandraに出会った。(ウルルン風) [発表資料] (原沢 滋, DataStax)
  • Apache Kylinについて [発表資料] (古山 慎悟, ヤフー)

■ キーノート

『Yahoo! JAPANのデータプラットフォームの全体像と未来』

 講演者: 遠藤禎士, ヤフー株式会社 データ&サイエンスソリューション統括本部 データインフラ本部 開発3部 部長

Yahoo! JAPANの様々なデータプラットフォームの全体像についてお話しいたします。今まで断片的に情報を公開してきましたが、Hadoopに加えてKVS、 DWH、RDB、ObjectStorageを含めたデータプラットフォーム全体を俯瞰的に説明いたします。Hadoopを中心として、Yahoo! JAPANのビックデータをどう全体最適し、どう活用しているか、利用事例を交えつつ我々が目指す世界観をお伝えできればと思います。

 

『Hadoop のストレージの現状と展望』

 講演者: Todd Lipcon, Cloudera

Apache Hadoop が誕生して今年で10年、ディスクからの高速なシーケンシャルリードに特化した分散ファイルシステム「Hadoop Distributed File System (Apache HDFS)」は、Hadoop におけるストレージ層のデファクトスタンダードとなっています。一方、HDFS 上の NoSQL「Apache HBase」も、小さいデータの取り扱いや更新・挿入処理の不得意な HDFS を補完する形で頻繁に利用されています。しかし、HDFS と HBase は、それらを使うために相互にデータを変換する必要があり、「高速なシーケンシャルリードと高速な更新・挿入」を同時に行いたいというニーズに応えること はできませんでした。また、10年前、Hadoop が誕生したときは、メモリはまだ高価で、そしてディスクの速度がボトルネックになっていた時代でした。SSDは当たり前となり、メモリも安価となった現代 において、HDFS のアーキテクチャは十分と言えるのでしょうか?このセッションでは、Hadoop のストレージ層である HDFS や HBase を振り返りつつ、将来のストレージ層はどうあるべきかについての展望を示します。

『Spark 2.0: What’s Next』

 講演者: Reynold Xin. Databricks

In this talk, Reynold will look back and review Apache Spark’s growth in adoption, use cases, and development. He will then look forward to 2016, with a focus on various major initiatives in Spark 2.0. 

■ A会場

『データドリブン企業における、Hadoop基盤とETL ~niconicoでの実践例~』

 講演者: 嶋内 翔, Cloudera、志村 誠,ドワンゴ

ETL(Extract, Transform, Load) は、外部のソースからデータを抽出し、業務上必要な形に加工し、データ基盤にロードするための一連の技術です。Hadoopの登場により、スケーラブルか つ柔軟なスキーマ構造を持つデータレイヤーであるHDFSに代表される、ETLにおける多くの物理アーキテクチャに変化がもたらされました。しかし一方 で、ETLそのものの論理的な必要性は変わっておらず、実際の現場では様々な課題が山積みとなっています。このセッションでは、Flume / Kafka / Sqoop / Hive / Pig / Spark などの HadoopエコシステムによるETLの変革を紹介するとともに、実システムにおけるETLの現実と様々な課題について紹介していきます。

 

『On-Premises Hadoopクラスタ構築の苦労体験と運用ノウハウ』

  講演者: 松浦 晋, SoftBank Corp.

弊 社において構築し、利用を開始しているHadoopクラスタについて発表いたします。当初AnsibleとFabricを併用することにより、構築・運用 を実施しようとしておりましたが、大容量に対するTeragen/Terasortが実行しきれない等の問題を抱えており、難航しておりました。 HadoopDistributorと強調して原因調査、構築作業を実施することにより、OSのバグに当っていた等の原因を究明し、上記問題を解決できて おります。また、弊社の環境においてはWhiteBoxサーバを用いて構築しており、WhiteBoxならではのオペレーションについて情報共有いたしま す。

 

『顧客事例から学んだ、エンタープライズでの”マジな”Hadoop導入の勘所』

 講演者: 立山 重幸, 日本オラクル

い よいよHadoopもキャズムを超えて、いわゆる“フツーの会社”がHadoopを、“マジで”活用する顧客事例が増えてきています 本セッションでは国内外を含めたそれら最新事例をご紹介すると同時に、実際にエンタープライズで利用する際に、データベースに一般的に求められるセキュリ ティやバックアップをはじめとするSLA要件にHadoopでどう対応すべきか、 またその際の注意点は何で、どう解決すればよいかといった“フツーの会社”が、“マジで”Hadoopを導入する際のポイントをシミジミとお話します

『基幹業務もHadoopで!! ~ローソンにおける店舗発注業務へのHadoop + Hive導入と、 その取り組みについて~』

 講演者: 須田 桂伍, フューチャーアーキテクト株式会社

講 演内容はコンビニチェーンローソンでの基幹業務領域へのHadoop導入事例についてです。これまで全国のローソン店舗毎に行われていた商品発注時に利用 するマスタデータ作成処理をセンター集約し、全店舗分のマスタデータ作成をHadoop+Hive(インフラはAWS)による日次バッチ処理にて実施する システムを構築しています。現在開発中ではありますが、本事例を通してHadoopの選定/導入過程(なぜ基幹領域においてRDBではなくHadoopの 導入に至ったのか)や、実際にどのようにチーム開発を進め、その中でどういったポイントを工夫しているのかについて、基幹領域へのHadoop導入の勘所 とともに発表させていただければと思います。また、開発時のノウハウや苦労話だけでなく、クラウドサービスのHadoopクラスタ(Amazon EMR)を利用してみての所感についてもお伝えできればと思います。

『Maintainable Cloud Architecture of Hadoop』

 講演者: 佐々木 海, Treasure Data. Inc

Hadoop を利用して巨大なデータから素早く価値を生み出すというのは多くの企業内で一般的な姿になりました。しかしそのHadoopを安定的にかつ効率的に運用し ていくためには多くの人と時間、そして技術が必要です。このセッションではTreasure Data内で使われているHadoopをmaintainableにしていくために必要な具体的な技術、ノウハウをご紹介します。 キーワード→「Stateless Hive metastore」「Rest API for Hadoop」「Multiple version management」「Problematic Query」「Workflow Integration」

■ B会場

『YARN: Resource Manager for Analytic Platform』

 講演者: 小沢 健史, NTT

Hadoop YARN は,Hadoop エコシステム内において計算機資源の管理を行うためのコンポーネントです.多種多様なデータ分析の需要に応えるため,Spark,Tez,Flink といった多くの分析基盤がYARN 上で動作します.本講演では,これらのデータ分析基盤が YARN 上でどのような動作をするのかについて,Spark の動的リソース割り当て機構や,Tez のコンテナ再利用および LLAP(Long-Lived and Process)といった最適化機構に触れつつ,詳細に述べます.また,YARN の新しいジョブ履歴管理機能である Timeline Server について,目的,アーキテクチャ,そして Spark/Tez といった DAG ベースの分散処理基盤がどのようにTimeline Server を利用するかについて,詳細に説明します.

 

『KuduによるHadoopのトランザクションアクセスと分析パフォーマンスのトレードオフ解消』

  講演者: Todd Lipcon, Cloudera

Hadoop エコシステムは、過去数年間でそのリアルタイム・アクセス性能において大きな進歩を遂げ、従来のデータベース技術との差も縮まりました。しかし未だ多くの アプリケーションにおいて、Hadoopベースのアーキテクチャーへの移行を妨げる大きな課題が残存します:たとえば、Apache Parquetのようなカラムナ・ストレージフォーマットは、非常に高速なスキャンレートでの解析を可能にしますが、リアルタイムの変更処理や列によるイ ンデックスアクセス機能は十分ではありません。逆に、HBaseでは、非常に高速なランダム・アクセスを実現しますが、大規模データウェアハウスのワーク ロードに対するスキャンレートは、まだまだ遅いというのが実情です。今回の講演では、リアルタイムトランザクション処理と高速な分析処理の間の、パフォー マンスのトレードオフについて、ストレージ処理エンジンの内部的な視点から考察します。また、このようなギャップを埋め、HDFSやHBaseを補完し、 同じAPIで高速なスキャンとランダム・アクセスを同時に実現するためにオープンソースHadoopエコシステムに新たに追加された、Kuduについても 言及します。

 

『今あらためて考えるHive ~ユースケースの広がりにより顕在化した課題と対応~』

 講演者: 吉田 耕陽, NTTデータ OSSプロフェッショナルサービス

Apache Hive(以下、Hive)は、Hadoop上で動作するSQLライクなインターフェースとして数あるHadoopエコシステムの中でも最も利用されるプロダクトとなっています。 複数のSQL on Hadoop製品が台頭する現状においてもバッチ処理分野においては依然としてデファクトであり、NTTデータにおいてもHadoop関連の案件で、様々 なユースケースにおいて適用・導入してきました。本セッションでは、数年に渡ってHiveを導入してきた立場から、最新のHive利用についてのノウハウ を紹介します。

『Hiveを高速化するLLAP』

 講演者: 小澤 祐也, ヤフー株式会社

Hive2.0.0 に実装される予定のLLAP(Long Live and Process)の解説を行う。LLAPはHadoop上で常時起動し続けるとともに頻繁にアクセスされるデータのキャッシュを行うことで、Hiveの高 速化を図ることを目的としたシステムである。従来の後続の処理に引き渡すためのバッチ処理での集計・加工のみならず、大規模データに対するリアルタイムに 近い速度の処理を実現を実現することを目指すものである。

『Hadoop Security Recap: ~セキュリティ関連の概要/近況のおさらいとLDAP/AD, Kerberos, Apache Ranger』

 講演者: 今井 雄太, Hortonworks

会 社や組織内で利用されるHadoopクラスタのセキュリティ、特に認証認可の設計や実装に困ったことはありませんか?YARNによりHadoopのマルチ テナント化、マルチワークロード化が容易になりました。しかし、様々なユーザーが利用するHadoopクラスタを構築する際には認証/認可/監査などが必 要になることも多いでしょう。このセッションでは現在のHadopoを取り巻くセキュリティ関連のエコシステムについてのおさらいからスタートします。後 半は認証認可を提供する仕組みとしてKerberos認証とLDAP/ADとのIDフェデレーション、さらにApache Rangerによる認可について動作の仕組みや実装方法をディープに紹介していきます。マルチテナントなクラスタの設計や運用でお悩みの方はぜひ!もちろ ん、Hadoopのセキュリティってどうなの?という漠然とした不安をお持ちの方もぜひ。

■ C会場

『Apache Spark超入門』

 講演者: 猿田 浩輔, NTTデータ, Apache Sparkコミッタ(主要開発者)

Spark Conference Japanに参加してみるものの、Apache Sparkって本当はどういうものだっけ、ちゃんと説明するのは難しいな・・・という方もおられると思います。ランチタイム中に、Apache Sparkとはどのようなソフトウェアなのか、どのような使い方に適しているのか、どのような周辺ソフトウェアがあるのか、Hadoopとどう違うのか、 について速習し、午後の講演を聴くにあたっての予習になるよう目指します。

 

『ストリーミングアーキテクチャ: State から Flow へ』

  講演者: 草薙 昭彦, MapR Technologies

ビッ グデータの処理モデルとしては、最近までバッチ処理が中心でした。これは特に Hadoop のフレームワークとしての MapReduceの普及と、これを置き換えることの難しさが大きく影響していました。ところが最近、 Apache Spark や Apache Kafka のようなストリーミングアーキテクチャを採用する例が出てきています。これらはシステムをシステムをシンプルかつロバストにするという観点で大きなメリッ トがありますが、一方で従来のメッセージキューイングの設計と大きな違いがあります。結果として、レイテンシを低く抑えつつ高いスケーラビリティと耐障害 性を得ることができます。この講演では、「Percolators」「Big-data oscilloscope」「Replayable queues」「State-point queuing」「Universal micro-architectures」といった考え方や設計パターンを例に挙げながら、モダンなストリーミングシステムの構築の指針をご紹介します。

 

『リクルートライフスタイルの考えるストリームデータの活かし方 ~AWS + Kafka + Spark Streaming~』

 講演者: 車田 篤史, 株式会社リクルートライフスタイル、堤 崇行, 株式会社エヌ・ティ・ティ・データ

リ クルートライフスタイルでは、日常消費領域(飲食、美容、旅行、学び、通販など)を取り扱っており、様々なデータを活用したサービスの創出もしています。 そこから生じるビックデータをバッチ処理し、300人以上のデータ分析者と協力してサービス改善を着実に進めてきました。一方でより素早く市場に対応する ことで開拓できる領域があると考え、Kafka、Sparkや各種MPPなどに注目しています。そして今年度、ストリーム処理基盤を構築し、プロダクショ ン環境に適用しました。本セッションでは、既存システムの運用と同時にストリーム処理を実現していく中で生じた現実的な課題と見解、オンプレとクラウド環 境を組み合わせたアーキテクチャ、初めてSparkを用いる人に向けたポイントなどを紹介いたします。

『Deep Dive into Project Tungsten』

 講演者: Reynold Xin. Databricks

Project Tungsten focuses on substantially improving the efficiency of memory and CPU for Spark applications, to push performance closer to the limits of modern hardware. This effort includes three initiatives:
– Memory Management and Binary Processing: leveraging application semantics to manage memory explicitly and eliminate the overhead of JVM object model and garbage collection
– Cache-aware computation: algorithms and data structures to exploit memory hierarchy
– Code generation: using code generation to exploit modern compilers and CPUs
Project Tungsten will be the largest change to Spark’s execution engine since the project’s inception. In this talk, we will cover what was completed in 2015 (Phase 1) that laid down the foundation, and some ongoing work to improve performance by an order of magnitude in 2016.

『Exploiting GPUs in Spark』

 講演者: 石崎 一明, IBM Research – Tokyo

Apache Sparkでは、開発者は、低レイヤのことを気にせず並列実行可能なプログラムを容易に書くことができます。この容易さを損なわずに、ありのままの SparkプログラムをGPUを使って高速実行させること、が我々の目標です。この目標を達成するために、binary in-memory columnar storeを用いたデータ構造、SparkプログラムからGPUプログラムへの変換、の2つの機構を含むSpark-gpuの開発を行っています。この講 演では、Spark-gpu全体の概要、現在のSparkと比較しながらこれらの機構の設計・実装、ベンチマーク結果、今後の方針、をお話します。 Spark-gpuはSpark最新版上に実装され、githubで公開中です。

■ D会場

『次世代アーキテクチャから見たHadoop/Sparkの位置づけ ~特にRDMA・NVMを軸としたときの分散並列処理の観点から』

 講演者: 神林 飛志, ノーチラステクノロジーズ

Hadoop/Spark は知っている前提で、今後のコンピューターアーキテクチャの主流になると思われるRSA(rack-scale-architecture)を中心にその 主要技術のRDMAやNVMを見ながら、Hadoop/Sparkをどのように位置づけたら良いか批判的に検討する内容です。 割と分散処理の基本的なところから、いまどの辺が分散屋的にホットなのか話すので、マニア向けです。基本的に裏番組なので、マスコミの人とか来なくていいです。

 

『ビッグデータ可視化の性能を徹底検証 ~SparkSQL、Hive on Tez、Hive LLAPを用いた既存RDBデータ処理の特徴~』

  講演者: 新郷 美紀, NEC、蒋 逸峰, Hortonworks

ビッ グデータ可視化の性能を限界まで引出し、可視化性能は現実なのか検証します。Tableauを用いて視覚化を行っている際、バックエンドの SparkSQL、Hive on Tez、Hive LLAPの各SQL on Hadoopの最新のアーキテクチャの操作特徴や、それに基づく性能改善に寄与する内容を調査した際の知見を共有します。

 

『Spark MLlib Now and Beyond』

 講演者: 石川 有, リクルートテクノロジーズ

Spark MLlib は,Spark の機械学習のための標準コンポーネントのひとつです.MLlib のミッションは,「大規模データセットに対しても,容易に機械学習アプリケーション開発ができるようにする」ことです.そのようなミッションのもとに, これまで MLlib のどういう機能が開発されて今後開発されていくのかを紹介します.また MLlib の機能が,企業におけるさまざまな分析シーンにどのように適応できるのかを紹介します.

『Spark によるGIS データを題材とした時系列データ処理』

 講演者: 鈴木 由宇, 株式会社IHI 情報システム部 情報科学技術グループ、土橋 昌, 株式会社NTTデータ OSSプロフェッショナルサービス

IHI では設備管理の高度化を実現するために,大規模な製品稼働データを蓄積するプラットフォームを構築しました。これらの蓄積したデータを活用し,製品・サー ビスの付加価値向上を図るために,大規模データ用分析基盤の構築を進めています。本分析基盤にはスケーラビリティに加え,API の豊富さなどの利便性が求められます。そこでIHI ではSpark の導入を進めており,船舶GIS データ処理を例にSparkの評価を行っています。本プロジェクトではPython からSpark を利用し,RDD やDataFrame を活用しました。本講演では,Spark を用いた基礎的な時系列データ処理について,計算時間や処理方式のベストプラクティス,および得られた知見を紹介します。

『Hive on Sparkを活用した高速データ分析』

 講演者: 加嵜 長門, DMM.comラボ

現 在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、デー タドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ 処理のレイテンシが課題となってきました。本発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。

 

■Hadoop Conference Japan 実行委員会

  • 濱野 賢一朗 (NTTデータ) @hamaken
  • 太田 一樹 (Treasure Data)
  • 中野 猛 (リクルートテクノロジーズ) @tf0054
  • 北岡 史也 (リクルートテクノロジーズ) @fumiyax
  • 神林 飛志 (ノーチラス・テクノロジーズ) @okachimachiorz1
  • 大谷 晋平  @shot6
  • 猿田 浩輔 (NTTデータ) @raspberry1123
  • 櫻井 一貴 (リクルートテクノロジーズ)
  • 鯵坂 明 (NTTデータ) @aji_ska

 

■Spark Conference Japan 2016実行委員会

  • 石川 有(リクルートテクノロジーズ)
  • 井上 ゆり(サイバーエージェント)
  • 梅川 真人(MapR Technologies)
  • 川崎 達夫(Cloudera Japan)
  • 神田 勝規(サイバーエージェント)
  • 木林 正光(Cloudera Japan)
  • 草薙 昭彦(MapR Technologies)
  • 近藤 和成(クリエーションライン)
  • 猿田 浩輔(NTTデータ)
  • 下垣 徹(NTTデータ)
  • 蒋 逸峰(Hortonworks Japan)
  • Ippei Suzuki(クリエーションライン)
  • 添田 健輔(リクルートテクノロジーズ)
  • 土橋 昌(NTTデータ)
  • 濱野 賢一朗(NTTデータ)
  • 平林 良昭(MapR Technologies)
  • 松倉 健志(MapR Technologies)
  • 三原 茂(MapR Technologies)
  • 師岡 一成(ブレインパッド)
  • 安田 忠弘(クリエーションライン)