«

2月 19

Hadoop / Spark Conference Japan 2019(3月14日、東京)講演・LTのプログラムと講演資料


日本Hadoopユーザー会主催イベント『Hadoop / Spark Conference Japan 2019 』 を3月14日に東京・品川区内で開催しました。

盛況のうちに終了しました。多くの皆様にご来場頂き、ありがとうございました。

イベントWebサイト: https://hcj2019.eventbrite.com/

▲懇親会での集合写真

イベントの様子は下記でも取りあげていただいています

今回は、Apache Hadoopの主要開発者であるArpit Agarwal氏(Cloudera)とApache Sparkの主要開発者である Xiao Li 氏(Databricks)をお招きして、それぞれHadoopの新機能のOzoneと次期バージョンSpark 3.0についてご講演いただきました。 様々な講演者が集結し、技術トピックはもちろんのこと、Smart News、LINE、ソフトバンク、楽天等によるHadoop / Sparkの事例・取り組みも紹介いただきました。また、ライトニングトークもランチタイムに行われます。講演の後は、同じ会場内で懇親会も開催されました。

このほか、会場内では、Hadoopゾウさんの登場、きらきらシールの配布、スポンサーブース、などの実施を行いました。


■日時
2019年3月14日(木) 10:00~19:00 (受付開始 9:30)

■会場
きゅりあん (東京都品川区、大井町駅すぐ)

■主催
日本Hadoopユーザ会

■スポンサー(申込順)
株式会社サイバーエージェント、LINE株式会社、Dell EMC、ヤフー株式会社、 株式会社NTTデータ、Cloudera株式会社、マップアール・テクノロジーズ株式会社、トレジャーデータ株式会社

■プログラム

Keynote
10:00
ご挨拶、ご案内 [講演資料]
 濱野 賢一朗 (日本Hadoopユーザー会)
Hadoopの現在と未来 [講演資料]
 鯵坂 明(Hadoop PMC member)、Arpit Agarwal(Hadoop PMC member)
The upcoming Spark 3.0: What’s Next [講演資料]
 猿田 浩輔(Sparkコミッタ)、Xiao Li(Spark PMC member)
Cloud-Nativeなデータ分析基盤におけるPrestoの活用 [講演資料]
 廣瀬 智史(SmartNews, Inc.)
OASIS – Apache Spark を活用した LINE 全社のデータ分析ツール [講演資料]
 吉田 啓二(LINE株式会社)

A会場
B会場
C会場
ランチ会場
Apache HBaseの現在 – 火山と呼ばれたHBaseは今どうなっているのか

鈴木 俊裕(Cloudera) [講演資料]

ランチ会場
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)

小野寺 誠( マップアール・テクノロジーズ株式会社)

ランチ会場
ライトニングトーク

13:00 1日100個以上のHadoopクラスターを使い捨てる方法 & Spark Streamingで全世界の混雑状況を20分ごとに集計 [講演資料]
中里 浩之 (ソフトバンク)
濱田 佑(ソフトバンク)
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み 〜エクサバイト級の分散ストレージを目指して〜 [講演資料]
浅沼 孝信(ヤフー株式会社)
DataFrameとDatasetの内部をのぞいてみる [講演資料]
石崎 一明(日本アイ・ビー・エム)
13:45 Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ [講演資料]
関山 宜孝(Amazon Web Services Japan)
Ozone: An Object Store for Apache Hadoop
Arpit Agarwal(Cloudera)
Deep Dive into Spark SQL with Advanced Performance Tuning [講演資料]
上新 卓也(Databricks Inc.)
14:30 スキーマレスカラムナフォーマット「Yosegi」で実現するスキーマの柔軟性と処理性能を両立したログ収集システム [講演資料]
井島 洸二(ヤフー株式会社 )
HDFS におけるサポータビリティ(保守性)の改善について [講演資料]
小林 大輔(Cloudera)
An Insider’s Guide to Maximizing Spark SQL Performance [講演資料]
Xiao Li(Databricks Inc.)
15:20 Hive/Spark/HBase on S3 & NFS — HDFSを運用しない気軽なHadoop/Spark [講演資料]
蒋 逸峰
Automation of Hadoop cluster operations in ARM Treasure Data [講演資料]
Yan Wang(トレジャーデータ株式会社)
Spark SQL の性能改善の取り組み [講演資料]
吉田 啓二(LINE株式会社)
16:05 マルチテナント Hadoop クラスタのためのモニタリング Best Practice [講演資料]
平野 智巌(楽天株式会社)
Apache Kafkaって本当に大丈夫?~実際にいじめてみたのでお伝えします~ [講演資料]
土橋 昌(株式会社NTTデータ)
Arrow_Fdw – PostgreSQLで大量のログデータを処理するためのハードウェア最適化アプローチ [講演資料]
海外 浩平(HeteroDB)
懇親会(17:00-19:00) - 参加費:3000円

■ライトニングトーク

ランチタイム(C会場)

  • スキーマ付き分散ストリーム処理を実行可能なFlinkSQLClientの紹介 [講演資料] 木村宗太郎(dotData Japan)
  • データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 [講演資料] 菅沼 嘉一 (ソネット・メディア・ネットワークス)
  • SparkをRESTfulに利用できるApache Livyを導入した話 [講演資料] 植草智輝 (ヤフー株式会社)
  • Introduction to Apache Hivemall v0.5.2 and v0.6 [講演資料] 油井誠(トレジャーデータ株式会社)

キーノート

Apache Hadoopの現在と未来

講演者:鯵坂 明(Hadoop PMC member)、Arpit Agarwal(Hadoop PMC member)

前回のHadoop / Spark Conferenceから3年が経過しましたが、その間にApache Hadoopを取り巻く状況は劇的に変化してきたと思います。前半では鯵坂が、その状況の変化に対してHadoopがどのように追従してきたかについて紹介し、これから先、未来のHadoopがどのような機能を身につけていくのか予想します。また、時代の流れに追従していく中で、昨年にはHadoopにオブジェクトストアの機能を追加するプロジェクトであるOzoneが、今年にはHadoop上でディープラーニング処理を簡単に実行するためのプロジェクトであるSubmarineが、Hadoopのサブプロジェクトに加わりました。後半ではOzoneの主要開発者でもあるArpit Agarwal氏が、Ozoneが開発された背景と概要およびユースケース、そして今後の展望について詳しく紹介します。

The upcoming Spark 3.0: What’s Next

講演者:猿田 浩輔(Sparkコミッタ)、Xiao Li(Spark PMC member)

We will talk about the exciting new developments in the upcoming Spark 3.0 as well as some other major initiatives that are coming in the future.

Cloud-Nativeなデータ分析基盤におけるPrestoの活用

講演者: 廣瀬 智史(SmartNews, Inc.)

SmartNewsでは、ユーザーの行動ログを含め様々なデータを分析し、プロダクトの改善に役立てています。その一環として、Amazon EMR上で複数のHadoopクラスターを運用し、稼働するHiveでクエリを実行することで、ETL処理を行っております。また、それらクラスタ上のそれぞれの Hive Metastore へアクセスし、データを集約する手段として、AWS EC2 上で構築した Presto クラスタも利用しております。本講演では、Cloud-NativeなHadoopクラスタを利用しデータ分析基盤を運用する事例として、現在のシステム構成や、私たちが感じている価値や課題、発生した問題などをご紹介します。

​OASIS – Apache Spark を活用した LINE 全社のデータ分析ツール

講演者: 吉田 啓二(LINE株式会社)

LINE では、 “OASIS” という、独自に開発した内製のデータ分析ツールを 2018 年 4 月から運用しており、 LINE の各社員が、このツール上で Spark アプリケーション (Spark, Spark SQL, PySpark, SparkR) を書いて実行することで、担当サービスのデータ分析やレポート作成、 ETL 開発・運用などを行っています。この発表では、 (1) OASIS の開発動機、 (2) OASIS の特徴・機能概要、 (3) LINE 社内での OASIS の利用規模・ユースケース、の 3 点を主にお話しします。

■ A会場

Apache HBaseの現在 – 火山と呼ばれたHBaseは今どうなっているのか

講演者:鈴木 俊裕(Cloudera)

Apache HBase(以降、HBase)は、NoSQLの一種であり、Hadoop上で動作する分散データベースです。HBaseは、2018年の4月に2.0にメジャーアップデートされ、Procedure version 2やその仕組みを用いたAssignment Manager version 2など様々な改善がなされ火山と呼ばれた時代とは別物になっています。また、In-Memory Compactionやoffheapを用いた読み込み/書き込みパス等の機能追加/改善がなされパフォーマンスも向上しています。現在のHBaseの動きとしては、クラウド上でHBaseを動かすための開発や、Persistent Memoryを使うための取り組みなど様々な開発が行われています。本講演では、前半はHBaseの現在の状況や機能を紹介し、後半は現在開発中の機能や改善について紹介します。

1日100個以上のHadoopクラスターを使い捨てる方法 & Spark Streamingで全世界の混雑状況を20分ごとに集計

講演者: 中里 浩之 (ソフトバンク)、濱田 佑(ソフトバンク)

ソフトバンクのグループ各社では様々な種類のビッグデータを効率良く処理するため、AWSを始めとしたパブリッククラウドやHadoop/Sparkなどを積極的に活用しています。 グループ会社の一つである株式会社Agoopでは全世界のスマートフォンアプリから1日数億件&テラバイトオーダーのログを収集しており、その基盤としてAWSを利用しています。本講演ではAgoopにおけるAmazon EMR / Hadoop / Sparkの活用事例2件をお話しさせて頂きます。

事例1: 1日100個以上のHadoopクラスターを使い捨てる方法
Agoopでは収集したログをParquet形式に変換する毎時のバッチ処理などでSpark on EMRを活用しております。バッチ処理は他の時間帯のバッチ処理に影響を与えないよう独立したEMRクラスターで行い、処理が完了したらクラスターを終了する方式としており、1日に起動&削除するクラスターの数は50以上、多いときは100以上に上ります。 オンプレミスでは考えられない大量のクラスターを「使い捨て」できるようにするためのクラウドならではの秘訣をお話しします。

事例2: Spark Streamingで全世界の混雑状況を20分ごとに集計
Agoopでは収集したログを20分単位で分析し、全世界のどこがどれ位混雑しているかを可視化するスマートフォンアプリ「混雑マップ」をリリースしています。そのバックエンドでは主にSpark Streaming on EMRを活用しています。20分というかなり長めのウィンドウをどのように処理しているのか、そのポイントや苦労した点などを中心にお話しします。

Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ

講演者: 関山 宜孝 (Amazon Web Services Japan)

昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop/Spark コミュニティの直近の開発状況についても解説します。

スキーマレスカラムナフォーマット「Yosegi」で実現するスキーマの柔軟性と処理性能を両立したログ収集システム

講演者: 井島 洸二(ヤフー株式会社 )

ヤフーではサービスのログをリアルタイムに収集し HDFSに保存します。保存時のフォーマットには多様なスキーマと膨大なログ量の対処が求められます。多様なスキーマにはJSON、膨大なログ量にはカラムナフォーマットが選択肢としてありますが、スキーマの柔軟性と処理性能はトレードオフの関係にあります。また、カラムナフォーマットで保存する過程でスキーマが必要なため、スキーマ管理を備える複雑なログ収集システムになります。この課題に対してスキーマレスカラムナフォーマット「Yosegi」を開発し、スキーマの柔軟性と高い処理性能を両立しつつ、スキーマ管理が不要なログ収集システムを実現しました。本講演ではOSS として公開している「Yosegi」を利用したログ収集システムとスキーマ更新についての事例を紹介しつつ、スキーマの柔軟性についてORC, Parquet との比較を言及します。

Hive/Spark/HBase on S3 & NFS — HDFSを運用しない気軽なHadoop/Spark

講演者:蒋 逸峰

Hadoopエコシステムの中には、ZookeeperやHDFSのようなトラブルに遭遇した場合に致命的なコンポーネントがいくつかあります。特にペタバイト級のHDFSの管理・運用は非常にチャレンジングなものになっています。ここで、HDFSを使わずにHadoop/Sparkが使えるなら、クラウドのように気楽な運用ができると考えられます。本セッションでは、Hadoopのクラウドストレージ対応の最新状況や、HDFSを使わないSpark/HBaseの事例を技術的に紹介します。
セッションの前半では、S3A libraryを使ったHive/Spark、Hadoop magic committer、Hadoopのオブジェクトストレージ対応の最新状況をデモを交えながら技術的に説明します。セッション後半では、HBase on NFSについて説明します。具体的には、DFSのlocalfs実装を利用し、HBaseのデータをNFS mountされたストレージに配置します。通常のlocalfsだとWAL/HFileの可用性や性能に懸念がありますが、NFSのバックエンドとしてHDFSと同じかそれ以上のストレージを選択すれば充分に可用性と性能が出せます。実際に、Hadoopの外を見ればこういったストレージ実装はいくつもあります。HBase on NFSの設定方法や、オンプレミスとクラウドのNFS上の性能測定などを紹介します。

マルチテナント Hadoop クラスタのためのモニタリング Best Practice

講演者:平野 智巌 (楽天株式会社)

楽天の Hadoop Admin Team が運用する Hadoop クラスタは、80以上のチームが利用し、日々、5万以上のジョブが実行されています。このような状況では、通常とは異なる、マルチテナント Hadoop クラスタのための特別なモニタリングも必要となってきます。本セッションでは、マルチテナント Hadoop クラスタの運用、問題対応や、ユーザ・サポートのために、なぜモニタリングが重要であるのか。そして、試行錯誤しながら蓄積したモニタリングの Best Practice を、実際にモニタリングによって発見/解決した具体例と供に紹介します。また、皆さんに持ち帰っていただき、DIYできるよう、実装に必要な技術情報や Tips も紹介します。

■ B会場

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例 (金融業界)

講演者:小野寺 誠(マップアール・テクノロジーズ株式会社 )

本事例は、APT攻撃対策やDDoS攻撃対策などに率先して取り組んでいる世界的にトップレベルの金融業界の事例です。SIEM製品や専用ソリューションがあるにもかかわらずビッグデータテクノロジーが求められた理由から説明しNetFlow/IPFIX、HTTP、DNSのトラフィック情報を分析する際に、どのように機械学習、グラフ分析、SQLを使い分け異常を検知したのか、機械学習のモデルや分析の考え方など具体的にご紹介します。

HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み〜エクサバイト級の分散ストレージを目指して〜

講演者:浅沼 孝信(ヤフー株式会社)

Hadoopの分散ファイルシステムであるHDFSは、1台のマスターサーバーであるNameNodeが多くの役割を担っているためボトルネックになりやすく、大規模なクラスタやワークロードの重いクラスタではスケーラビリティに関するさまざまな問題が生じます。これらの課題を解消するために最近のHadoopコミュニティではRouter-based FederationやConsistency read from Standby NodeなどさまざまなHDFSの新機能が開発されています。本講演ではこれらの最新機能について紹介し、現在の開発状況について詳しく説明します。

Ozone: An Object Store for Apache Hadoop

講演者:Arpit Agarwal(Cloudera)

Ozone is an object store for Apache Hadoop that solves the small file problem of HDFS. It allows users to store billions of files and access them as if they are on HDFS. Ozone plugs into existing Hadoop deployments seamlessly, and applications like Hive, LLAP, and Spark work without any modifications. Ozone also supports the Amazon S3 REST API which allows applications to work seamlessly on-prem and in the cloud.
This talk looks at the architecture, reliability, and performance of Ozone. We describe how simple and proven building blocks can be put together to build a scalable distributed object store.
We will show how to install an Ozone cluster, how to create volumes, buckets, and keys. We also show how to run Hive and Spark against an Ozone file system.

HDFS におけるサポータビリティ(保守性)の改善について

講演者: 小林 大輔(Cloudera)

Hadoop エコシステムにおける HDFS は、データの永続化層として黎明期から活発に開発が進められてきました。近年では非常に安定しているプロダクトのひとつですが、それでも規模の拡大やコンポーネントの組み合わせにより障害、パフォーマンスのボトルネックが発生し、ユーザーやサポートベンダーを悩ませています。本講演では、HDFS のサポートを提供する立場から、実際に発生したインシデントとその対応策、そして、HDFS をよりサポータビリティの高い製品とするための最近の開発事情について紹介します。

Automation of Hadoop cluster operations in ARM Treasure Data

講演者:Yan Wang(トレジャーデータ株式会社)

This talk will focus on the journey we in the Arm Treasure Data hadoop team is on to simplify and automate how we deploy hadoop. In Arm Treasure Data, up to recently we were running hadoop clusters in two clouds. Due to fast increase of deployments into more sites, the overhead of manual operations has started to strain us. Due to this, we started a project last year to automate and simplify how we deploy using tools like AWS autoscaling groups. Steps we have taken so far are modernize and standardize instance types, moved from manually executed deployment scripts to api triggered work flows, actively working to deprecate chef in favor of debian packages and AWS Codedeploy. We have also started to automate a lot of operations that up to recently were manual, like scaling in and out clusters, and routing traffic between clusters. We also started simplify health check and node snapshotting. And our goal of the year is close to fully automated cluster operations.

Apache Kafkaって本当に大丈夫?~実際にいじめてみたのでお伝えします~

講演者:土橋 昌 (株式会社NTTデータ)

Apache Kafka(以降、Kafka)は「A distributed streaming platform」と定義され、故障耐性をもった分散処理の仕組みであるとされています。そしてそれを期待したプロダクションのユースケースが近年世界的に生まれており、プロダクト名を耳にしたことのある方がますます増えたのではないでしょうか。しかしKafkaが担う「データを流す役割」はデータを活用するシステムの中でも重要なものであり、「本当に期待通りに動くのか」が気になるところかと思います。本セッションではKafkaのオーバービューをお伝えして基本をおさらいした後、私たちのチームで実施した「Kafkaクラスタの様々な要素を故障させる検証」からハイライトをお伝えします。

■ C会場

DataFrameとDatasetの内部をのぞいてみる

講演者: 石崎 一明(IBM Research – Tokyo)

Apache Sparkでは、DataFrameというSQLライクなAPIと、Datasetというラムダ式を用いたAPI、の2つを用いると、Catalyst/Tungstenという最適化基盤の恩恵を受けて、高速に処理できるプログラムを書くことができます。DataFrameとDatasetの間には、記述できる処理・実装・性能に違いがあります。これらの違いについて、コミュニティの中でも完全に理解されているとは言えないと思います。
この講演では、DataFrameとDatasetの間で、同じ処理を行うプログラムでなぜ性能が異なるのかを、実装を簡単に説明しながら理由をお話します。この講演は、Spark Summit 2017の”Demystifying DataFrame and Dataset”が元になります。

Deep Dive into Spark SQL with Advanced Performance Tuning

講演者:上新 卓也(Databricks Inc.)

Spark SQLはApache Sparkのコアモジュールの一つで、SQLや使いやすいAPIによる関係演算をスケーラブルで効率的に行うコンポーネントです。様々なデータソース(例: Hive, Cassandra, Kafka, Oracleなど)やファイルフォーマット(例: Parquet, ORC, CSV, JSONなど)のデータを処理、解析することができます。本講演では、Spark SQLのクエリ処理ライフサイクルの技術的詳細について解説し、またどのようにパフォーマンスチューニングをするのかを紹介します。

An Insider’s Guide to Maximizing Spark SQL Performance

講演者:Xiao Li(Databricks Inc.)

The common use cases of Spark SQL include ad hoc analysis, logical data warehouse, query federation, and ETL processing. Spark SQL also powers the other Spark libraries, including structured streaming for stream processing, MLlib for machine learning, and GraphFrame for graph-parallel computation. For boosting the speed of your Spark applications, you can perform the optimization efforts on the queries prior employing to the production systems. Spark query plans and Spark UIs provide you insight on the performance of your queries. This talk discloses how to read and tune the query plans for maximizing the performance.

Spark SQL の性能改善の取り組み

講演者: 吉田 啓二(LINE株式会社)

LINE では、 “OASIS” という、独自に開発した内製のデータ分析ツールを 2018 年 4 月から運用しており、 LINE の各社員が、このツール上で Spark アプリケーション (Spark, Spark SQL, PySpark, SparkR) を書いて実行することで、担当サービスのデータ分析やレポート作成、 ETL 開発・運用などを行っています。全社員が自由に Spark SQL クエリを書いて実行できる環境において、データ基盤のリソースが効率的に使用されるようにするためには、長時間実行される非効率的なクエリの処理性能を、ツール・データ基盤側で改善することが重要になります。この発表では、テーブル・パーティションの統計情報の取得や、独自のクエリ最適化ルールの適用、Cost-based Optimizer の性能検証など、 OASIS における Spark SQL の性能改善の取り組みをご紹介します。

Arrow_Fdw – PostgreSQLで大量のログデータを処理するためのハードウェア最適化アプローチ

講演者:海外 浩平(HeteroDB)

Arrow_FdwはPostgreSQL用に設計されたFDW(外部データラッパ)モジュールで、Apache Arrow形式のデータファイルをPostgreSQLのテーブルのように読出し、SQLの豊富な統計解析機能を用いて集計する事を可能にします。加えて、PG-StromのSSD-to-GPU Direct SQL機能との併用で、一台あたり数GB/sの読み出し帯域を持つNVME-SSDと、デバイスあたり数千コアを搭載するGPUの能力を最大限引き出し、高密度なログ処理基盤を実現します。本セッションでは、Arrow_Fdwやその周辺技術と、その特長、ログ処理基盤への適用に向けた開発動向についてご紹介します。


Hadoop / Spark Conference Japan 実行委員会(五十音順)

  • 浅沼 孝信
  • 鯵坂 明
  • 石崎 一明
  • 岩崎 正剛
  • 上新 卓也
  • 猿田 浩輔
  • 鈴木 俊裕
  • 関 堅吾
  • 西沢 里恵
  • 濱野 賢一朗
  • 山室 健