2月 19

Hadoop / Spark Conference Japan 2019(3月14日、東京)講演・LTのプログラムと講演資料

日本Hadoopユーザー会主催イベント『Hadoop / Spark Conference Japan 2019 』 を3月14日に東京・品川区内で開催しました。

盛況のうちに終了しました。多くの皆様にご来場頂き、ありがとうございました。

イベントWebサイト: https://hcj2019.eventbrite.com/

▲懇親会での集合写真

イベントの様子は下記でも取りあげていただいています

今回は、Apache Hadoopの主要開発者であるArpit Agarwal氏(Cloudera)とApache Sparkの主要開発者である Xiao Li 氏(Databricks)をお招きして、それぞれHadoopの新機能のOzoneと次期バージョンSpark 3.0についてご講演いただきました。 様々な講演者が集結し、技術トピックはもちろんのこと、Smart News、LINE、ソフトバンク、楽天等によるHadoop / Sparkの事例・取り組みも紹介いただきました。また、ライトニングトークもランチタイムに行われます。講演の後は、同じ会場内で懇親会も開催されました。

このほか、会場内では、Hadoopゾウさんの登場、きらきらシールの配布、スポンサーブース、などの実施を行いました。


■日時
2019年3月14日(木) 10:00~19:00 (受付開始 9:30)

■会場
きゅりあん (東京都品川区、大井町駅すぐ)

■主催
日本Hadoopユーザ会

■スポンサー(申込順)
株式会社サイバーエージェント、LINE株式会社、Dell EMC、ヤフー株式会社、 株式会社NTTデータ、Cloudera株式会社、マップアール・テクノロジーズ株式会社、トレジャーデータ株式会社

■プログラム

Keynote
10:00
ご挨拶、ご案内 [講演資料]
 濱野 賢一朗 (日本Hadoopユーザー会)
Hadoopの現在と未来 [講演資料]
 鯵坂 明(Hadoop PMC member)、Arpit Agarwal(Hadoop PMC member)
The upcoming Spark 3.0: What’s Next [講演資料]
 猿田 浩輔(Sparkコミッタ)、Xiao Li(Spark PMC member)
Cloud-Nativeなデータ分析基盤におけるPrestoの活用 [講演資料]
 廣瀬 智史(SmartNews, Inc.)
OASIS – Apache Spark を活用した LINE 全社のデータ分析ツール [講演資料]
 吉田 啓二(LINE株式会社)

A会場
B会場
C会場
ランチ会場
Apache HBaseの現在 – 火山と呼ばれたHBaseは今どうなっているのか
[講演資料]
鈴木 俊裕(Cloudera)

ランチ会場
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
[講演資料]
小野寺 誠(マップアール・テクノロジーズ株式会社)

ランチ会場
ライトニングトーク

13:00 1日100個以上のHadoopクラスターを使い捨てる方法 & Spark Streamingで全世界の混雑状況を20分ごとに集計 [講演資料]
中里 浩之 (ソフトバンク)
濱田 佑(ソフトバンク)
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み 〜エクサバイト級の分散ストレージを目指して〜 [講演資料]
浅沼 孝信(ヤフー株式会社)
DataFrameとDatasetの内部をのぞいてみる [講演資料]
石崎 一明(日本アイ・ビー・エム)
13:45 Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ [講演資料]
関山 宜孝(Amazon Web Services Japan)
Ozone: An Object Store for Apache Hadoop
Arpit Agarwal(Cloudera)
Deep Dive into Spark SQL with Advanced Performance Tuning [講演資料]
上新 卓也(Databricks Inc.)
14:30 スキーマレスカラムナフォーマット「Yosegi」で実現するスキーマの柔軟性と処理性能を両立したログ収集システム [講演資料]
井島 洸二(ヤフー株式会社 )
HDFS におけるサポータビリティ(保守性)の改善について [講演資料]
小林 大輔(Cloudera)
An Insider’s Guide to Maximizing Spark SQL Performance [講演資料]
Xiao Li(Databricks Inc.)
15:20 Hive/Spark/HBase on S3 & NFS — HDFSを運用しない気軽なHadoop/Spark [講演資料]
蒋 逸峰
Automation of Hadoop cluster operations in ARM Treasure Data [講演資料]
Yan Wang(トレジャーデータ株式会社)
Spark SQL の性能改善の取り組み [講演資料]
吉田 啓二(LINE株式会社)
16:05 マルチテナント Hadoop クラスタのためのモニタリング Best Practice [講演資料]
平野 智巌(楽天株式会社)
Apache Kafkaって本当に大丈夫?~実際にいじめてみたのでお伝えします~ [講演資料]
土橋 昌(株式会社NTTデータ)
Arrow_Fdw – PostgreSQLで大量のログデータを処理するためのハードウェア最適化アプローチ [講演資料]
海外 浩平(HeteroDB)
懇親会(17:00-19:00) - 参加費:3000円

■ライトニングトーク

ランチタイム(C会場)

  • スキーマ付き分散ストリーム処理を実行可能なFlinkSQLClientの紹介 [講演資料] 木村宗太郎(dotData Japan)
  • データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用 [講演資料] 菅沼 嘉一 (ソネット・メディア・ネットワークス)
  • SparkをRESTfulに利用できるApache Livyを導入した話 [講演資料] 植草智輝 (ヤフー株式会社)
  • Introduction to Apache Hivemall v0.5.2 and v0.6 [講演資料] 油井誠(トレジャーデータ株式会社)

キーノート

Apache Hadoopの現在と未来

講演者:鯵坂 明(Hadoop PMC member)、Arpit Agarwal(Hadoop PMC member)

前回のHadoop / Spark Conferenceから3年が経過しましたが、その間にApache Hadoopを取り巻く状況は劇的に変化してきたと思います。前半では鯵坂が、その状況の変化に対してHadoopがどのように追従してきたかについて紹介し、これから先、未来のHadoopがどのような機能を身につけていくのか予想します。また、時代の流れに追従していく中で、昨年にはHadoopにオブジェクトストアの機能を追加するプロジェクトであるOzoneが、今年にはHadoop上でディープラーニング処理を簡単に実行するためのプロジェクトであるSubmarineが、Hadoopのサブプロジェクトに加わりました。後半ではOzoneの主要開発者でもあるArpit Agarwal氏が、Ozoneが開発された背景と概要およびユースケース、そして今後の展望について詳しく紹介します。

The upcoming Spark 3.0: What’s Next

講演者:猿田 浩輔(Sparkコミッタ)、Xiao Li(Spark PMC member)

We will talk about the exciting new developments in the upcoming Spark 3.0 as well as some other major initiatives that are coming in the future.

Cloud-Nativeなデータ分析基盤におけるPrestoの活用

講演者: 廣瀬 智史(SmartNews, Inc.)

SmartNewsでは、ユーザーの行動ログを含め様々なデータを分析し、プロダクトの改善に役立てています。その一環として、Amazon EMR上で複数のHadoopクラスターを運用し、稼働するHiveでクエリを実行することで、ETL処理を行っております。また、それらクラスタ上のそれぞれの Hive Metastore へアクセスし、データを集約する手段として、AWS EC2 上で構築した Presto クラスタも利用しております。本講演では、Cloud-NativeなHadoopクラスタを利用しデータ分析基盤を運用する事例として、現在のシステム構成や、私たちが感じている価値や課題、発生した問題などをご紹介します。

​OASIS – Apache Spark を活用した LINE 全社のデータ分析ツール

講演者: 吉田 啓二(LINE株式会社)

LINE では、 “OASIS” という、独自に開発した内製のデータ分析ツールを 2018 年 4 月から運用しており、 LINE の各社員が、このツール上で Spark アプリケーション (Spark, Spark SQL, PySpark, SparkR) を書いて実行することで、担当サービスのデータ分析やレポート作成、 ETL 開発・運用などを行っています。この発表では、 (1) OASIS の開発動機、 (2) OASIS の特徴・機能概要、 (3) LINE 社内での OASIS の利用規模・ユースケース、の 3 点を主にお話しします。

■ A会場

Apache HBaseの現在 – 火山と呼ばれたHBaseは今どうなっているのか

講演者:鈴木 俊裕(Cloudera)

Apache HBase(以降、HBase)は、NoSQLの一種であり、Hadoop上で動作する分散データベースです。HBaseは、2018年の4月に2.0にメジャーアップデートされ、Procedure version 2やその仕組みを用いたAssignment Manager version 2など様々な改善がなされ火山と呼ばれた時代とは別物になっています。また、In-Memory Compactionやoffheapを用いた読み込み/書き込みパス等の機能追加/改善がなされパフォーマンスも向上しています。現在のHBaseの動きとしては、クラウド上でHBaseを動かすための開発や、Persistent Memoryを使うための取り組みなど様々な開発が行われています。本講演では、前半はHBaseの現在の状況や機能を紹介し、後半は現在開発中の機能や改善について紹介します。

1日100個以上のHadoopクラスターを使い捨てる方法 & Spark Streamingで全世界の混雑状況を20分ごとに集計

講演者: 中里 浩之 (ソフトバンク)、濱田 佑(ソフトバンク)

ソフトバンクのグループ各社では様々な種類のビッグデータを効率良く処理するため、AWSを始めとしたパブリッククラウドやHadoop/Sparkなどを積極的に活用しています。 グループ会社の一つである株式会社Agoopでは全世界のスマートフォンアプリから1日数億件&テラバイトオーダーのログを収集しており、その基盤としてAWSを利用しています。本講演ではAgoopにおけるAmazon EMR / Hadoop / Sparkの活用事例2件をお話しさせて頂きます。

事例1: 1日100個以上のHadoopクラスターを使い捨てる方法
Agoopでは収集したログをParquet形式に変換する毎時のバッチ処理などでSpark on EMRを活用しております。バッチ処理は他の時間帯のバッチ処理に影響を与えないよう独立したEMRクラスターで行い、処理が完了したらクラスターを終了する方式としており、1日に起動&削除するクラスターの数は50以上、多いときは100以上に上ります。 オンプレミスでは考えられない大量のクラスターを「使い捨て」できるようにするためのクラウドならではの秘訣をお話しします。

事例2: Spark Streamingで全世界の混雑状況を20分ごとに集計
Agoopでは収集したログを20分単位で分析し、全世界のどこがどれ位混雑しているかを可視化するスマートフォンアプリ「混雑マップ」をリリースしています。そのバックエンドでは主にSpark Streaming on EMRを活用しています。20分というかなり長めのウィンドウをどのように処理しているのか、そのポイントや苦労した点などを中心にお話しします。

Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ

講演者: 関山 宜孝 (Amazon Web Services Japan)

昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop/Spark コミュニティの直近の開発状況についても解説します。

スキーマレスカラムナフォーマット「Yosegi」で実現するスキーマの柔軟性と処理性能を両立したログ収集システム

講演者: 井島 洸二(ヤフー株式会社 )

ヤフーではサービスのログをリアルタイムに収集し HDFSに保存します。保存時のフォーマットには多様なスキーマと膨大なログ量の対処が求められます。多様なスキーマにはJSON、膨大なログ量にはカラムナフォーマットが選択肢としてありますが、スキーマの柔軟性と処理性能はトレードオフの関係にあります。また、カラムナフォーマットで保存する過程でスキーマが必要なため、スキーマ管理を備える複雑なログ収集システムになります。この課題に対してスキーマレスカラムナフォーマット「Yosegi」を開発し、スキーマの柔軟性と高い処理性能を両立しつつ、スキーマ管理が不要なログ収集システムを実現しました。本講演ではOSS として公開している「Yosegi」を利用したログ収集システムとスキーマ更新についての事例を紹介しつつ、スキーマの柔軟性についてORC, Parquet との比較を言及します。

Hive/Spark/HBase on S3 & NFS — HDFSを運用しない気軽なHadoop/Spark

講演者:蒋 逸峰

Hadoopエコシステムの中には、ZookeeperやHDFSのようなトラブルに遭遇した場合に致命的なコンポーネントがいくつかあります。特にペタバイト級のHDFSの管理・運用は非常にチャレンジングなものになっています。ここで、HDFSを使わずにHadoop/Sparkが使えるなら、クラウドのように気楽な運用ができると考えられます。本セッションでは、Hadoopのクラウドストレージ対応の最新状況や、HDFSを使わないSpark/HBaseの事例を技術的に紹介します。
セッションの前半では、S3A libraryを使ったHive/Spark、Hadoop magic committer、Hadoopのオブジェクトストレージ対応の最新状況をデモを交えながら技術的に説明します。セッション後半では、HBase on NFSについて説明します。具体的には、DFSのlocalfs実装を利用し、HBaseのデータをNFS mountされたストレージに配置します。通常のlocalfsだとWAL/HFileの可用性や性能に懸念がありますが、NFSのバックエンドとしてHDFSと同じかそれ以上のストレージを選択すれば充分に可用性と性能が出せます。実際に、Hadoopの外を見ればこういったストレージ実装はいくつもあります。HBase on NFSの設定方法や、オンプレミスとクラウドのNFS上の性能測定などを紹介します。

マルチテナント Hadoop クラスタのためのモニタリング Best Practice

講演者:平野 智巌 (楽天株式会社)

楽天の Hadoop Admin Team が運用する Hadoop クラスタは、80以上のチームが利用し、日々、5万以上のジョブが実行されています。このような状況では、通常とは異なる、マルチテナント Hadoop クラスタのための特別なモニタリングも必要となってきます。本セッションでは、マルチテナント Hadoop クラスタの運用、問題対応や、ユーザ・サポートのために、なぜモニタリングが重要であるのか。そして、試行錯誤しながら蓄積したモニタリングの Best Practice を、実際にモニタリングによって発見/解決した具体例と供に紹介します。また、皆さんに持ち帰っていただき、DIYできるよう、実装に必要な技術情報や Tips も紹介します。

■ B会場

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例 (金融業界)

講演者:小野寺 誠(マップアール・テクノロジーズ株式会社 )

本事例は、APT攻撃対策やDDoS攻撃対策などに率先して取り組んでいる世界的にトップレベルの金融業界の事例です。SIEM製品や専用ソリューションがあるにもかかわらずビッグデータテクノロジーが求められた理由から説明しNetFlow/IPFIX、HTTP、DNSのトラフィック情報を分析する際に、どのように機械学習、グラフ分析、SQLを使い分け異常を検知したのか、機械学習のモデルや分析の考え方など具体的にご紹介します。

HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み〜エクサバイト級の分散ストレージを目指して〜

講演者:浅沼 孝信(ヤフー株式会社)

Hadoopの分散ファイルシステムであるHDFSは、1台のマスターサーバーであるNameNodeが多くの役割を担っているためボトルネックになりやすく、大規模なクラスタやワークロードの重いクラスタではスケーラビリティに関するさまざまな問題が生じます。これらの課題を解消するために最近のHadoopコミュニティではRouter-based FederationやConsistency read from Standby NodeなどさまざまなHDFSの新機能が開発されています。本講演ではこれらの最新機能について紹介し、現在の開発状況について詳しく説明します。

Ozone: An Object Store for Apache Hadoop

講演者:Arpit Agarwal(Cloudera)

Ozone is an object store for Apache Hadoop that solves the small file problem of HDFS. It allows users to store billions of files and access them as if they are on HDFS. Ozone plugs into existing Hadoop deployments seamlessly, and applications like Hive, LLAP, and Spark work without any modifications. Ozone also supports the Amazon S3 REST API which allows applications to work seamlessly on-prem and in the cloud.
This talk looks at the architecture, reliability, and performance of Ozone. We describe how simple and proven building blocks can be put together to build a scalable distributed object store.
We will show how to install an Ozone cluster, how to create volumes, buckets, and keys. We also show how to run Hive and Spark against an Ozone file system.

HDFS におけるサポータビリティ(保守性)の改善について

講演者: 小林 大輔(Cloudera)

Hadoop エコシステムにおける HDFS は、データの永続化層として黎明期から活発に開発が進められてきました。近年では非常に安定しているプロダクトのひとつですが、それでも規模の拡大やコンポーネントの組み合わせにより障害、パフォーマンスのボトルネックが発生し、ユーザーやサポートベンダーを悩ませています。本講演では、HDFS のサポートを提供する立場から、実際に発生したインシデントとその対応策、そして、HDFS をよりサポータビリティの高い製品とするための最近の開発事情について紹介します。

Automation of Hadoop cluster operations in ARM Treasure Data

講演者:Yan Wang(トレジャーデータ株式会社)

This talk will focus on the journey we in the Arm Treasure Data hadoop team is on to simplify and automate how we deploy hadoop. In Arm Treasure Data, up to recently we were running hadoop clusters in two clouds. Due to fast increase of deployments into more sites, the overhead of manual operations has started to strain us. Due to this, we started a project last year to automate and simplify how we deploy using tools like AWS autoscaling groups. Steps we have taken so far are modernize and standardize instance types, moved from manually executed deployment scripts to api triggered work flows, actively working to deprecate chef in favor of debian packages and AWS Codedeploy. We have also started to automate a lot of operations that up to recently were manual, like scaling in and out clusters, and routing traffic between clusters. We also started simplify health check and node snapshotting. And our goal of the year is close to fully automated cluster operations.

Apache Kafkaって本当に大丈夫?~実際にいじめてみたのでお伝えします~

講演者:土橋 昌 (株式会社NTTデータ)

Apache Kafka(以降、Kafka)は「A distributed streaming platform」と定義され、故障耐性をもった分散処理の仕組みであるとされています。そしてそれを期待したプロダクションのユースケースが近年世界的に生まれており、プロダクト名を耳にしたことのある方がますます増えたのではないでしょうか。しかしKafkaが担う「データを流す役割」はデータを活用するシステムの中でも重要なものであり、「本当に期待通りに動くのか」が気になるところかと思います。本セッションではKafkaのオーバービューをお伝えして基本をおさらいした後、私たちのチームで実施した「Kafkaクラスタの様々な要素を故障させる検証」からハイライトをお伝えします。

■ C会場

DataFrameとDatasetの内部をのぞいてみる

講演者: 石崎 一明(IBM Research – Tokyo)

Apache Sparkでは、DataFrameというSQLライクなAPIと、Datasetというラムダ式を用いたAPI、の2つを用いると、Catalyst/Tungstenという最適化基盤の恩恵を受けて、高速に処理できるプログラムを書くことができます。DataFrameとDatasetの間には、記述できる処理・実装・性能に違いがあります。これらの違いについて、コミュニティの中でも完全に理解されているとは言えないと思います。
この講演では、DataFrameとDatasetの間で、同じ処理を行うプログラムでなぜ性能が異なるのかを、実装を簡単に説明しながら理由をお話します。この講演は、Spark Summit 2017の”Demystifying DataFrame and Dataset”が元になります。

Deep Dive into Spark SQL with Advanced Performance Tuning

講演者:上新 卓也(Databricks Inc.)

Spark SQLはApache Sparkのコアモジュールの一つで、SQLや使いやすいAPIによる関係演算をスケーラブルで効率的に行うコンポーネントです。様々なデータソース(例: Hive, Cassandra, Kafka, Oracleなど)やファイルフォーマット(例: Parquet, ORC, CSV, JSONなど)のデータを処理、解析することができます。本講演では、Spark SQLのクエリ処理ライフサイクルの技術的詳細について解説し、またどのようにパフォーマンスチューニングをするのかを紹介します。

An Insider’s Guide to Maximizing Spark SQL Performance

講演者:Xiao Li(Databricks Inc.)

The common use cases of Spark SQL include ad hoc analysis, logical data warehouse, query federation, and ETL processing. Spark SQL also powers the other Spark libraries, including structured streaming for stream processing, MLlib for machine learning, and GraphFrame for graph-parallel computation. For boosting the speed of your Spark applications, you can perform the optimization efforts on the queries prior employing to the production systems. Spark query plans and Spark UIs provide you insight on the performance of your queries. This talk discloses how to read and tune the query plans for maximizing the performance.

Spark SQL の性能改善の取り組み

講演者: 吉田 啓二(LINE株式会社)

LINE では、 “OASIS” という、独自に開発した内製のデータ分析ツールを 2018 年 4 月から運用しており、 LINE の各社員が、このツール上で Spark アプリケーション (Spark, Spark SQL, PySpark, SparkR) を書いて実行することで、担当サービスのデータ分析やレポート作成、 ETL 開発・運用などを行っています。全社員が自由に Spark SQL クエリを書いて実行できる環境において、データ基盤のリソースが効率的に使用されるようにするためには、長時間実行される非効率的なクエリの処理性能を、ツール・データ基盤側で改善することが重要になります。この発表では、テーブル・パーティションの統計情報の取得や、独自のクエリ最適化ルールの適用、Cost-based Optimizer の性能検証など、 OASIS における Spark SQL の性能改善の取り組みをご紹介します。

Arrow_Fdw – PostgreSQLで大量のログデータを処理するためのハードウェア最適化アプローチ

講演者:海外 浩平(HeteroDB)

Arrow_FdwはPostgreSQL用に設計されたFDW(外部データラッパ)モジュールで、Apache Arrow形式のデータファイルをPostgreSQLのテーブルのように読出し、SQLの豊富な統計解析機能を用いて集計する事を可能にします。加えて、PG-StromのSSD-to-GPU Direct SQL機能との併用で、一台あたり数GB/sの読み出し帯域を持つNVME-SSDと、デバイスあたり数千コアを搭載するGPUの能力を最大限引き出し、高密度なログ処理基盤を実現します。本セッションでは、Arrow_Fdwやその周辺技術と、その特長、ログ処理基盤への適用に向けた開発動向についてご紹介します。


Hadoop / Spark Conference Japan 実行委員会(五十音順)

  • 浅沼 孝信
  • 鯵坂 明
  • 石崎 一明
  • 岩崎 正剛
  • 上新 卓也
  • 猿田 浩輔
  • 鈴木 俊裕
  • 関 堅吾
  • 西沢 里恵
  • 濱野 賢一朗
  • 山室 健


2月 05

Hadoop / Spark Conference Japan 2019のスポンサー募集

2019年3月14日(木)に『Hadoop / Spark Conference Japan 2019』を東京・きゅりあん(品川区・大井町駅すぐ)で開催します。

Hadoop Conference Japan は2009年より開催しているApache Hadoopに関する総合イベントで、前回よりSpark Conference Japan を併催し、今回より Hadoop / Spark Conference Japan として統合を行いました。

本イベントのスポンサー企業を募集します。詳細は添付の資料をご確認ください。

Hadoop_Spark_Conference_Japan_2019_スポンサー案内(PDF)
HCJ2019スポンサー申込書(Word文書)
HCJ2019スポンサー申込書_記入例(PDF)

スポンサーをご希望の場合には、上記の申込書に記入(押印もしくは署名)したものをスキャンしてPDF形式としたものを hcj2019@hadoop.apache.jp 宛にお送りください。2019年2月18日(月) 17時をもって締め切らせて頂きます。

1月 23

【募集】Hadoop / Spark Conference Japan 2019 の講演・LT・特別企画

2019年3月14日(木)に『Hadoop / Spark Conference Japan 2019』を東京・きゅりあん(品川区・大井町駅すぐ)で開催します。

Hadoop Conference Japan は2009年より開催しているApache Hadoopに関する総合イベントで、毎回多くの皆様にお越しいただいています。今回は Hadoop / Spark Conference Japanとして開催いたします。
本カンファレンスは、Apache Hadoop / Sparkやそれにまつわるエコシステム、並列分散処理、データ処理などに関するオープンソースソフトウェアの技術や事例を一同に集め、多くの方が出会い交流できる場として企画を進めています。

参考:前回 Hadoop / Spark Conference Japan 2016のプログラム
http://hadoop.apache.jp/hcj2016-program/

開催に先立ち、講演発表、ライトニングトーク発表、特別企画に関する募集を行います。ご協力いただける方、ネタやアイデアをお持ちの方は、ぜひご応募ください!

講演の募集は2月4日をもって、LTの募集は2月12日をもって、終了しました。応募頂いた皆様、ありがとうございます。
引き続き、特別企画の募集を行っています。


■講演発表

本カンファレンスでは15件程度のプレゼンテーションをお願いする予定です。講演で発表いただける方を募集します。発表時間は1件30分前後で、講演内容は、
・Hadoop / Sparkやそれにまつわるエコシステムに関する技術的な内容
・Hadoop / Sparkやそれにまつわるエコシステムを活用した事例、取り組み
・並列分散処理、データ処理などに関するオープンソースソフトウェアの技術や事例
などを想定しています。

講演を希望される方は、
・講演タイトル案
・講演概要(300文字程度)
・講演者(氏名、所属)
・メールアドレス
・キーワード(3つまで)
・発表内容の全体感がわかる資料(PDF形式でA4 2~3枚程度の文書・スライド等) ※
を電子メールで hcj2019@hadoop.apache.jp2019年2月4日(月) 12:00 JST(正午)までお送りください。実行委員会で発表者を選定し一週間程度で採否をお知らせします。

※ 同一の講演候補者が複数の講演にご応募頂くことは歓迎しますが、1つの応募(講演)につき1通ずつメールをお送り頂くようお願いします。

※ この資料は当日のプレゼンテーションにむけて具体的な発表内容を有しているかを確認させて頂くものです。選定の参考にさせていただくため、できる限り発表内容を具体的に示すものをご準備頂くようお願いします。資料の形式は自由です。過去の実績では、「アジェンダ案+特徴的な説明事項のスライド(1~2枚)」をプレゼンテーションツールで作成し、PDF形式に保存したものが多いです。

※ 原則は日本語でのプレゼンテーションですが、英語での発表を希望される方は、その旨を記載してください。運営側では通訳などの準備は行いません。通訳を希望される方は、発表者にて手配をお願いします。

本カンファレンスは、イベント概要に書かれておりますような「オープンソースソフトウェアの技術や事例」を中心に構成する方針ですので、商用ソフトウェアや特定サービスに閉じたテーマはご遠慮いただく場合があります。ご理解ください。

■ライトニングトーク発表

本カンファレンスでは、6~12件程度のライトニングトーク(LT)を実施予定です。発表時間は1件5分です。 希望される方は、
・講演タイトル
・講演概要(300文字まで)
・講演者(氏名、所属)
・メールアドレス
を電子メールで hcj2019@hadoop.apache.jp2019年2月12日(火) 12:00 JST(正午)までにお送りください。発表者を選定し採否をお知らせします。前回同様( http://hadoop.apache.jp/hcj2016-lt-result/ )、投票にて選定する予定です。

■特別企画

カンファレンス内での企画を募集します。会場内での催しやノベルティ作成など、内容は自由です。アイデアをお持ちの方は、お早めに hcj2019@hadoop.apache.jp にご連絡ください。実現性の可否を検討させていただきます。過去の開催では、Hive Tシャツ、Hiveシールなどの企画が寄せられました。

採用された場合、実施に向けた調整に実行委員も協力させていただくとともに、当日の参加者に企画を紹介させていただきます。企画実施にあたり、実行委員も協力しますが、基本的には提案者の方が主体となって推進して頂けることを想定しています。あらかじめご理解ください。アイデアが採用された場合には、制作や実施に関わる費用は、可能な範囲で、主催で支援したいと考えています。

◆イベント概要

日本Hadoopユーザー会は、第7回目のカンファレンス「Hadoop / Spark Conference Japan 2019」を2019年3月14日に開催します。Apache Hadoop / Sparkやそれにまつわるエコシステム、並列分散処理、データ処理などに関するオープンソースソフトウェアの技術や事例を一同に集め、多くの方が出会い交流できる場として企画を進めています。

名称: Hadoop / Spark Conference Japan 2019
日程: 2019年3月14日(木) 終日
会場: きゅりあん(東京都品川区・大井町駅すぐ)
主催: 日本Hadoopユーザー会

◆Event Summary

The Japan Hadoop user group will hold the 7th conference “Hadoop / Spark Conference Japan 2019” on March 14, 2019. Our main topics are open source software technologies, use cases on Apache Hadoop / Spark and its related ecosystem, parallel distributed processing, and data processing. To interact with developers/users and discuss these topics, we are planning to provide keynote speeches, presentations, lightning talks, social party, sponsor booths, and more.

Conference name: Hadoop / Spark Conference Japan 2019
Date: March 14th (Thu), 2019
Place: Curian (Shinagawa pref., Tokyo)
Organizer: The Japan Hadoop user group

◆その他のお問合せ

ご要望やご意見などがありましたら
電子メール: hcj2019@hadoop.apache.jp
にご連絡ください。

12月 04

Hadoop / Spark Conference Japan 2019 開催のご案内

イベント Hadoop / Spark Conference Japan 2019 を、2019年3月14日(木)に東京で開催する予定です。

詳細などは、2019年1月にご案内します。講演やライトニングトークの発表、ご支援頂けるスポンサーの募集を予定しています。

11月 15

Hadoopソースコードリーディング 第25回 ご案内

Hadoopなどに関する勉強会 「Hadoopソースコードリーディング 第25回」 を開催します。

最近、日本でHadoopに関連するプロダクトのコミッタに新たに就任された方が多数いらっしゃるので、彼らに現在の取り組みや意気込みなど喋っていただくことにしました。

勉強会名: Hadoopソースコードリーディング 第25回
日時: 2018年11月19日(月) 18:30~21:00くらい
会場: 東京ガーデンテラス紀尾井町 ヤフー株式会社
主催: 日本Hadoopユーザー会
イベントページ: https://passmarket.yahoo.co.jp/event/show/detail/01ffu1zwkhdj.html

発表内容:

・HBase最新機能(仮)
鈴木 俊裕 / Hortonworks (Apache HBase committer)

・Spark 2.xふりかえりと、3.0にむけて(仮)
石崎 一明 / 日本アイ・ビー・エム (Apache Spark committer)

・Spark and More Advanced Topics (仮)
山室 健 / NTT (Apache Spark committer & Apache Hivemall committer)

・Hadoop-3.2の新機能(仮)
浅沼 孝信 / Yahoo! Japan (Apache Hadoop committer)

11月 20

Hadoopソースコードリーディング 第24回 ご案内

Hadoopなどに関する勉強会 「Hadoopソースコードリーディング 第24回」 を開催します。

勉強会名: Hadoopソースコードリーディング 第24回
日時: 2017年11月29日(水) 18:00~20:00くらい
会場: 豊洲センタービルアネックス (NTTデータ内)
主催: 日本Hadoopユーザー会
イベントページ: https://www.eventbrite.com/e/hadoop-24-tickets-39719814033

発表内容:
・Spark Structured Streaming with Kafkaの動作をソースコードから追ってみた / 木村 宗太郎(株式会社ドワンゴ)さん
・Apache Hadoopの新機能Ozoneの現状 / 鯵坂 明(NTTデータ)さん
・他1~2件あれば (募集中!)

3月 24

Hadoopソースコードリーディング 第20回を開催しました

Hadoopなどに関する勉強会 「Hadoopソースコードリーディング 第20回」 を開催しました。多くの皆さまにご参加頂き、ありがとうございました。

勉強会名: Hadoopソースコードリーディング 第20回
日時: 2016年3月24日(木) 19:00~21:30
会場: 豊洲センタービルアネックス (NTTデータ内)
主催: 日本Hadoopユーザー会
イベントページ: https://hadoop-scr20th.eventbrite.com/

発表内容:
・Apache Kylin: Materialized View for BigData / 古山 慎悟 (Yahoo! Japan) さん
・Apache Phoenix: Relational database layer over HBase / 今井 雄太 (Hortonworks Japan) さん
・Upgrading from HDP2.1 to HDP2.4 / @wyukawa さん

2月 08

Hadoop / Spark Conference Japan 2016(2月8日、東京)講演・LTのプログラム・講演資料

日本Hadoopユーザー会主催イベント「Hadoop Conference Japan 2016」「Spark Conference Japan 2016」を2月8日に東京・品川区内で開催しました。

今回は、Spark Conference Japanをはじめて併催しました。Apache Sparkの主要開発者である Xin Reynold 氏(Databricks)をお招きして、次期バージョンSpark 2.0の最新情報をご紹介頂きました。 様々な講演者が集結し、技術トピックはもちろんのこと、Yahoo! Japan、さくらインターネット、niconico、ソフトバンク、ローソン、リクルートライフスタイル、IHI等によるHadoop / Sparkの事例・取り組みも紹介されました。また、皆様に投票にご協力頂いたライトニングトーク選定の結果にもとづき魅力的な22件に発表頂きました。

このほか、会場内では、Hadoopゾウさんの登場、きらきらシールの配布、Hadoop/Spark書籍の特別販売、ランチやドリンクなどのご提供などを実施しました。

イベントWebサイト: https://hcj2016.eventbrite.com/

hcj2016

▲懇親会での集合写真

イベントの様子等は次のページでも取り挙げて頂いています
・ Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく (Publickey)
・ Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定 (Publickey)
・ Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく (Publickey)
YARN、HDFS、そしてSparkの将来像とは:「Hadoop/Spark Con」基調講演 (ZDNet Japan)
変化の先にある進化,そして本当の浸透をめざすHadoopとSpark (Gihyo.jp)
先進ユーザーがリードするHadoop/Spark応用事例~Sparkで5倍の性能アップ~ (ThinkIT)
Beyond Hadoop ─Databricks共同創業者に訊くApache Sparkのポテンシャル (Gihyo.jp)
Hadoopは分散処理のプラットフォームになる~米Clouderaエンジニア (クラウドWatch)

 


■日時
2016年2月8日(月) 10:00~19:00 (受付開始 9:30)

■会場
きゅりあん (東京都品川区、大井町駅すぐ)

■主催
日本Hadoopユーザ会

■スポンサー(申込順)
リクルートテクノロジーズ、MapR Technologies、Cloudera、日本アイ・ビー・エム、Hortonworks Japan、NTTデータ

■プログラム

  Keynote
10:00 ご挨拶、Hadoopを取り巻く環境2016 [講演資料]
 濱野 賢一朗 (日本Hadoopユーザー会, NTTデータ)
Hadoopの現在と未来 [講演資料]
 鯵坂 明(Hadoopコミッタ)、小沢 健史(Hadoopコミッタ)
Yahoo! JAPANのデータプラットフォームの全体像と未来
 遠藤 禎士(ヤフー)
Hadoopのストレージの現状と展望 [講演資料]
 Todd Lipcon(Cloudera)
Spark Conference Japanの開催にあたって [講演資料]
 猿田 浩輔(Apache Sparkコミッタ)
Spark 2.0: What’s Next [講演資料]
 Reynold Xin(Databricks)
さくらインターネットが構築した、Apache Sparkによる原価計算システム
 須藤 武文(さくらインターネット)
  A会場
B会場
C会場
D会場
ランチ会場
ライトニングトーク
ランチ会場
ライトニングトーク
ランチ会場
Apache Spark 超入門 [講演資料]
猿田 浩輔(NTTデータ)
13:00 データドリブン企業における、Hadoop基盤とETL ~niconicoでの実践例~ [講演資料1] [講演資料2]
嶋内 翔(Cloudera)
志村 誠(ドワンゴ)
YARN: Resource Manager for Analytic Platform
小沢 健史(NTT)
ストリーミングアーキテクチャ: State から Flow へ [講演資料]
草薙 昭彦(MapR Technologies)
次世代アーキテクチャから見たHadoop/Sparkの位置づけ ~特にRDMA・NVMを軸としたときの分散並列処理の観点から
神林 飛志(ノーチラステクノロジーズ)
13:45 On-Premises Hadoopクラスタ構築の苦労体験と運用ノウハウ
松浦 晋(SoftBank)
関谷 雅宏(SoftBank)
KuduによるHadoopのトランザクションアクセスと分析パフォーマンスのトレードオフ解消 [講演資料]
Todd Lipcon(Cloudera)
リクルートライフスタイルの考えるストリームデータの活かし方 ~AWS + Kafka + Spark Streaming~ [講演資料]
車田 篤史(リクルートライフスタイル)
堤 崇行(NTTデータ)
ビッグデータ可視化の性能を徹底検証 ~SparkSQL、Hive on Tez、Hive LLAPを用いた既存RDBデータ処理の特徴~ [講演資料]
新郷 美紀(NEC)
蒋 逸峰(Hortonworks)
14:30 顧客事例から学んだ、エンタープライズでの”マジな”Hadoop導入の勘所 [講演資料]
立山 重幸(日本オラクル)
今あらためて考えるHive ~ユースケースの広がりにより顕在化した課題と対応~
吉田 耕陽(NTTデータ)
さくらインターネットが構築した、Apache Sparkによる原価計算システムの仕組みとその背景
須藤 武文(さくらインターネット)
Spark MLlib Now and Beyond [講演資料]
石川 有(リクルートテクノロジーズ)
15:15 基幹業務もHadoopで!! ~ローソンにおける店舗発注業務へのHadoop + Hive導入と、 その取り組みについて~ [講演資料]
須田 桂伍(フューチャーアーキテクト)
Hiveを高速化するLLAP [講演資料]
小澤 祐也(ヤフー)
Deep Dive into Project Tungsten [講演資料]
Reynold Xin(Databricks)
SparkによるGISデータを題材とした時系列データ処理 [講演資料]
鈴木 由宇(IHI)
土橋 昌(NTTデータ)
16:00 Maintainable Cloud Architecture of Hadoop [講演資料]
佐々木 海(Treasure Data)
Hadoop Security Recap: -セキュリティ関連の概要/近況のおさらいとLDAP/AD, Kerberos, Apache Ranger [講演資料]
今井 雄太(Hortonworks)
Exploiting GPUs in Spark [講演資料]
石崎 一明(日本アイ・ビー・エム)
Hive on Sparkを活用した高速データ分析 [講演資料]
加嵜 長門 (DMM.comラボ)
   懇親会・ライトニングトーク (17:00-19:00) - 参加費:2000円

 ■ ライトニングトーク

▼ランチタイム: A会場

  • いろいろなストリーム処理プロダクトをベンチマークしてみた [発表資料] (三木 健司, ヤフー)
  • 僕の考える最強のビックデータエンジニア [発表資料] (山田 雄, リクルートライフスタイル)
  • TensorFlowの分散処理技術とGoogleの機械学習プロダクト [発表資料] (佐藤 一憲, Google)
  • 金融機関でのHive/Presto事例紹介 [発表資料] (岩永 亮介, Amazon Web Services Japan)
  • サポートメンバは見た! Hadoopバグワースト10 [発表資料] (鯵坂 明, NTTデータ)
  • 本当にあったHadoopの恐い話~Blockはどこへきえた? [発表資料] (山下 真一, NTTデータ)

▼ランチタイム: B会場

  • 自動的なビッグデータ機械学習技術:Spark上で複数の学習アルゴリズムの自動選択が可能に [発表資料] (上田 晴康, 富士通研究所)
  • Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発 [発表資料] (河原 亮, 日本アイ・ビー・エム)
  • JVM, OSレベルのチューニングによるSparkアプリケーションの最適化 [発表資料] (千葉 立寛, 日本アイ・ビー・エム
  • データサイエンスにおける一次可視化からのSpark on Elasticsearchの利用 (大木 基至, NTTコミュニケーションズ)
  • グラフデータベース事始め [発表資料] (中井 亮矢, 日本オラクル)
  • GunosyにおけるSpark Streaming活用事例 [講演資料] (森本 淳司, Gunosy)

▼懇親会

  • NetflixにおけるPresto/Spark活用事例 [発表資料] (岩永 亮介, Amazon Web Services Japan)
  • Fluentd and Kafka [発表資料] (Masahiro Nakagawa, Treasure Data)
  • スキーマつきストリームデータ処理基盤、Confluent Platformとは? [発表資料] (木村 宗太郎, ドワンゴ)
  • 5分で身に付く! Apache Hadoop開発 [発表資料] (鯵坂 明, NTTデータ)
  • NIIでいろいろなHadoop環境(だけじゃないけど)を作ったり壊したり動かし続けたりしている話 [発表資料] (谷沢 智史, ボイスリサーチ)
  • 運用作業の証跡も,再利用する手順の記述も,教材作成もLiterate Computingでやってみる [発表資料] (政谷 好伸, 国立情報学研究所)
  • Spark Streamingで作る、つぶやきビッグデータのクローン [発表資料] (野田 純一, GMOインターネット, 秋葉原IT戦略研究所)
  • Mesos/Hashicorpで実現するSparkの柔軟な実行環境 (木内 満歳, クリエーションライン)
  • Apache Sparkがリアルタイム分析でNOSQLのApache Cassandraに出会った。(ウルルン風) [発表資料] (原沢 滋, DataStax)
  • Apache Kylinについて [発表資料] (古山 慎悟, ヤフー)

続きを読む »

1月 30

Hadoop / Spark Conference Japan 2016のライトニングトーク候補の投票結果

Hadoop / Spark Conference Japan 2016のライトニングトーク企画に、多くの方から候補案をエントリ頂きました。会場や時間の制約のため、全員に発表頂くのは難しいため、投票により選定させてもらうことになりました。投票はWeb上のフォームを通じて、ひとり最大10件の候補を選択する仕組みで、2016年1月21日~1月27日に実施しました(全280件の投票)。

結果は次のグラフの通りとなり(PDF版)、42票以上を獲得した22件(ランチタイム12件+懇親会時 10件)の案を選定することになりました。エントリ頂いた皆さま、投票頂いた皆様、ご協力ありがとうございました。

イベント当日のライトニングトークのプログラムは、イベントページをご確認ください。

result_HCJ2016_LT

皆さんから提案頂いた案は次のとおりです。

続きを読む »

1月 29

日本で活動する岩崎さんがHadoopコミッタに就任

日本で活動する岩崎 正剛さん(株式会社NTTデータ)が、Hadoopのコミッタに就任したと発表されました。

以下は、メーリングリスト hadoop-general  でアナウンスされた内容です。

On behalf of the Apache Hadoop PMC, I am pleased to announce that Masatake Iwasaki has been elected as a committer on the Apache Hadoop project. We appreciate all of Masatake’s hard work thus far, and we look forward to his continued contributions.

Welcome Masatake!

コミッターはソースコードなどの変更などの権限を有する開発者のことです。これからの活躍が期待されます。

古い記事へ «