2月 08

Hadoop / Spark Conference Japan 2016(2月8日、東京)の講演・LTのプログラム

日本Hadoopユーザー会主催イベント「Hadoop Conference Japan 2016」「Spark Conference Japan 2016」を2月8日に東京・品川区内で開催しました。

今回は、Spark Conference Japanをはじめて併催しました。Apache Sparkの主要開発者である Xin Reynold 氏(Databricks)をお招きして、次期バージョンSpark 2.0の最新情報をご紹介頂きました。様々な講演者が集結し、技術トピックはもちろんのこと、Yahoo! Japan、さくらインターネット、niconico、ソフトバンク、ローソン、リクルートライフスタイル、IHI等によるHadoop / Sparkの事例・取り組みも紹介されました。また、皆様に投票にご協力頂いたライトニングトーク選定の結果にもとづき魅力的な22件に発表頂きました。

このほか、会場内では、Hadoopゾウさんの登場、きらきらシールの配布、Hadoop/Spark書籍の特別販売、ランチやドリンクなどのご提供などを実施しました。する予定です。

イベントWebサイト: https://hcj2016.eventbrite.com/

イベントの様子は次のページでも取り挙げて頂いています
・ Apache Hadoopの現在と未来。YARNもHDFSも新しいハードウェアに対応して進化していく (Publickey)
・ Spark 2.0はフロントエンドAPIの創設と10倍の性能向上を目指す。早くも今年の5月頃登場予定 (Publickey)
・ Yahoo! JapanのHadoopクラスタは6000ノードで120PB。指数関数的に増大するデータ需要を技術で解決していく (Publickey)
YARN、HDFS、そしてSparkの将来像とは:「Hadoop/Spark Con」基調講演 (ZDNet Japan)

 


■日時
2016年2月8日(月) 10:00~19:00 (受付開始 9:30)

■会場
きゅりあん (東京都品川区、大井町駅すぐ)

■主催
日本Hadoopユーザ会

■スポンサー(申込順)
リクルートテクノロジーズ、MapR Technologies、Cloudera、日本アイ・ビー・エム、Hortonworks Japan、NTTデータ

■プログラム

  Keynote
10:00 ご挨拶、Hadoopを取り巻く環境2016 [講演資料]
 濱野 賢一朗 (日本Hadoopユーザー会, NTTデータ)
Hadoopの現在と未来 [講演資料]
 鯵坂 明(Hadoopコミッタ)、小沢 健史(Hadoopコミッタ)
Yahoo! JAPANのデータプラットフォームの全体像と未来
 遠藤 禎士(ヤフー)
Hadoopのストレージの現状と展望
 Todd Lipcon(Cloudera)
Spark Conference Japanの開催にあたって [講演資料]
 猿田 浩輔(Apache Sparkコミッタ)
Spark 2.0: What’s Next [講演資料]
 Reynold Xin(Databricks)
さくらインターネットが構築した、Apache Sparkによる原価計算システム
 須藤 武文(さくらインターネット)
  A会場
B会場
C会場
D会場
ランチ会場
ライトニングトーク
ランチ会場
ライトニングトーク
ランチ会場
Apache Spark 超入門 [講演資料]
猿田 浩輔(NTTデータ)
13:00 データドリブン企業における、Hadoop基盤とETL ~niconicoでの実践例~ [講演資料1] [講演資料2]
嶋内 翔(Cloudera)
志村 誠(ドワンゴ)
YARN: Resource Manager for Analytic Platform
小沢 健史(NTT)
ストリーミングアーキテクチャ: State から Flow へ [講演資料]
草薙 昭彦(MapR Technologies)
次世代アーキテクチャから見たHadoop/Sparkの位置づけ ~特にRDMA・NVMを軸としたときの分散並列処理の観点から
神林 飛志(ノーチラステクノロジーズ)
13:45 On-Premises Hadoopクラスタ構築の苦労体験と運用ノウハウ
松浦 晋(SoftBank)
関谷 雅宏(SoftBank)
KuduによるHadoopのトランザクションアクセスと分析パフォーマンスのトレードオフ解消
Todd Lipcon(Cloudera)
リクルートライフスタイルの考えるストリームデータの活かし方 ~AWS + Kafka + Spark Streaming~ [講演資料]
車田 篤史(リクルートライフスタイル)
堤 崇行(NTTデータ)
ビッグデータ可視化の性能を徹底検証 ~SparkSQL、Hive on Tez、Hive LLAPを用いた既存RDBデータ処理の特徴~ [講演資料]
新郷 美紀(NEC)
蒋 逸峰(Hortonworks)
14:30 顧客事例から学んだ、エンタープライズでの”マジな”Hadoop導入の勘所 [講演資料]
立山 重幸(日本オラクル)
今あらためて考えるHive ~ユースケースの広がりにより顕在化した課題と対応~
吉田 耕陽(NTTデータ)
さくらインターネットが構築した、Apache Sparkによる原価計算システムの仕組みとその背景
須藤 武文(さくらインターネット)
Spark MLlib Now and Beyond
石川 有(リクルートテクノロジーズ)
15:15 基幹業務もHadoopで!! ~ローソンにおける店舗発注業務へのHadoop + Hive導入と、 その取り組みについて~
須田 桂伍(フューチャーアーキテクト)
Hiveを高速化するLLAP
小澤 祐也(ヤフー)
Deep Dive into Project Tungsten [講演資料]
Reynold Xin(Databricks)
SparkによるGISデータを題材とした時系列データ処理
鈴木 由宇(IHI)
土橋 昌(NTTデータ)
16:00 Maintainable Cloud Architecture of Hadoop [講演資料]
佐々木 海(Treasure Data)
Hadoop Security Recap: -セキュリティ関連の概要/近況のおさらいとLDAP/AD, Kerberos, Apache Ranger [講演資料]
今井 雄太(Hortonworks)
Exploiting GPUs in Spark [講演資料]
石崎 一明(日本アイ・ビー・エム)
Hive on Sparkを活用した高速データ分析 [講演資料]
加嵜 長門 (DMM.comラボ)
   懇親会・ライトニングトーク (17:00-19:00) - 参加費:2000円

 ■ ライトニングトーク

▼ランチタイム: A会場

  • いろいろなストリーム処理プロダクトをベンチマークしてみた (三木 健司, ヤフー)
  • 僕の考える最強のビックデータエンジニア [発表資料] (山田 雄, リクルートライフスタイル)
  • TensorFlowの分散処理技術とGoogleの機械学習プロダクト [発表資料] (佐藤 一憲, Google)
  • 金融機関でのHive/Presto事例紹介 [発表資料] (岩永 亮介, Amazon Web Services Japan)
  • サポートメンバは見た! Hadoopバグワースト10 [発表資料] (鯵坂 明, NTTデータ)
  • 本当にあったHadoopの恐い話~Blockはどこへきえた? [発表資料] (山下 真一, NTTデータ)

▼ランチタイム: B会場

  • 自動的なビッグデータ機械学習技術:Spark上で複数の学習アルゴリズムの自動選択が可能に (上田 晴康, 富士通研究所)
  • Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発 (河原 亮, 日本アイ・ビー・エム)
  • JVM, OSレベルのチューニングによるSparkアプリケーションの最適化 [発表資料] (千葉 立寛, 日本アイ・ビー・エム
  • データサイエンスにおける一次可視化からのSpark on Elasticsearchの利用 (大木 基至, NTTコミュニケーションズ)
  • グラフデータベース事始め [発表資料] (中井 亮矢, 日本オラクル)
  • GunosyにおけるSpark Streaming活用事例 [講演資料] (森本 淳司, Gunosy)

▼懇親会

  • NetflixにおけるPresto/Spark活用事例 [発表資料] (岩永 亮介, Amazon Web Services Japan)
  • Fluentd and Kafka [発表資料] (Masahiro Nakagawa, Treasure Data)
  • スキーマつきストリームデータ処理基盤、Confluent Platformとは? [発表資料] (木村 宗太郎, ドワンゴ)
  • 5分で身に付く! Apache Hadoop開発 [発表資料] (鯵坂 明, NTTデータ)
  • NIIでいろいろなHadoop環境(だけじゃないけど)を作ったり壊したり動かし続けたりしている話 [発表資料] (谷沢 智史, ボイスリサーチ)
  • 運用作業の証跡も,再利用する手順の記述も,教材作成もLiterate Computingでやってみる [発表資料] (政谷 好伸, 国立情報学研究所)
  • Spark Streamingで作る、つぶやきビッグデータのクローン [発表資料] (野田 純一, GMOインターネット, 秋葉原IT戦略研究所)
  • Mesos/Hashicorpで実現するSparkの柔軟な実行環境 (木内 満歳, クリエーションライン)
  • Apache Sparkがリアルタイム分析でNOSQLのApache Cassandraに出会った。(ウルルン風) [発表資料] (原沢 滋, DataStax)
  • Apache Kylinについて (古山 慎悟, ヤフー)

続きを読む »

1月 30

Hadoop / Spark Conference Japan 2016のライトニングトーク候補の投票結果

Hadoop / Spark Conference Japan 2016のライトニングトーク企画に、多くの方から候補案をエントリ頂きました。会場や時間の制約のため、全員に発表頂くのは難しいため、投票により選定させてもらうことになりました。投票はWeb上のフォームを通じて、ひとり最大10件の候補を選択する仕組みで、2016年1月21日~1月27日に実施しました(全280件の投票)。

結果は次のグラフの通りとなり(PDF版)、42票以上を獲得した22件(ランチタイム12件+懇親会時 10件)の案を選定することになりました。エントリ頂いた皆さま、投票頂いた皆様、ご協力ありがとうございました。

イベント当日のライトニングトークのプログラムは、イベントページをご確認ください。

result_HCJ2016_LT

皆さんから提案頂いた案は次のとおりです。

  • 僕の考える最強のビックデータエンジニア
    オンプレ、クラウドが競合する中で今後のビックデータエンジニアはどうあるべきか、どの様な技術を持ったエンジニアが今後生き延びて行けそうかを話したいと思います。
  • Common Spark performance issues and how to overcome them】(英語での発表)
    Spark is advertised as a framework which can run up to 100 times faster than Hadoop’s MapReduce. This can be true but only if we pay attention to the details. In this LT I will present some of the most common performance-related problems Software Engineers make and how to deal with them.
  • グラフデータベース事始め
    Sparkの活用と共に俄然注目を浴びるグラフデータベース。Apache Tinkerpopの仲間たちも加えて、更に勢力を増していますが、そもそもグラフってなんだかわかんない。とりあえず構築してみたものの何やっていいのかわかんない。そんなあなたをもうひと押し!一般的なグラフの基礎から分析の基本的な考え方をお伝えします。
  • 5分で身に付く! Apache Hadoop開発
    Hadoopのパッチを書いてみたい、でも、敷居が高そうだしやっぱりやめておこうかな、・・・と思っているそこのあなた! パッチを書くことはとっても簡単です! パッチを書き、それがマージされるまでの流れについて、本LTで紹介してみせます。
  • いろいろなストリーム処理プロダクトをベンチマークしてみた
    ストリーム処理でOSSのStorm, Spark streaming, Flink streaming, Samzaでベンチマークをとってみました。各プロダクトの特徴、ベンチマーク結果を簡単ながら紹介します。ストリーム処理のOSSを数多くベンチマークした資料はあまりなく、ベンダーの情報でないので参考になればと思います。
  • スキーマつきストリームデータ処理基盤、Confluent Platformとは?
    最近リアルタイム処理用のプロダクトとしてKafkaが広まってきていますが、スキーマレスなため、どのようなメッセージが入っているか管理が困難、データ形式更新時に影響範囲が見えないといった課題があります。これらの課題を解決し、組織全体のストリームデータ基盤を構築するためにKafka開発チームによって提案されているのがスキーマつきストリームデータ基盤OSS、『Confluent Platform』です。Confluent Platformのアーキテクチャや機能、使いどころや利点について紹介します。
  • Development of historic data management in Hadoop
    JTのHistoryData管理、MR2のHistoryServer、TimeLineServer、TimeLineServer v.2.それぞれの違い、期待、良かったところ、足りなかったところについての軽い話
  • サポートメンバは見た! Hadoopバグワースト10
    NTTデータでは2011年からHadoopサポートサービスを実施しており、顧客からの問い合わせに日々回答を続けています。これまでのサポートサービスの歴史で出くわした、Hadoopの多種多様なバグについて、影響範囲・対処法も含めて一挙紹介します。
  • DistCpは何が速くなったのか?
    データ移行やバックアップには欠かせないお馴染みのDistCpですが、枯れたツールもまだまだ進化が進んでいます。本LTでは、最新のDistCpで改善されたパフォーマンスについて紹介します
  • もう巨大スキャンで落ちない!HBaseの最新SCAN事情
    HBaseのスキャンには、取得サイズが大きすぎるとOutOfMemoryErrorを誘発する問題がありました。本LTでは、HBase 1.1.0で改善されたスキャンのハンドリングについて紹介します
  • Apache Ranger検証で気になったところ
    Hadoopエコシステムについてのアクセスコントロール機能を提供するApache Rangerについて、Yahoo! Japanで行った検証や、気になったことについて解説します。
  • GunosyにおけるSpark Streaming活用事例
    弊社でのSpark Streamin活用事例を紹介いたします。全体構成、開発および運用の工夫点、ハマりどころ等。
  • NIIでいろいろなHadoop環境(だけじゃないけど)を作ったり壊したり動かし続けたりしている話
    国立情報学研究所(NII)では、BIGCHA 2015、トップエスイーなどでHadoopを利用した集中講義を実施したり、研究目的でいろいろなクラスタを必要に応じて構築・運用したりしています。学術機関の利用者ですと、利用目的により必要な構成、設定が異なってきます。例えば、セキュリティの設定を必要としていたり、最新のパッケージを使いたかったり、Hadoop外のツールがほしかったり、付帯的なソフトウェアも含めたかったり、プロビジョニング対象が異なったりなど。これらの、少しずつ異なる環境の構築・運用作業を、JupyterやAnsibleといったソフトウェアを活用しつつ再現可能かつ再利用しやすい形で実施していくことを追求しています。そこでの闘いの記録をお話ししたいと思います。
  • 先進的デバイスを用いたデータ基盤の高性能化
    我々は先進的デバイスを用いたデータ基盤の高性能化に取り組んでいる。本講演では ioDriveを用いたWALの高性能化、分散処理を用いた類似検索の高性能化、RDMAを用いた高速データ処理等について述べる。
  • Apache Myriad – YARN と Mesos の融合
    HadoopではYARNがクラスタ内のリソースの割り当てを行うリソースマネージャの働きをしていますが、データセンター内の汎用的なリソース管理フレームワークとしてはApache Meses もポピュラーです。Spark, Kafka, Storm, Elasticsearch といった数々のソフトウェアが Mesos に対応し、Apple, Twitter, eBay といった企業が活用していることでも有名です。YARN と Mesos はどこが似ていてどこが似ていないのか、という話から始めて、両者をスムーズに連携させる Apache Myriad をご紹介します。
  • HueからHadoopを使ってみよう!
    まだコンソールからHadoopを使っていませんか?Hadoopを利用するためのGUIといえばHue。デモを交えながらHueを紹介します
  • データサイエンスにおける一次可視化からのSpark on Elasticsearchの利用
    本LTでは、弊社のデータ分析基盤 DSL(Data Science Lab.)でのSparkの利用ケースを紹介する。DSLでは、蓄積データとリアルタイムデータの一次可視化のために、Elasticsearchを利用している。Elasticsearchに蓄積したデータにもSparkを利用することで、効率よく統計処理・分析が実行できた。本ケースは、ElasticsearchユーザのためのSparkの導入としても役立ち得る。
  • HBaseでいかにデータ整合性を担保するか
    HBaseでデータ整合性を保つテクニックを紹介します。サイバーエージェントではHBaseを用いたグラフDB「Hornet」を開発・運用しており、ソーシャルグラフデータを日々蓄積しています。Hornetにデータを追加する際には、実データの他にインデックスやカウントデータなど複数のデータをHBaseに追加する必要があります。HBaseでは複数Rowにまたがったトランザクション機能がないので、エラー発生時に、これらのデータが不整合を起こす可能性があります。Hornetでは、このデータ不整合を防ぐべく、HBaseのCoprocessorを用いたり、カスタマイズを行っています。今回は、そのテクニックのいくつかを紹介させていただきます。
  • 本当にあったHadoopの恐い話~Blockはどこへきえた?
    トラブルも無く運用を続けていたHadoop環境。朝出勤してみると、HDFSでブロックが消えるという異常が発生!サーバ故障やDataNode離脱が起きていない状況で何故消えたのか。調査をすると、Hadoopに致命的な罠が潜んでいたのであった…
  • PigでHiveの関数をつかってみた
    データフロー形式で処理を定義することができるApache Pig。SQLライクなApache Hiveに比べて陰は薄いものの、着実に進歩しています。Apache Pigで細かな処理を定義する場合は、独自にユーザ定義関数を作成することが一般的ですが、そのユーザ定義関数として、Apache Hiveで利用するユーザ定義関数が利用できるようになっています。本LTでは、PigでHive関連のUDFを使ってみた話を発表します。
  • New and Developing Features in Spark
    最近自分が投げたパッチとか、興味深かったパッチの内容を幾つか紹介します
  • Fluentd and Kafka
    Hadoopと組み合わせてよく使われるKafkaとFluentdとの連携について話します.
  • Apache Ambari: ここまでできる Hadoopの運用管理
    OSSのHadoop運用管理ツールであるApache Ambariをご紹介します。Ambariは「Hadoop for Everyone」という大きいビジョンを掲げています。Ambariを使用したHadoopのクラスタ管理、構成管理、クラスタ監視、サービス管理やAmbariの拡張性をお伝えします。また、最新のAmbariアップデートもご紹介します。最新Ambariでここまでできる、Hadoopの運用管理!お楽しみにしてください
  • Apache Kylinについて
    2015年にトッププロジェクトに昇格した低レイテンシクエリ実行エンジンであるApache Kylinについて、Yahoo! Japanでの検証結果も交えつつ、アーキテクチャの概要や効果的な用途について紹介します。
  • Introduction to New features of Hivemall v0.4.x
    HCJ 2014で紹介して以来、HivemallはRandomForest、Factorization Machines、Matrix Factorization、AdaGrad/AdaDelta等の機能強化を行っている。Hivemall v0.4.1でサポートしている機能と開発ロードマップの紹介を行う。
  • TensorFlowの分散処理技術とGoogleの機械学習プロダクト
    Googleが公開したMLフレームワークTensorFlowの真価は、いかにしてMLや深層学習の大規模行列演算を分散系にスケールアウトさせるかにあります。本セッションでは、Googleが最近公開したML製品と特長と、それを支えるTensorFlowの分散技術を解説します。
  • 自動的なビッグデータ機械学習技術:Spark上で複数の学習アルゴリズムの自動選択が可能に
    機械学習をビッグデータに適用する際には、各種の機械学習とその並列処理を熟知したデータサイエンティストが不可欠でした。そこで、だれでも機械学習が使えるようにするために、MLLIbはもちろんRやPythonの機械学習ライブラリを含む10種類以上の機械学習アルゴリズムとそのハイパーパラメータの最適な組合せを自動的に探索する技術をSpark上に開発しました。データのサンプリングレートを増やしながら見込みのない組合せを枝刈りすることで、網羅的に機械学習をすると1週間程度かかる5000万件規模のデータを、数十分の1にあたる数時間で学習する事ができるようになりました。講演においては、想定利用シーン、開発技術の原理、および、動作概要のデモをお見せします。
  • 金融機関でのHive/Presto事例紹介
    金融機関が数百TB~数PBのデータをHive/Prestoをクラウド上で活用している事例をご紹介します。
  • Apache Phoenix: High performance Relational Database Layer over HBase for Low Latency Applications
    PhoenixはHBaseデータをSQL使った簡単かつ高速にアクセスさせるためのHBase上のSQLレイヤーです。Phoenixの機能特徴、向いている処理、アーキテクチャ、HBaseの仕組みを活かした高速なクエリやチューニングポイントを技術的に掘り下げてご紹介します。
  • NetflixにおけるPresto/Spark活用事例
    Netflixが25PBのAmazon S3のデータをPresto/Sparkで活用している事例をご紹介します。
  • Apache Sparkを用いたスケーラブルな時系列データの異常検知モデル学習ソフトウェアの開発
    様々な機器類を監視するセンサーの時系列データを分析し、異常を検知する手法およびソフトウェアの研究開発を行ってきた。今回紹介するソフトウェアでは、バッチ処理で複数のセンサーから得られた高次元の時系列データから線形のLASSO回帰によりモデルを学習し、異常を識別する。しかし学習時間やメモリー使用量の増大が課題になってきたため、Sparkを活用し分散並列化を行った。SparkにはMLlibという汎用的な機械学習ライブラリが存在するが、今回は使用するアルゴリズムの特徴を考慮し、既存実装を基に新規に開発した。当開発におけるデザインチョイスや性能計測結果について報告する。
  • ちょっと特殊なアプリでのSparkとHadoopとの比較
    学術的な場において,研究ツールとしてHadoop MapReduceやSparkといった汎用分散処理システムを利用することは少なくない.本研究室で扱っている大規模な分散システム向けのシミュレータがその一例である.今回,大学での研究におけるSparkの利用事例として,シミュレータを用いた研究を紹介する.研究の中で取り組んだHadoop MapReduceからSparkへのアプリケーションの移行についての紹介や,移行の前後でのシミュレータ性能の比較を行う.また,それらから得られたSpark利用における知見を述べる.
  • Apache Sparkがリアルタイム分析でNOSQLのApache Cassandraがに出会った。(ウルルン風)
    オペレーショナルなNOSQLのApache CassandraとApache Sparkでリアルタイム分析をどのように実現できるのか、Open SourceのSpark-Cassandra-Connectorを簡単に説明いたします
  • Spark Streamingで作る、つぶやきビッグデータのクローン
    Apache Sparkを利用したTwitterデータ解析システムの例を紹介します。具体的にはSpark Streamingを使ったNHKの「つぶやきビッグデータ」クローンシステム(オープンソース・ソフトウェア)を作りましたのでシステムの詳細を紹介します。実際に作成したシステムを使って徳島OSC、広島OSC、島根OSCでは会場に展示してもらい、イベントに関するTwitterの呟きを展示してもらいましたのでその結果なども公表します。今回作成したソフトはSparkスタンドアローンで動作し、視覚的にもわかりやすいためSparkを触ったことがないエンジニアがSparkを扱うきっかけになると思います。「Sparkを始めてみたいけど、何に使えるのかわからない」そんな方に特に聞いていただきたい内容になります。
  • Hadoop互換ファイルシステムのActive-Activeリプリケーション
    ネットワークにおいて合意の問題を解決するためのプロトコルであるPaxosに基づく分散Coordination Engineを使ったApache Hadoop互換ファイルシステム間での複製について紹介する。複数の(異なるディストリビューションも含め)HadoopクラスタでのHA/DR、マイグレーション、Vision-UPが可能。HDFSとアマゾンS3、EMC Isilon等のHadoop互換ファイルシステムとの間での複製も可能となる。Hadoopを複数データセンタへ展開、クラウドとのハイブリッド環境で展開する際のソリューションとして、事例も含めた紹介を行う。
  • Mesos/Hashicorpで実現するSparkの柔軟な実行環境
    講演ではMesosとDockerの利点を活かし、複数の分析用環境や複数のバージョンを切り替えることのできる柔軟な分析環境の構築、および分析環境が共有・管理される場合のHashicorpConsulを活用した可視性・追跡性の高い管理方法について解説いたします。利用者は開発環境における試作サービスをシームレスに大規模運営に移行することができるとともに、各担当部署の作業負荷を明確に削減することが可能となります。
  • JVM, OSレベルのチューニングによるSparkアプリケーションの最適化
    本講演では,Sparkアプリケーションをより高速に実行させるため,Sparkを実行するシステム側(JVM,OS)からのパフォーマンスチューニング手法について説明する.TPC-HベンチマークやMLlibのアルゴリズムなど様々なワークロードに対して,GCアルゴリズムやJVMオプション,ExecutorJVM数などを調整するJVM側からの最適化,NUMAやラージページを用いたOS側からの最適化を通じて,Sparkアプリケーションの性能がどのように向上するかについて,Spark1.5および1.6を用いて検証した結果を報告する.
  • Spark StreamingをMackerelで監視したらこうなったよ
    みなさん、Sparkの運用監視ってどうしてますか?私たちのプロジェクトではインフラ周り担当者の負担を考え、最低限使うツールははてな社のMackerelというサービスに統一しています。ではMackerelをどう活用してSparkを運用しているか?その勘所をお話します。
  • HTraceによるHadoopの分散処理のトレーシング
    Hadoopは多数のサーバノードで分散して処理を行うため、意図しない動作や性能劣化が見られたときに、ログメッセージやデバッガ、プロファイラ等を利用して解析を行うことが難しくなります。Apache HTraceはそのような分散システムの動作を解析するためのツールとして開発され、Hadoopに組み込まれて利用できるようになりました。このセッションでは、HTraceビルトインのツールを利用した、トレース情報の収集および解析の要領などを紹介します。
  • 運用作業の証跡も,再利用する手順の記述も,教材作成も Literate Computing でやってみる
    国立情報学研究所(NII)では、研究者向けのクラウドを運用・サービス提供するに際してLiterate Computing for Reproducible Infrastructure という考え方を提案している。 日々の運用作業の証跡を記録する、そこから手順を整理して再利用する、マニュアルや教材を整備するなど複数局面での計算機利用を、同じような粒度で記述・蓄積することを目的としてJupyterを活用している実践を紹介する。スキルセットの異なる運用者間ひいては利用者との間でもHadoopやSparkなど複雑なインフラの構築やカスタマイズ,運用ノウハウに関する伝達・教示を容易にすること。また,計算機環境の構築・運用・利用のすべての局面において環境のトレーサビリティや再現性を担保できるようにすること。卑近には運用スキルの属人化,ブラックボックス化を避けること。 これらの課題感にLiterate Computingでどこまで対処できたか、できそうか話してみたい。

1月 18

【ご案内】 Hadoop / Spark Conference Japan 2016(2016/02/08)を開催します

Hadoop Spark Conference Japan 2016

Hadoop Conference Japanは、並列分散処理フレームワーク Apache Hadoop および周辺のオープンソースソフトウェアに関するイベントです。日本Hadoopユーザー会の有志によって運営されます。今回で6回目の開催となります。

今回は、Apache Spark に関するイベント Spark Conference Japan 2016 を併催します。

Hadoopや並列分散処理に興味のある技術者の方はご自由に参加頂けます。イベント終了後に懇親会を行います。併せてご参加ください。

日時: 2016年2月8日(月) 10:00~19:00 (受付開始 9:30)
会場きゅりあん (東京都品川区、大井町駅すぐ)
主催: 日本Hadoopユーザ会


■参加登録
参加される方は、イベントページより事前に登録をお願いします (参加費:無料)

1月 18

Hadoop / Spark Conference Japan 2016のスポンサー募集

2016月2月8日(月)に『Hadoop Conference Japan 2016』および『Spark Conference Japan』を東京・きゅりあん(品川区・大井町駅すぐ)で開催します。

Hadoop Conference Japan は2009年より開催しているApache Hadoopに関する総合イベントで、毎回1000名程度の皆様にお越しいただいています。今回は、Apache Sparkに関するイベント Spark Conference Japan をはじめて併催します。

本イベントのスポンサー企業を募集します。詳細は添付の資料をご確認ください。

Hadoop_Spark_Conference_Japan_2016_スポンサー案内(PDF)
HCJ2016スポンサー申込書(Word文書)
HCJ2016スポンサー申込書_記入例(PDF)

スポンサーをご希望の場合には、上記の申込書に記入(押印もしくは署名)したものをスキャンしてPDF形式としたものを hcj2016@hadoop.apache.jp 宛にお送りください。2016年1月22日(金) 17時をもって締め切らせて頂きます。 募集数(7社)に達した場合は早く締め切る場合があります。 → 締め切りました。応募頂きました6社の皆様、ありがとうございます。

1月 04

【募集】Hadoop / Spark Conference Japan 2016 の講演・LT・特別企画

2016月2月8日(月)に『Hadoop Conference Japan 2016』および『Spark Conference Japan』を東京・きゅりあん(品川区・大井町駅すぐ)で開催します。

Hadoop Conference Japan は2009年より開催しているApache Hadoopに関する総合イベントで、毎回1000名程度の皆様にお越しいただいています。今回は、Apache Sparkに関するイベント Spark Conference Japan をはじめて併催します

開催に先立ち、講演発表、ライトニングトーク発表、特別企画に関する募集を行います。ご協力いただける方、ネタやアイデアをお持ちの方は、ぜひご応募ください! 締め切りました。多数の応募、ありがとうございました。


■講演発表

本カンファレンスでは20件程度のプレゼンテーションをお願いする予定です。講演で発表いただける方を募集します。発表時間は35分で、講演内容は、
* Hadoop/Sparkやそのエコシステムに関する技術的な内容
* Hadoop/Sparkを活用した事例、取り組み
* 並列分散処理に関わる技術や事例
などを想定しています。

講演を希望される方は、
・講演タイトル案
・講演概要(300文字程度)
・講演者(氏名、所属)
・メールアドレス
・発表したいイベント(Hadoop Conference Japan、Spark Conference Japanの必ずいずれかを選択
・発表内容の全体感がわかる資料(PDF形式で2~3枚程度の文書・スライド等) ※
を電子メールで hcj2016@todo.ne.jp1月12日(火)までにお送りください。発表者を選定し採否をお知らせします。

※ 同一の講演候補者が複数の講演にご応募頂くことは歓迎しますが、1つの応募(講演)につき1通ずつメールをお送り頂くようお願いします。

※ 資料の形式は自由ですが、過去の実績では、「アジェンダ案+特徴的な説明事項のスライド(1~2枚)」をプレゼンテーションツールで作成し、PDF形式に保存したものが多いです。当日のプレゼンテーションにむけて具体的な発表内容を有しているかを確認させて頂くものです。できる限り、発表内容を具体的に示すものをご準備頂くようお願いします。

※ 原則は日本語でのプレゼンテーションですが、英語での発表を希望される方は、その旨を記載してください。運営側では通訳などの準備は行いません。通訳を希望される方は、発表者にて手配をお願いします。

本カンファレンスは、あくまでApache HadoopやApache Sparkを中心とした「オープンソースソフトウェア」を対象としていますので、商用ソフトウェアや特定サービスに閉じたテーマはご遠慮いただく場合があります。ご理解ください。

■ライトニングトーク発表

本カンファレンスでは、6~12件程度のライトニングトーク(LT)を実施予定です。発表時間は各5分です。 希望される方は、
・講演タイトル
・講演概要
・講演者(氏名、所属)
・メールアドレス
を電子メールで hcj2016@todo.ne.jp1月15日(金)までにお送りください。発表者を選定し採否をお知らせします。

■特別企画

カンファレンス内での企画を募集します。会場内での催しやノベルティ作成など、内容は自由です。アイデアをお持ちの方は、お早めに hcj2016@todo.ne.jp にご連絡ください。実現性の可否を検討させていただきます。過去の開催では、Hive Tシャツ、Hiveシールなどの企画が寄せられました。

採用された場合、実施に向けた調整に実行委員も協力させていただくとともに、当日の参加者に企画を紹介させていただきます。企画実施にあたり、実行委員も協力しますが、基本的には提案者の方が主体となって推進して頂けることを想定しています。あらかじめご理解ください。アイデアが採用された場合には、制作や実施に関わる費用は、可能な範囲で、主催で支援したいと考えています。

◆イベント概要

日本Hadoopユーザー会は、第6回目のカンファレンス「Hadoop Conference Japan 2016」を2月8日に開催します。Apache Hadoopやそのエコシステム、周辺の並列分散処理に関する技術や事例を一同に集め、多くの方が出会える場として企画を進めています。

今回は、Apache Sparkに関するイベント Spark Conference Japan をはじめて併催します。

名称: Hadoop Conference Japan 2016 / Spark Conference Japan 2016
日程: 2016年2月8日(月) 終日
会場: きゅりあん(東京都品川区・大井町駅すぐ)
主催: 日本Hadoopユーザー会

◆その他のお問合せ

ご要望やご意見などがありましたら
Twitter: @hamaken (濱野 賢一朗 / NTTデータ)
電子メール: hcj2016@todo.ne.jp
にご連絡ください。

12月 03

日本で活動する関さんがYetusコミッターに就任

日本で活動する関 堅吾さん(株式会社NTTデータ)が、Hadoopのテストフレームワークプロジェクト Apache Yetus のコミッターに就任したと発表されました。

以下は、メーリングリスト yetus-dev でアナウンスされた内容です。

On behalf of the Apache Yetus PMC, I’m absolutely thrilled to announce Kengo Seki as a committer (and the first since becoming a TLP!) to the Apache Yetus project.  Kengo has been working with Yetus for quite a while, having begun while it was still a part of the Apache Hadoop project.   With significant contributions all over the various tools, Kengo’s acceptance of the role is a fantastic addition to the community and we’re all very excited about it!

Please join me in congratulating Kengo!

コミッターはソースコードなどの変更などの権限を有する開発者のことです。関さんはYetusがHadoopプロジェクトから独立する以前からHadoopのテストフレームワークの開発に参加しており、これまでの開発活動の実績が認められて、選定されたものと思われます。これからの活躍が期待されます。

11月 11

Cloudera World Tokyo 2015 のライトニングトークセッション開催

2015年11月10日(火)に開催されたイベント Cloudera World Tokyo 2015 会場内のステージをおかりして、日本Hadoopユーザー会としてライトニングトークセッションを実施しました。HadoopやSparkの最新動向、運用上の工夫、周辺ツール、各社の取り組みなどをお届けしました。

■イベント概要
日程: 2015年11月10日(火)
会場: 目黒雅叙園内 Cloudera World Tokyo 2015会場内
(詳細: https://clouderaworld.tokyo/
主催: 日本Hadoopユーザー会
会場提供: Cloudera株式会社
参加費 : 無料

また、ライトニングトーク以外にも、日本Hadoopユーザー会として13:40~14:20に入門者向けセッションを実施しました。

▽『Hadoopの理解にちょっと自信がない皆さんに贈る 40分でわかるHadoop徹底入門』
日本Hadoopユーザー会 濱野賢一朗氏 (株式会社NTTデータ)

■ライトニングトークのプログラム

12:45~13:00 CDH 4->5へのUPDATE苦労話
山田 雄 / リクルートライフスタイル
13:00~13:15 HDFS新機能総まとめ in 2015
鯵坂 明 / NTTデータ, Hadoopコミッタ 資料
13:15~13:30 HDFS Erasure Codingの実装と工夫
佐々木 海 / TreasureData K.K. 資料
13:40~13:55 Amebaのログ転送管理システムMineとその活用について
斎藤 貴文 / サイバーエージェント
13:55~14:10 もっともっとHadoopを使ってみよう!
Hadoop活用の裾野を広げるオラクルの取り組みご紹介!
立山 重幸 / 日本オラクル
14:10~14:20 Big Data and Geo Analytics
髙瀬 啓司 / ESRIジャパン
14:35~14:50 初心者向けSparkの入門
土橋 昌 / NTTデータ
14:50~15:05 Spark Streamingで作る、つぶやきビッグデータのクローン
野田 純一 / 秋葉原IT戦略研究所 資料
15:05~15:20 hivemall-on-sparkの紹介とApache SparkにおけるHiveUDF系IFの対応状況
山室 健
15:40~15:55 Spark Summit Europeに行ってきたのでポイントをご紹介
土橋 昌 / NTTデータ
15:55~16:10 Running Kudu – how does it work on MapReduce framework?
Tsuyoshi Ozawa / Apache Software Foundation 資料
16:10~16:25 Introducing Apache Yetus
関 堅吾 / NTTデータ
16:35~16:50 HTrace 4の紹介
岩崎 正剛 / NTTデータ, HTraceコミッタ
16:50~17:05 Relationship between JDK  and Hadoop
Tsuyoshi Ozawa / Apache Software Foundation
17:05~17:20 MetricsSinkを書いてみた
岩崎 正剛 / NTTデータ
ドリンク
パーティー
機械学習アルゴリズムがよくわからなくても大丈夫
~Sparkを用いたビッグデータ機械学習の自動化~
上田 晴康 / 富士通研究所
ドリンク
パーティー
Hadoopのメンテナンスバージョンをリリースしてみた
鯵坂 明 / NTTデータ, Hadoopコミッタ 資料
ドリンク
パーティー
社内で使っていた Taildir を Apache Flume にコントリビュートするまで
飯島 賢志 / サイバーエージェント

3月 02

オープンソースカンファレンス 2015 Tokyo/Springで Hadoopのゾウさんが登場しました

2015年2月27日、28日で明星大学内で開催されたイベント 「オープンソースカンファレンス 2015 Tokyo/Spring」 の会場に、Hadoopのゾウさんが登場しました。

 

エルピック君と一緒に受付で記念撮影

エルピック君と一緒に受付で記念撮影

いっぱい撮ってもらいました

いっぱい撮ってもらいました

エルピック君と一緒にエレベータにものりました

エルピック君と一緒にエレベータにものりました

展示ブースも巡りました

展示ブースも巡りました

参加者や出展者の皆さんと仲良く交流させて頂きました。触れあって頂き、ありがとうございました!

2月 19

Hadoop特集@Software Design 2015年3月号

技術評論社 「Software Design 2015年3月号」 に、日本Hadoopユーザー会の濱野 賢一朗氏、鯵坂 明氏によるHadoopの特集が掲載されています。

特集タイトルは 『今年こそ並列分散処理を極めたい いまからでも遅くない Hadoop超入門』 です。

SoftwareDesign201503 Hadoop特集 表紙

SoftwareDesign201503 Hadoop特集 表紙

これからHadoopを学ぼうという方、Hadoopの理解を深めたい方、実際に触ってみたい方に適切な内容となっているはずです。ぜひご覧ください。

Software Design 2015年3月号は、電子書籍としてPDFで購入することも可能です(こちらから)。

2月 03

OpenStack Days Tokyo 2015で日本Hadoopユーザー会から講演

2015年2月3日・4日に東京・品川で開催されるイベント 『OpenStack Days Tokyo 2015』 内のコミュニティセッションにおいて、日本Hadoopユーザー会として二つの講演を担当します。

OpenStack Days Tokyo 2015
日時: 2015年2月3日(火)、4日(水)
会場: グランドプリンスホテル高輪 B1F
主催: OpenStack Days Tokyo 2015 実行委員会
詳細: http://openstackdays.com/index.html

講演内容

Saharaの紹介」 (2月3日 15:30~15:50)
Junoリリースより統合プロジェクト入りした、Apache HadoopやSparkといったビッグデータ分散処理基盤のプロビジョニングを行うSaharaを紹介します。また、NTT研究所のこれまでの取り組み や、Kiloリリースに向けた新機能についても紹介します。
講演者: 日本Hadoopユーザー会 及川 一樹 (日本電信電話株式会社)

20分でわかる Hadoop徹底入門」 (2月4日 15:30~15:50)
Hadoopが「何を実現するソフトウェアか」「どう活用できるか」「最近の動向はどうなっているのか」等、Hadoopを理解する上で欠かせないテーマを20分にぎゅっと凝縮してご紹介します。
講演者: 日本Hadoopユーザー会 濱野賢一朗 (株式会社NTTデータ)

古い記事へ «