WebDB2008

DB系国内唯一の査読ありワークショップDBWeb2008が二日間に渡り学習院大学で開かれた。
大まかな報告や感想を述べる。

○初日
・午前の特別セッション
情報爆発と情報信憑性について、
喜連川先生、Hang Li(マイクロソフト)、Xiaofang Zou(Queensland大)、田中先生がそれぞれ討論をしていた。情報爆発時代において、知識の共有や巡回を行うための基盤技術や、大量の情報の信憑性について話された。

・技術報告セッション
企業の人が15分以内で製品紹介や会社紹介をしていた。

楽天: 楽天研究開発シンポジウム2008の紹介
初の楽天発信のシンポジウムの試み。
キーノートには、まつもとひろゆき氏、アニリール氏(トルコ人宇宙飛行士)を招待。
学生のみの発表であり、口頭9, ポスター12
優秀論文賞の人は賞金10万、副は5万、優秀ポスターは5万。
投稿した大学は東工大、筑波大、北陸先端大などなど

NTT: Postgresへの取り組み
NTTのOSセンタ部署のPostgresへの改良・性能チェックの取り組みについての講演。
具体的には、
ガーベッジコレクション(VACUUM)の処理を複数化
チェックポイント時の負荷(一度にHDDに書くのではなく、少しずつ書き出す)などなど
詳しくはこちら

サイボウズ: サイボウズ紹介
グループウェア紹介

富士通: 瞬索〜純国産テキスト型データベースエンジン
Googleのようにインデックスを作成しない検索エンジン。
インデックスの作成は形態素解析やN-gramが用いられるが、作成コストがとても大きいので作りたくない。しかし、インデックスが無いと、検索クエリとのマッチングに多大な時間がかかる。
瞬索では、1981年に九州大学の有川先生が考案したSIGUMAという検索アルゴリズムを利用することにより、高速マッチングを実現している。SIGUMAでは、テキストデータ、検索クエリの文字コードを4ビット等の固定長単位にスライスし、オートマトンを作成する。検索クエリがオートマトンに投げられると、先頭から順に読み込まれ、検索語に一致する文字列を同時並行して検出する一方逐次処理が行われる。このメリットは、検索語数が大きくなってもデータ走査は一度のみになり、検索時間は常に一定となる。
具体的には、300ページ(2000文字/ページ)の本40冊を一秒で検索できるらしい。
実際に、九州大学の教官のページや国士舘大学の図書館情報統合サービスに利用されているようだ

Yahoo: Yahoo APIの話

東芝: TX1
テラバイト級のデータ容量でも高速に検索ができるXMLデータベース

日立: u-Cosminexusの紹介
今年10月ごろにストリーム処理とインメモリ処理の機能を追加したu-Cosminexusに関する紹介。
残念なのが、15分と短い講演だったので、技術的な部分が良く分からなかった

scigineer: デクワス(出くわす)
出来たばかりの会社のscigineer。
多くの情報の中には、べき分布に従うケースが多々あるという話から始まる。これは、複雑ネットワーク構造解析の立場から見た時に、見つけることができる。
この複雑ネットワーク解析を利用したサービスとしてデクワスというソフトを提供している。多様な情報の中から、複雑ネットワーク解析(デクワス)を用いて、ある規則を見つけ出してあげようというもの。その応用にはコミュニティ発見やアマゾンのレコメンドなどがある。

ポスターレセプション
今回はSunspot紹介というよりも、きちんとStreamSpinnerの方に注目が集まった。
質問をしていただいた方はNTT研究所の同じSPEをしている方やStanfordのSTREAM projectに一年いた方など専門家の人と多く話せた。

Q. 情報源とラッパーはどのようなプロトコルで通信をしているか
Q. タイムスタンプはどうしているか(エンジンが付けるか、アプリが要請するか)
Q. 既存のSPEと違う点。streamspinnerの特徴
Q. カメラからのビデオストリームを内部でどのようにして扱っているか
Q. 分散の指標はなに?
Q. 一番最新の研究は何?
Q. センサノードwith SPEという新しい環境での研究テーマは?
Q. どのような学会で発表しているか
Q. 映像配信環境の規模と詳細
などなど

ある程度きちんと質疑応答できたと思う。


○最終日
興味深かった発表(正確に理解していないので、後日論文読んで修正するかも?)

1. サービス指向ルータにおけるパケットストリーム解析支援 (慶応)
2. 追記・参照型データ管理システムにおける分散蓄積データの再フィルタ方式 (NTT)
3. RDFデータベースのためのファイル構造に基づくマテリアライズドビューの構築 (産業総合研究所)

1.Googleはエンドホストから得られる情報だけに頼って検索結果を算出するが、より粒度が細かい情報(ネットワークパケットから得られるどのサイトから訪れたか、どのくらいあるページに滞在していたか)を利用することができていない。最近はパーソナライズ化されているが、検索キーだけで行動を図るのは限界がある。そこで、パケットストリームをルータ内部のメモリに取り込んで解析ができる高性能ルータであるセマンティックルータを利用したパケット解析がこの研究の目的である。その問合せには、SQLを拡張したUserSSQLを用いている。大きな特徴は時系列パタン演算子と分解演算子である。
未実装であるが、モチベーションは面白いと思った。関連研究にSPEを挙げているが、SPEでは超高速なパケット処理を考慮していない。

2. DMSの特徴をスケールアウト可能,機能成長可能,持続可能と3特徴をあげ、ストリームデータを処理しながら、マシンを追加し機能拡張しても、リアルタイム性を損ねないというデモを見せてくれた。
今回の新規性はストリーム処理を一旦中断し、データベースに格納した後に、再び格納したデータをストリームデータとして処理をする時に、どのマシンで処理をするのが最適であるかということを検討していた。NTT研究所が作っているSPEのシステムアーキテクチャの再フィルタにおける問題を解決した点が新規性のようだ。

3. 一番の印象はプレゼンテーションが上手だった。アルゴリズの流れを図を用いて分かりやすく説明してくれていた。内容はできるだけ再利用なマテリアライズドビューを作成することにあった。
ゼミや講演 | - | -
calendar
recommend
データベースシステム (情報系教科書シリーズ)

データベースシステム (情報系教科書シリーズ) | 北川 博之

一番のお勧めです!数学の面から詳しくデータベースに関して説明をしてくれています。データベースは理論が大事ですので、難しいですが、学習の大きな手助けとなります。

recommend
トランザクション処理〈上〉―概念と技法

トランザクション処理〈上〉―概念と技法 | ジム グレイ
アンドレアス ロイター

ジムグレイが書いた上下巻の厚い本。トランザクションについて細かすぎるほどに書いてある。きちんと読めていないので、ちゃんと読みます

recommend
珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造

珠玉のプログラミング―本質を見抜いたアルゴリズムとデータ構造 | ジョン ベントリー

プログラミング言語に捉われず、アルゴリズムの面から丁寧に説明してくれている。面白く読める本

recommend
リファクタリング―プログラムの体質改善テクニック (Object Technology Series)

リファクタリング―プログラムの体質改善テクニック (Object Technology Series) | マーチン ファウラー
Martin Fowler
児玉 公信
平澤 章
友野 晶夫
梅沢 真史

プログラミング作法の一つのリファクタリングの本。前半よりも後半がためになった。リファクタリングの本では結城さんの入門書も良かった

recommend
内定勝者 私たちはこう言った! こう書いた! 合格実例集&セオリー2009 面接編

内定勝者 私たちはこう言った! こう書いた! 合格実例集&セオリー2009 面接編 | キャリアデザインプロジェクト

就職活動する前には必見の本。面接官への伝え方がかなりレベルアップする。就活生にはお勧め

selected entries
categories
archives
profile
others