情報システム実験B: 大規模ソーシャルネットワーク分析 (K-14)#

最終更新日:2022年4月11日

1. 担当教員#

2. 実施学期・受入人数・教室#

  • 秋学期ABC・6名
  • オンライン(新型コロナウィルス感染症の状況に応じて3C113を利用)

3. 実験概要#

本実験ではデータとデータの繋がりや関連性を表現したデータであるソーシャルデータ(グラフデータ)について,(1) その概念と代表的な分析手法およびアプリケーション作成等について学習する. Twitter や Facebook の友人関係やオンラインゲームのプレイ履歴などから,大規模なソーシャルデータを構築,およびそれらの大規模なデータから高速にコミュニティの検出やユーザの属性判定といった分析を行う方法について実習を行う. 代表的な分析アルゴリズムの学習と実際のデータを分析する実習課題を並行して行い,段階的に理解を深めていくことを狙う. プログラミングについてはC言語やPython,Javaなどの基本的な知識があれば問題ない.

キーワード

データマイニング,グラフマイニング,ビッグデータ分析,ソーシャルネットワーク分析,etc.

主な学習内容#

大まかに下記の内容について実習を行う. 詳細な予定は受講者向けにmanabaにて共有する.

★第1回〜第3回:ソーシャルデータの基本性質(参考資料#

ソーシャルデータの基本性質について学習します.具体的には,ERモデル・次数分布・クラスタ係数・スモールワールド性等について学習します. また,ソーシャルデータの分析や可視化を行うプログラムの基礎についても学習します.


★第4回〜第8回:コミュニティ分析アルゴリズム#

ソーシャルデータの中に隠れたコミュニティ構造を発見するためのアルゴリズム(グラフクラスタリングアルゴリズム)について学習します.具体的には,モジュラリティに基づくクラスタリング手法(Newman法,Louvain法)とその解像度限界,構造的類似度に基づくクラスタリング手法(SCAN,SCAN++)と同手法を用いたハブ・外れ値データの検出について実際のデータを用いて学習します.


★第9回〜第13回:影響力解析(中心性解析)アルゴリズム#

ソーシャルデータの中で影響力の大きいデータ・ユーザを特定するためのアルゴリズム(中心性解析アルゴリズム)について学習します.具体的には,媒介中心性や近接中心性といったシンプルな指標や,リンク予測や情報検索・情報推薦等でも利用されているPageRank・Personalized PageRankについて実際のデータを用いて学習します.


★第14回〜第19回:関係データに対する機械学習アルゴリズム#

レビューデータなどのヘテロジニアスな関係データを解析するための基本的なアルゴリズムについて学習します.具体的には,ヘテロジニアスグラフの基礎について学習し,行列分解法とその最適化アルゴリズム(1次交互勾配法,疑似2次交互勾配法)について実データを用いて学習します.また,欠損値を含むようなデータに対する行列分解法についても学習します.


★第20回〜第26回:実データ解析の実践・アプリケーション開発#

これまで学習した内容をもとに,実データ解析やアプリケーション開発を行います.各学生の興味に基づいて実際のデータを収集し,分析や利便性を求めたアプリケーションの開発をします. 過去の実習例は以下のとおりです.

  • Wikipediaを用いたブレインストーミング支援アプリ(2017年)
  • 次に来るYoutubeゲーム実況チャンネルの発見(2018年度)
  • 影響力の高い日本人Youtuberの検出(2018年度)
  • Twitterを用いた防災関連用品の重要度分析(2018年度)
  • ドラマ「相棒」の見どころ特定(2018年度)
  • COINS Twitterユーザのフォロー構造分析と影響力分析(2018年度)
  • ニュース記事の自動まとめサービス(2019年度)
  • MovieLensデータセットを用いたおすすめ映画検索(2019年)
  • Swarmから取得したデータを使ったおすすめ観光ルートの分析(2019年度)
  • 科研費データベースを利用した筑波大学の研究動向解析と共同研究推薦(2020年度)
  • Vtuberコミュニティの影響力解析と配信者推薦(2020年度)
  • GitHubコミュニティの分析(2021年度)
  • ビットコインの送金ネットワーク解析(2021年度)
  • 日本の漫画家間の影響力分析(2021年度)
  • 楽天レシピAPIを用いた食材調査と料理推薦アプリ(2021年度)

★第27回〜第28回:成果発表会・最終レポート作成#

上記の実データ解析・アプリケーション開発の成果について発表会を行います.

4. 成績評価#

成績評価は実験中に出題するレポートの提出を以って行う.出席回数が主専攻実験の規定に満たない者は,レポートの内容に関わらずD判定とする.詳細はmanaba参照のこと.

5. 関連科目#

この課題は以下と関連している.希望者は受講することが望ましい.

  • 微分積分A・B
  • 線形代数A・B
  • データ構造とアルゴリズム
  • データベース概論A・B
  • 情報検索概論