深澤 佑介, 太田 順
情報処理学会論文誌 55(1) 413-424 2014年1月15日 査読有り
コンテキストはユーザの興味・嗜好に影響する重要な要因の1つである.本稿では,コンテキストの中でも特に家族や同僚など同行者に注目し,同行者依存のトピックモデルを提案する.第一に同行者クラスを考慮したモデル(CTM)を提案する.次にスイッチ変数を導入し同行者依存の単語を自動学習する仕組みを取り入れたモデルを提案する(sCTM).さらに,同行者依存の単語をWeb全体から事前学習し,それをモデル内に反映するモデルを提案する(fCTM).それぞれのモデルはCollapsed Gibbs Sampling(CGS)に基づき推論を行う.Webから同行者依存の投稿データを抽出し,提案モデル間の比較実験を実施した.文書の予測精度(Perplexity)の観点でCTM(ベースライン)とfCTM,sCTMを比較評価し提案手法の優位性を示した.また,質的評価としてfCTMの同行者のトピックに含まれる単語を確認し,妥当なモデル化が行われていることを確認した.Context is understood as an important factor that affects topics to be generated. We focus on companion of users (friends, wife, husband etc.) as one of the most important factors to determine the topic. Different from location and time context, context of companion does not appear explicitly with the documents but appears inside the document in the form of contextual words (e.g. friends). To discriminate contextual words, topical words and background words from documents, and obtain both precise and discriminative topics, we propose three kinds of context aware topic models. Firstly, we introduce context class (CTM) to extract context dominant topics from text. Secondly, we introduce switch variable (sCTM) to discriminate background words from contextual and topical words. Thirdly, we introduce fixed Dirichlet parameter learned from the web to sCTM (fCTM). We conduct experiments on data set extracted from the web, and they show that the proposed model (sCTM and fCTM) can capture interpretable and discriminative sets of topics than baseline CTM from the view point of perplexity and KL-Divergence.