在线社交网络隐藏着丰富的事物发生机制和信息,如有影响力个体的识别、用户行为序列之间相互作用关系的挖掘等。因果关系发现有助于深入理解这些机制,但探索其中的因果方向和去除因果冗余存在巨大的挑战。因此,本文提出了一种基于最小因果网络(MCN)的约束方法,用于挖掘用户行为序列背后隐含的非冗余因果关系。其中,含有自适应的因果时间滞后长度的传递熵用于检测因果方向和寻找滞后影响长度;基于置换的检验方法可以有效减少冗余的边。
我们将该方法应用于新浪微博数据,揭示了一些有趣的发现。一是大多数互相关注的用户实际上没有明显的因果关系;有影响力个体(如明星)的行为对其他用户行为存在一定的因果关系影响。二是在品牌官方微博数据上的结果表明,不同类型品牌之间存在着直接的因果关系,相同品牌间的影响滞后时间为2天,不同品牌间的影响滞后时间为1天。这也反映了相同品牌侧重于持续推广广告,增加消费者的兴趣和购买其品牌产品的愿望;不同品牌更关注其品牌和产品的时间效应。相近档次品牌之间存在因果关系,这说明不同消费者会倾向于购买相近档次的品牌产品。
Abstract:
Causal discovery is crucial to obtain a deep understanding of the actual mechanism behind the online social network, e.g., identifying the influential individuals and understanding the interaction among user behavior sequences. However, detecting causal directions and pruning causal redundancy of online social networks are still the great challenge of existing research. This paper proposed a constraint-based approach, minimal causal network (MCN), to mine hidden non-redundant causal relationships behind user behavior sequences. Under the MCN, the transfer entropy with the adaptive causal time lag is used to detect causal directions and find causal time lags, while a permutation-based significance test is proposed to prune redundant edges. Experiments on simulated data verify the effectiveness of our proposed method. We also apply our approach to real-world data from Sina Weibo and reveal some interesting discoveries.