Investigation of Personalization Factors on TikTok
An Empirical Investigation of Personalization Factors on TikTok

TikTok 与 Facebook 或 Instagram 等其他主要社交媒体平台不同:其内容分发方法纯粹是算法驱动的,而其他社交媒体平台,用户之间的关系在内容分发中起着重要作用。 Tiktok 的成功很大程度上归功于其在“For You”页面上选择视频背后的推荐算法。
TikTok 的 RS 的内部运作仍然是一个“黑匣子”。以用户为中心的 TikTok RS 审查即检查用户行为如何影响算法的推荐。 《华尔街日报》发表了唯一朝着这个方向进行的分析,尽管产生了有趣的结果,但它的范围有限,而且不是严格的科学。我们的目标是通过对 TikTok 算法的以用户为中心的审查来解决现有的研究空白。
我们做出了两个主要贡献。首先,我们开发并描述了一种方法,用于对 TikTok 的 RS 进行以用户为中心的算法审查。其次,我们研究了不同用户行为对用户“For you” feed中 TikTok 推荐的影响方式,并讨论了我们研究结果的含义。当然,有很多不同的用户行为和特征会影响高度复杂的 RS。在我们的分析中,我们关注一些我们认为最明确的:用户位置;用户语言设置;点赞、关注、视频观看动作。因此,我们的分析并非详尽无遗,而是研究 TikTok RS 的第一步。此外,该平台会定期对算法进行更改,因此我们的任何发现可能仅在很小的时间窗口内是准确的。
在审查算法时,需要识别潜在的噪声源,以确保在实验场景中观察到的用户之间的任何差异是由于个性化,而不是固有的“噪声”或随机化。在本节中,我们将详细说明潜在的噪声源以及我们如何解决它们。
TikTok 指出,他们的推荐系统可以将各种类型的内容与已经知道你喜欢的内容交织在一起。他们特别声明他们将“中断重复模式”以解决filter bubble的问题。
为了在分析中考虑潜在的噪声源,我们创建了 11 个对照场景,其中两个用户都没有以任何方式与其feeds交互,以测量两个用户的“默认”feeds 差异。
所有场景中,不同视频、内容创作者、主题标签和bgm的百分比分别为 66.17%、66.05%、58.62% 和 64.47%。
| run 1 | run 2 | .... | run 20 | ||
|---|---|---|---|---|---|
| 对照组用户1 | [........] | [.........] | .... | [.......] | |
| 对照组用户2 | [.........] | [..........] | .... | [........] | |
| 实验组活跃用户 | [.........] | [.........] | .... | [.........] | |
| 实验组对照用户 | [.........] | [.........] | .... | [.........] | |
见图7
对照组两个用户的拟合直线的斜率作为基准,如果实验组两个用户的拟合直线的斜率比基准大或者小,说明动作对推荐算法有影响。如果等于,说明没影响;
Language and Location
图 3、4 和 5 中的热图可视化了所有测试中每个相应测试场景的每个用户的平均重叠帖子。请注意,负值是由于考虑了 35.38% 的重叠噪声。所有三个图表 3、4 和 5 都表明,不同的位置对 TikTok 显示的video有很大的影响。例如,在图 3 中的热图上,用户 97_US_en 和 98_US_en 的平均重叠video均高于用户 97_US_en 和 99_CA_en。图 4 显示了相同的现象。这也意味着语言不会像位置那样强烈地影响 RS。图 5 中的热图表明,使用相同的语言设置访问 TikTok 并不总是导致最高的重叠(例如,将所有用户与 109_US_de 进行比较)。将法语设置为默认语言的用户的feed彼此之间比使用其他语言的用户更相似。似乎 TikTok 将法语解释为与英语、西班牙语和德语之间的差异,而不是这三种语言之间的差异。



Like-Feature

如果用户只是看视频而不点赞,RS 也会调整用户的feed以试图“推断”他们的兴趣,并且这种效果会随着用户保持空闲的时间越长而变得越强。
给视频点赞确实会影响 TikTok 的推荐算法。然而,我们认为随意选择喜欢的视频并没有像基于用户角色的选择那样强大,或者基于一组特定的内容创作者或bgm。
Follow-Feature
我们的整体差异分析以及主题标签相似性分析让我们得出结论,关注某个内容创作者无疑会影响推荐算法(详见表 3)。与场景 28 相关的图 6 通过显示对照用户 50 的内容创建者的变化比活跃用户 49 的变化更大,进一步支持了这一发现。有趣的是,用户 49 最常遇到的四分之三的内容创作者没有被该用户关注。我们认为这可能是因为他们与关注内容创作者相似。
然而,我们对图 8 中场景 28 的标签相似性分析再次说明了关注功能的强大影响,因为活跃用户的feed中的视频彼此相似的速度比对照用户feed中的视频更快(21% > 18%)。

Video View Rate
我们在表 4 中描述的分析表明,根据预先指定的标签集“选择”视频以观看更长时间的那些用户的feed差异明显大于其他 VVR 场景,这使我们得出结论,TikTok 推荐算法对基于特定用户画像的 差异的反应比对随机选择视频的用户画像的反应更强。

与我们的假设相反,场景 33(watching 10 random posts for 25% of their entire length) 的feed的差异比场景 35(watching 10 random posts for 75% of their entire length)的差异更大(平均差异 0.85% > 0.56%)。
这个非常有意思,理论上只看25%相比于只管看75%应该更接近对照用户(对照用户应该是直接划走,不看)。这样的话25%的差异应该更小,75%差异应该更大。