Chi: Bangumi 未来实验室 » 讨论
[Chi v0.2.1]同步率更新
#1 - 2015-2-8 20:59
Genius🌟小乖💯 (Enjoy your (real) life!)
我想接下来可能会有很多更新,为了不打扰大家就开了这个小组。
由于本人很忙,以后每次更新都只会在周末发布。而且也不一定能保证每个周末都会有更新。
本次更新的主要内容有:
调整了数学模型(但是计算同步率的思路没有改变。)这一调整的主要影响有:
很大程度上遏制了只有一两个收藏的用户进入前十名榜单;
较上一次相比,同步率有很大变化。
同时,增加了你在好友同步率中的排名。
显示用户名改为显示昵称。(对不起,我想这一改变可能会增加 Bangumi 服务器负担……)
可方便地获得适用于 Bangumi BBCode 的分享文本。
本次没有更新:
使得更多的活跃用户进入前十榜单;
数据仍然是2015年1月15日之前的数据。
最后,感谢 @Simon Chan @Doream @汐雨听潮 @Detao 对上一次算法的反馈。
感谢 @Donuts. @Venusxx 的建设性建议。
戳我
Enjoy.
由于本人很忙,以后每次更新都只会在周末发布。而且也不一定能保证每个周末都会有更新。
本次更新的主要内容有:
调整了数学模型(但是计算同步率的思路没有改变。)这一调整的主要影响有:
很大程度上遏制了只有一两个收藏的用户进入前十名榜单;
较上一次相比,同步率有很大变化。
同时,增加了你在好友同步率中的排名。
显示用户名改为显示昵称。(对不起,我想这一改变可能会增加 Bangumi 服务器负担……)
可方便地获得适用于 Bangumi BBCode 的分享文本。
本次没有更新:
使得更多的活跃用户进入前十榜单;
数据仍然是2015年1月15日之前的数据。
最后,感谢 @Simon Chan @Doream @汐雨听潮 @Detao 对上一次算法的反馈。
感谢 @Donuts. @Venusxx 的建设性建议。
戳我
Enjoy.
顺序
#3 - 2015-2-8 21:19
#4 - 2015-2-8 22:03
出戏
(这个镜头,本监督很不满意)
#4-1 - 2015-2-9 07:04
Genius🌟小乖💯
有可能大家认为同步率更注重“共同喜欢”的概念,但是我认为“共同不喜欢”也是一种同步。实际上,抛弃在同步率算法中的权重很大。
其实这个系统也能计算出全站与你同步率最低的十位用户,他们可能与你看的条目有重合,但是评价完全相反。这时候抛弃就能显示出价值了。
其实这个系统也能计算出全站与你同步率最低的十位用户,他们可能与你看的条目有重合,但是评价完全相反。这时候抛弃就能显示出价值了。
#4-2 - 2015-2-9 10:10
出戏
嗯 我并不怀疑“共同抛弃”的匹配价值
似乎是这里的表述偏离了重点。前一版本得出的同步率较高用户与我大概有5~10项共同喜好,并且这些用户的“想看”列表里存在相当数目我同样“想看”但尚未标记的番组。(所以我觉得这个体验相当好QuQ 虽然少但特别准
这个版本返回的第一名仅标记了一部作品,嗯,是共同抛弃。第二名的共同点一样。 = -
第三名向后很棒,尽管活跃用户不多,还是像上次一样找到了小小的惊喜。
感谢。
Genius、小乖 说: 有可能大家认为同步率更注重“共同喜欢”的概念,但是我认为“共同不喜欢”也是一种同步。实际上,抛弃在同步率算法中的权重很大。
其实这个系统也能计算出全站与你同步率最低的十位用户,他们可能与你看的条目有重...
似乎是这里的表述偏离了重点。前一版本得出的同步率较高用户与我大概有5~10项共同喜好,并且这些用户的“想看”列表里存在相当数目我同样“想看”但尚未标记的番组。(所以我觉得这个体验相当好QuQ 虽然少但特别准
这个版本返回的第一名仅标记了一部作品,嗯,是共同抛弃。第二名的共同点一样。 = -
第三名向后很棒,尽管活跃用户不多,还是像上次一样找到了小小的惊喜。
感谢。
#5 - 2015-2-8 22:38
Doream
(夜海全书)
#5-1 - 2015-2-9 06:57
Genius🌟小乖💯
这是一个有趣的问题。其实不需要。只要看第一名对你的排名就可以估计出这项数据了。可以证明,在度量空间条件下,全站所有用户对你的排名都不会超过第一名对你的排名。
但是由于这个系统为了遏制少数收藏者进入榜单做了某些调整,使得性质 2 不符合。但是这不影响这个结论,因为证明过程没有用到性质 2.
结论就是:全站没有用户的前十名榜单中会有你。
但是由于这个系统为了遏制少数收藏者进入榜单做了某些调整,使得性质 2 不符合。但是这不影响这个结论,因为证明过程没有用到性质 2.
结论就是:全站没有用户的前十名榜单中会有你。
#5-2 - 2015-2-9 09:25
Doream
仔细一想的确这样啊…so sad
Genius、小乖 说: 这是一个有趣的问题。其实不需要。只要看第一名对你的排名就可以估计出这项数据了。可以证明,在度量空间条件下,全站所有用户对你的排名都不会超过第一名对你的排名。
但是由于这个系统为了遏制少数收藏者进入榜单...
#5-3 - 2015-2-9 13:04
iahaa
第一名对我的排名是277,第八名对我的排名是52,不符合啊
是我理解的不对吗。。。
Genius、小乖 说: 这是一个有趣的问题。其实不需要。只要看第一名对你的排名就可以估计出这项数据了。可以证明,在度量空间条件下,全站所有用户对你的排名都不会超过第一名对你的排名。
但是由于这个系统为了遏制少数收藏者进入榜单...
是我理解的不对吗。。。
#5-4 - 2015-2-9 15:17
#7 - 2015-2-9 08:45
#10 - 2015-2-9 20:02
#11 - 2015-2-9 23:23
Kane
(この勝利を、近所のおばさんに捧げる!)
#11-1 - 2015-2-10 02:57
Genius🌟小乖💯
我不信任好友信息,因为我加好友从来不是因为我们有共同喜好,而是在超展开碰到了说话有趣的人。而且别人加我好友我从来不拒绝——不管他/她看过什么或是否与我持有相近价值观。现实情况是复杂的,不能随便假设。
算法真的是最简单不过而且拍脑袋就能想出来的算法:每个人评分在其平均分上面一减,喜欢什么不喜欢什么就都出来了,然后归一化求余弦距离,完了!
算法真的是最简单不过而且拍脑袋就能想出来的算法:每个人评分在其平均分上面一减,喜欢什么不喜欢什么就都出来了,然后归一化求余弦距离,完了!
#11-2 - 2015-2-10 03:04
Kane
说的很对。但也有句stats的经典名言叫
all models are wrong, but some are useful.
:)
很高兴lz提到假设一词,其实我的假设并不是“每个人加好友都看共同喜好”,而是“有些人加好友看共同喜好”(至少我是),和“按照别的标准加好友的人,他们的筛选标准和共同喜好相对独立”。这是一个更弱的假设,但这个假设合理的话,好友信息还是可以用的。
最后,好友信息的确不一定合适,我只是抛砖引玉一下,觉得这个小组可以在这方面多讨论一些,提出更多的可能性来。从个人经验来看,一个实际的ML project难的往往不是核心用什么算法,而正是做出有效(而不仅仅是正确)的假设,以及系统地建立评价机制(e.g. training/validation/test)。
Genius、小乖 说: 我不信任好友信息,因为我加好友从来不是因为我们有共同喜好,而是在超展开碰到了说话有趣的人。而且别人加我好友我从来不拒绝——不管他/她看过什么或是否与我持有相近价值观。现实情况是复杂的,不能随便假设。
...
现实是复杂的,不能随便假设
all models are wrong, but some are useful.
:)
很高兴lz提到假设一词,其实我的假设并不是“每个人加好友都看共同喜好”,而是“有些人加好友看共同喜好”(至少我是),和“按照别的标准加好友的人,他们的筛选标准和共同喜好相对独立”。这是一个更弱的假设,但这个假设合理的话,好友信息还是可以用的。
最后,好友信息的确不一定合适,我只是抛砖引玉一下,觉得这个小组可以在这方面多讨论一些,提出更多的可能性来。从个人经验来看,一个实际的ML project难的往往不是核心用什么算法,而正是做出有效(而不仅仅是正确)的假设,以及系统地建立评价机制(e.g. training/validation/test)。
#11-3 - 2015-2-10 03:06
Kane
考虑过recommendation system里一些标准的方法吗,比如matrix low rank completion这样的?
顺便我是一个眼高手低的machine learning theorist(虽然我也自己写code),随口乱说,忽略实际的地方请随意鄙视。。
P.S. 刚看到这个所以recommendation system要到week 4吗

Genius、小乖 说: 我不信任好友信息,因为我加好友从来不是因为我们有共同喜好,而是在超展开碰到了说话有趣的人。而且别人加我好友我从来不拒绝——不管他/她看过什么或是否与我持有相近价值观。现实情况是复杂的,不能随便假设。
...
顺便我是一个眼高手低的machine learning theorist(虽然我也自己写code),随口乱说,忽略实际的地方请随意鄙视。。
P.S. 刚看到这个
我也不知道,大概把 Mining Massive Datasets 上的算法都轮一遍吧。



#11-4 - 2015-2-10 03:23
Genius🌟小乖💯
说到模型,好的模型都是看数据看出来的
,但是我对大家的讨论还是抱有怀疑态度——特别是关于评分与排名的讨论。因为参与讨论的大都是超展开活跃人士,bgm 还有大量默默点格子的,还有只收藏了少数作品的,这些人很容易就会被忽略掉。
降维是个好方法,其实在 v0.1 里面我就用的降维,但是出来的结果令我百思不得其解,看来还是不能纸上谈兵啊。
Kane 说: 现实是复杂的,不能随便假设说的很对。但也有句stats的经典名言叫
all models are wrong, but some are useful.
:)
很高兴lz提到假设一词,其实我的假设并...
,但是我对大家的讨论还是抱有怀疑态度——特别是关于评分与排名的讨论。因为参与讨论的大都是超展开活跃人士,bgm 还有大量默默点格子的,还有只收藏了少数作品的,这些人很容易就会被忽略掉。降维是个好方法,其实在 v0.1 里面我就用的降维,但是出来的结果令我百思不得其解,看来还是不能纸上谈兵啊。
#11-5 - 2015-2-10 03:27
Genius🌟小乖💯
真正读书读得少的人是我啊
Kane 说: 考虑过recommendation system里一些标准的方法吗,比如matrix low rank completion这样的?
顺便我是一个眼高手低的machine learning theo...

#11-6 - 2015-2-10 03:32
Kane
参与讨论的人本来就是全站的一个bias sample我就是得了只能不说人话的病

Genius、小乖 说: 说到模型,好的模型都是看数据看出来的,但是我对大家的讨论还是抱有怀疑态度——特别是关于评分与排名的讨论。因为参与讨论的大都是超展开活跃人士,bgm 还有大量默默点格子的,还有只收藏了少数作品的,这些人...



#11-7 - 2015-2-10 03:33
Kane
简单的降位有很强的线性假设的。。还有missing entry怎么处理也是门艺术技术
Genius、小乖 说: 说到模型,好的模型都是看数据看出来的,但是我对大家的讨论还是抱有怀疑态度——特别是关于评分与排名的讨论。因为参与讨论的大都是超展开活跃人士,bgm 还有大量默默点格子的,还有只收藏了少数作品的,这些人...
#11-8 - 2015-2-10 03:37
Genius🌟小乖💯
所以现在就在考虑怎么映射到线性空间。目前想法是先按照评分分布聚类,然后再对每一类做非线性变换。
Kane 说: 简单的降位有很强的线性假设的。。还有missing entry怎么处理也是门艺术技术
#12 - 2015-2-10 04:21






