#潘杨之好刘郑版[超话]#
我可能只能是cp粉,只爱cp,当初上头一心想要二搭才关注单人做数据,现在感觉都没啥动力了,花间背刺朕,无限也背刺朕,他她的其他cp是不可能磕的,所以也慢慢对单人没什么兴趣了,二搭真的可能要看缘分吧,能二搭当然最好了,不能就算了,朕回棺材躺尸了,有二搭的消息再出来蹦跶
#潘杨之好刘郑版#
我可能只能是cp粉,只爱cp,当初上头一心想要二搭才关注单人做数据,现在感觉都没啥动力了,花间背刺朕,无限也背刺朕,他她的其他cp是不可能磕的,所以也慢慢对单人没什么兴趣了,二搭真的可能要看缘分吧,能二搭当然最好了,不能就算了,朕回棺材躺尸了,有二搭的消息再出来蹦跶
#潘杨之好刘郑版#
哇哦!两只小布丁,牵着手一起哭!我个人觉得库库鲁是小布丁更可爱,更有氛围感。
女生和女生就不能是cp吗?必须男女才是cp,这样做就是歧视人,无论是谁,只要可以为了彼此付出也是可以算得上cp的,好好的努力磕下吧,就是如同安韩,罗默两位女生的深厚情谊,还有主宠恋当然是暖暖大喵了,一直都是大喵陪伴暖暖嘛!
女生和女生就不能是cp吗?必须男女才是cp,这样做就是歧视人,无论是谁,只要可以为了彼此付出也是可以算得上cp的,好好的努力磕下吧,就是如同安韩,罗默两位女生的深厚情谊,还有主宠恋当然是暖暖大喵了,一直都是大喵陪伴暖暖嘛!
32170
【头高】用数据说胡话,稍微做了一下ao3上摩三cp统计的可视化
图一是cp文排行榜,由于ao3的cp tag不分左右,所以只要是a和b的cp不管是ab还是ba还是aba都算在一起了。文章数量上有很明显的断层,草晨草和草圆草的数量几乎是第二梯队的两倍
图二是R率,这里只计算文章数量大于3的cp R率,上一轮在第二和第三梯队的赞贝赞和草榴草的R率感人,草晨草和赞郁赞意外的比想象的纯情
图三是关系图,连线代表有这对cp的文,连线的粗细代表文章数量。某个人很自然地成为了宇宙中心
图四是把某个人删了之后的关系图。没了那位大人之后整个图像一盘散沙
*以下是一些备注,可看可不看,主要是叠甲*
关于cp文的计算方式肯定有疏漏。ao3虽然有合并同类cp tag的功能,但是技术上缟纻没能找到一个很好的方法套用ao3自己的功能,只能自己手搓。在615篇打了摩三tag(并且没有带鸟tag)的文中有330多个独特cp tag,其中很多都是可以合并同类项的(比如草榴,草草x榴贝,Cao Cao / Liu Bei都是同一对cp)缟纻在差不多人工合并了194多个tag之后实在累了不想搞了,遂放弃。虽然把比较热的配对的tag都合并的差不多了,最后下来也有64个cp,但在这里还是给冷cp专业户道个歉。图一为了美感也戒掉了很多cp,但那总体来说还是遵守幂律分布的
R率计算也会有出入,毕竟有些文可能没有写分级但其实是R…
有些美帝苏修意外地没有上榜,但某种意义上也可以理解,毕竟这只是摩三的tag。如果是把所有果果果相关的tag都爬一遍排行榜很有可能会大换血,但看不同果果果IP的同人口味也是一种乐趣。
啊啊啊不知道能不能做补充!是32170的补充,因为看评论里有很多人问以及想好好的写下引文和参考:
ao3爬虫其实不算难,GitHub上有现成的包可以掉(搜AO3_scrapper)缟纻偷懒调包了,但这个包也有一个很主要的问题:不知道为什么爬下来的全是汉语拼音…比如原本打的曹刘tag爬下来是Cao Liu,甚至还有袁术爬成Yuan Zhu的情况。这在合并同类项的时候特别麻烦。ao3有自己的tag merger页面,但页面的url里包含的关键词往往是原文(中文字)而不是汉语拼音,就意味着如果缟纻想爬合并同类项的页面必须先爬下来原文。感觉后续还得自己再写一个爬
以及人工合并194个tag其实比想象的要轻松些,差不多干了5个小时吧,没干下去主要是太无聊了…
下一步准备把爬虫问题结局之后爬完果果果其他相关的tag再做分析,也希望能找到个方法逆家分流,plq里有经验的同志也欢迎提建议!
【头高】用数据说胡话,稍微做了一下ao3上摩三cp统计的可视化
图一是cp文排行榜,由于ao3的cp tag不分左右,所以只要是a和b的cp不管是ab还是ba还是aba都算在一起了。文章数量上有很明显的断层,草晨草和草圆草的数量几乎是第二梯队的两倍
图二是R率,这里只计算文章数量大于3的cp R率,上一轮在第二和第三梯队的赞贝赞和草榴草的R率感人,草晨草和赞郁赞意外的比想象的纯情
图三是关系图,连线代表有这对cp的文,连线的粗细代表文章数量。某个人很自然地成为了宇宙中心
图四是把某个人删了之后的关系图。没了那位大人之后整个图像一盘散沙
*以下是一些备注,可看可不看,主要是叠甲*
关于cp文的计算方式肯定有疏漏。ao3虽然有合并同类cp tag的功能,但是技术上缟纻没能找到一个很好的方法套用ao3自己的功能,只能自己手搓。在615篇打了摩三tag(并且没有带鸟tag)的文中有330多个独特cp tag,其中很多都是可以合并同类项的(比如草榴,草草x榴贝,Cao Cao / Liu Bei都是同一对cp)缟纻在差不多人工合并了194多个tag之后实在累了不想搞了,遂放弃。虽然把比较热的配对的tag都合并的差不多了,最后下来也有64个cp,但在这里还是给冷cp专业户道个歉。图一为了美感也戒掉了很多cp,但那总体来说还是遵守幂律分布的
R率计算也会有出入,毕竟有些文可能没有写分级但其实是R…
有些美帝苏修意外地没有上榜,但某种意义上也可以理解,毕竟这只是摩三的tag。如果是把所有果果果相关的tag都爬一遍排行榜很有可能会大换血,但看不同果果果IP的同人口味也是一种乐趣。
啊啊啊不知道能不能做补充!是32170的补充,因为看评论里有很多人问以及想好好的写下引文和参考:
ao3爬虫其实不算难,GitHub上有现成的包可以掉(搜AO3_scrapper)缟纻偷懒调包了,但这个包也有一个很主要的问题:不知道为什么爬下来的全是汉语拼音…比如原本打的曹刘tag爬下来是Cao Liu,甚至还有袁术爬成Yuan Zhu的情况。这在合并同类项的时候特别麻烦。ao3有自己的tag merger页面,但页面的url里包含的关键词往往是原文(中文字)而不是汉语拼音,就意味着如果缟纻想爬合并同类项的页面必须先爬下来原文。感觉后续还得自己再写一个爬
以及人工合并194个tag其实比想象的要轻松些,差不多干了5个小时吧,没干下去主要是太无聊了…
下一步准备把爬虫问题结局之后爬完果果果其他相关的tag再做分析,也希望能找到个方法逆家分流,plq里有经验的同志也欢迎提建议!
✋热门推荐