之前大概2周前,爬了一遍话题清单,结果是30009个话题,后来发现中间网断了一次,大概漏了10个左右,这些话题是重复的。排名第一的答主说有34w多个话题,我持怀疑态度,应该没有去重吧。
将这些话题简单的用Gephi得到如图结果
可以明显的发现,未归类下拥有最多的子节点,其他的子类最多好像是170个。
定义最近的出现的层次为节点的层级,如图结果
第三层的差异来自未归类。我个人认为其实知乎的未归类在一定程度上接近知乎的早期形态。并且和中图法,LCC类似层次分布,我认为是有明显的专家编辑的结果,当然我认为认为之后本身是大众标签法。最近正在讨论话题结构的由上而下的专家法,和由下而上的大众编辑的不同。
另外,还有一个最近正在学习的幂等律,知乎的话题关注人数也类似。额,当老师都能用最小努力原则解释齐普夫定律后,我也在尝试解释下图。QAQ
============== 2017年3月20日===========
准备一次大修,重新抓取,不过这次知乎对爬虫进行了限制,多线程20时,疯狂429.(gevent