2013年3月9日

如何挖掘网络资源[1]:网站的类型和使用场景

  首先来介绍一下网站的类型和特点。不同的网站特点将决定你挖掘资源的方式。


★网站内容的指标


  要挖掘互联网的资源,首先需要关注网站的内容。俺大致总结了几个指标,任何网站的内容,都具有这几个指标。
  通过这些指标,可以评估某个网站【对你的价值】到底有多大,还可以评估你挖掘其中的内容需要耗费多少时间和精力。

◇内容的信噪比


  任何一个网站的内容,都会有一些信息是无用的,咱们称之为“噪声”。所谓的【信噪比】,就是是“有用信息”与“垃圾噪声”的比率。显然,信噪比越大越好。
  提醒一下:信噪比的评价是【主观】滴。因为每个人的关注点(价值取向)不同,所以同样的内容,对不同的人,会有不同的信噪比。

◇内容的可搜索性


  主要指网站的内容是否容易被搜索引擎检索和收录。
  这个指标是客观的。

◇内容的生命周期


  主要指网站内容的生命周期的长短。关于信息的生命周期,稍微解释一下:对于某个信息而言,只有在它的生命周期之内,该信息才有价值;过了生命周期,就没有价值。
  举例:
  比如美国大选之前,某人制作了一个分析报告,分析竞选双方的得票率。那么,当大选结果揭晓之后,这个报告的生命周期就结束了。
  这个指标是半主观半客观的。
  俺通常关注那些生命周期较长的内容。因为在网上冲浪是需要消耗时间和精力的。如果你关注的都是生命周期很短的信息,从“投资回报率”的角度来看,是不合算滴!

◇内容的组织性


  指的是网站的不同内容之间,是否具有较好的分类,是否具有较好的层次,是否具有较好的关联。
  这个指标是客观的。
  组织性越好,你就越容易找到该网站的其它感兴趣的内容。


★网站的类型


  互联网上的网站,大致上可以分为“功能型”和“内容型”。如果你要在网上找自己感兴趣的资源,“内容型”网站才是你的最终目标。
  “内容型”的网站的网站,按照内容创建的方式,大体上可以分为“Web 1.0”和“Web 2.0”两大类。这两类的区别如下:
“Web 1.0”——网站内容由专职的网站编辑创建
“Web 2.0”——网站内容用户创建,洋文叫“UGC”

  对于 Web 2.0 的网站,还可以再细分为如下几类:
论坛类(BBS、邮件列表)、博客类(包括轻博客)、微博客(Micro Blog)、社交类(SNS)、文件共享类、百科类、问答类、等等。

  对于上述这些分类,俺来分别介绍一下。


★Web 1.0


  Web 1.0 的典型代表,包括早期的门户网站、某些专业类网站、某些报考杂志的Web版、等等。

◇内容的可搜索性


  这类网站通常是“搜索引擎友好”的,甚至还会针对搜索引擎做优化(SEO)。因为这类网站需要利用搜索引擎帮它带来用户流量。

◇内容的组织性


  这类网站的内容是由专职编辑维护的,所以内容的组织性通常比较好。比如网站通常会有分类导航,相关的网页之间会有超链接。

◇内容的生命周期


  如果是专业性的网站,内容的生命周期一般比较长;如果是新闻类的,则比较短。

◇内容的信噪比


  对于新闻类的网站,信噪比通常不会太好。对于专业类的网站,则视具体情况而定。

◇俺的使用场景


  俺平常【不】主动去逛那些 Web 1.0 的网站。
  通常是在搜索引擎中找某关键字,然后跳转到该网站的某篇文章。
  如果俺觉得这篇文章的质量差,直接关掉。
  如果俺觉得这篇文章的质量好,会顺便浏览该网站相关的文章(根据站内导航、文章的交叉链接)。
  如果浏览了多篇文章之后,发现总体的质量较好,会把该网站加入自己的收藏或者是订阅该网站的 RSS(如果有的话)。


★论坛类(BBS)


  论坛类的网站,早在 Web 2.0 概念提出之前,就已经很流行了。

◇内容的可搜索性


  大部分论坛的内容,是无需登录即可浏览的。所以大部分论坛都是可搜索的;极少数是不开放的,则搜索引擎无法收录论坛内容。

◇内容的组织性


  论坛里面的帖子,通常会根据类型分在不同的板块。板块内的帖子,通常只提供排序功能(比如 按时间、浏览数、回帖数 等),有些论坛可以按照发帖人来组织帖子。
  总的来说,论坛类内容的组织性,算中上。

◇内容的生命周期


  这取决于论坛的定位。不同的论坛,差异较大。
  比如:一个讨论娱乐圈八卦的论坛,帖子的生命周期就比较短;而一个讨论哲学的论坛,帖子的生命周期相对较长。

◇内容的信噪比


  大部分论坛的信噪比都不好——灌水的比例居高不下。
  有些论坛的版主会专门整理一个精华区,那么信噪比会有所改善。

◇俺的使用场景


  传统的 BBS,俺【从没】注册过帐号;邮件列表倒是注册过几个。
  平时俺【不】主动去逛论坛类网站。
  通常是在搜索引擎中找某关键字,然后跳转到某论坛的某帖子。
  如果俺觉得这篇文章的质量差,直接关掉。
  如果俺觉得这篇文章的质量好而且是原创,会顺便浏览该发帖人的相关文章(这种情况不多见)。


★博客类(Blog)


◇内容的可搜索性


  这类网站通常是“搜索引擎友好”的,因为这类网站需要利用搜索引擎帮它带来用户流量。

◇内容的组织性


  大部分博客都支持分类导航或者是标签(Tag)导航,某些博客之间还会搞交换链接。
  组织性算是好的。

◇内容的生命周期


  这个视具体的博客而定。

◇内容的信噪比


  总的来说,博客的信噪比好于论坛、SNS、微博客。

◇俺的使用场景


  博客类网站是俺的主要信息来源之一。关于博客类网站的信息获取,俺会在本系列后面专门介绍。


★微博客类(MicroBlog)


  微博客是最近几年突然火爆起来的。国外首屈一指的当属“Twitter”,国内知名的山寨有“新浪微博”。

◇内容的可搜索性


  通常情况下,微博客是可搜索的。但是,某些做成长微博的图片,其内容是不可搜索的。

◇内容的组织性


  内容的组织较差,通常是根据时间轴组织内容。
  信息的碎片化非常非常严重。

◇内容的生命周期


  微博客的内容,通常生命周期都很短。你设想一下,你会去看某人在一个月之前发的微博客内容吗?甚至2-3天之前的内容,就已经没人关注了。

◇内容的信噪比


  在这几种类型的网站中,微博客的信噪比估计是最差的。里面充斥着大量的噪声,还有大量同质化的信息。

◇俺的使用场景


  俺在开博客前就注册过 Twitter 的帐号,平时几乎【不用】;【从没】注册过国内的微博客。
  至于俺为啥不用微博客类,请参见《为啥俺不常用微博——兼谈时间管理心得》。


★社交类(SNS)


  SNS 已经火了好几年了。国外首屈一指的当属“Facebook”,国内知名的山寨有“开心网”和“人人网”。

◇内容的可搜索性


  有的 SNS 对搜索引擎友好(比如 G+),有些则不友好(比如 Facebook)。

◇内容的组织性


  通常是按照用户来组织组织;对于具体的用户,再按照时间轴组织内容。
  信息有不同程度的碎片化(视具体网站的具体用户而定)。总的来说,内容的组织性“中下”。

◇内容的生命周期


  总的来说,内容的生命周期比博客短,比微博长。

◇内容的信噪比


  总的来说,SNS的信噪比不如博客,好于微博客。

◇俺的使用场景


  俺在开博客前就注册过 Facebook,前两年 G+ 推出后也注册了。但平时很少用。
  通常是在搜索引擎中找某关键字,然后跳转到 SNS 网站的某页面。
  如果觉得该页面的内容没价值,直接关掉。
  如果觉得该页面的内容有价值,再去看看该 SNS 用户的其它内容。
  如果该 SNS 用户的很多内容都不错,看看此人是否有博客,有的话就订阅。


★百科类


  百科类网站,全球首屈一指的当然是“维基百科”,国内有山寨的“百度百科”和“互动百科”。

◇内容的可搜索性


  这类网站通常是“搜索引擎友好”滴,甚至还会针对搜索引擎做优化(SEO)。因为这类网站需要利用搜索引擎帮它带来用户流量。

◇内容的组织性


  通常会有良好的分类组织,词条之间会有很多交叉连接。
  总的来说,内容组织性较好。

◇内容的生命周期


  百科类网站的内容,通常生命周期很长。

◇内容的信噪比


  百科类网站的词条,通常是以多人协作的方式维护的,一般不会有垃圾信息。
  总的来说,信噪比很好。

◇俺的使用场景


  俺通常只用维基百科。因为维基百科的词条最多,支持多种语言(可惜俺只看懂中文和英文),而且【不】存在“和谐”的问题。国内的百科类网站,政治敏感内容是查不到滴。
  当俺接触到一个不熟悉的词汇,通常会先用搜索引擎搜该词条的维基百科。
  看完维基百科对该词条的解释之后,如果意犹未尽,就再看看跟该词条相关的其它词条。
  维基百科包含大多数主流的语言。所以有时候看完中文的词条,再去看看对应的英文词条。


★文件共享类


  文件共享类的网站,有时候又称为“网盘”。不同的文件共享网站,内容和功能差异较大。

◇内容的可搜索性


  在文件共享类网站中,有的是提供 Web 界面的——这类网站通常是搜索引擎友好的;还有一些是通过专门的 P2P 软件进行文件分享和下载的,搜索引擎未必能收录其内容。
  即使是 Web 界面的文件共享,搜索引擎通常只能收录文件名,无法抓取文件内容。

◇内容的组织性


  有些网站会根据文件上传者进行分类组织(比如新浪爱问),有些会根据文件内容所属领域进行分类(比如百度文库)。还有些网站会提供相关性推荐——列出下载该文件的网友同时也下载其它哪些文件。
  总的来说,组织性中等。

◇内容的生命周期


  被分享的文件,生命周期通常不会短。

◇内容的信噪比


  信噪比因上传者而异,有的好有的差。

◇俺的使用场景


  电子书是俺获取信息的主要途径之一,所以俺经常会去网上找电子书。
  通常是在搜索引擎中找某电子书(搜索书名),然后跳转到某文件共享网站,下载之。
  如果文件共享类网站提供相关性推荐,偶尔也会根据“相关性”的推荐,下载另外的电子书。

  顺便插播一个通告:
俺在自己的网盘上分享了不少电子书,感兴趣的同学请用鼠标猛击"电子书清单"(需翻墙),就可以看到下载链接


★问答类


  问答类是最近几年兴起的,国外的代表是“Quora”和“Stack Overflow”,国内的山寨是“知乎”。

◇内容的可搜索性


  这类网站通常是"搜索引擎友好"的,甚至还会针对搜索引擎做优化(SEO)。因为这类网站需要利用搜索引擎帮它带来用户流量。

◇内容的组织性


  通常会根据问题领域做分类,某些较好的问答类网站支持标签(Tag)功能。
  总的来说,内容组织性较好。

◇内容的生命周期


  这类内容的生命周期,通常较长。

◇内容的信噪比


  信噪比中上,至少比论坛好。

◇俺的使用场景


  俺【从没】注册过问答类网站的帐号,平时也【不】主动去逛问答类网站。
  通常是碰到某技术问题,在搜索引擎中找相关的关键字,然后跳转到某问答类网站的某话题。
  如果觉得这篇文章没帮助,直接关掉。
  如果觉得这篇文章有帮助,看完,关掉。


★结尾


  通过上述对比,你应该大致看出来,哪些类型的网站比较可能找到高价值的内容。
  本系列的下一篇,俺介绍一下搜索引擎的基本技巧。


回到本系列的目录

42 条评论:

  1. 吴邦国又发炎了:抵制错误思想影响,绝不照搬西方政治制度模式

    回复删除
    回复
    1. 政治流氓——吴邦国的“五不搞”只代表它自身,根本不是全体国人的心愿。中国人民一定会用实际的行动给“吴歪嘴”一记响亮的耳光!民主自由的曙光终将会降临到中国大陆的土地上。

      删除
    2. 看出来了,五不搞就这点水平。

      删除
  2. 建議樓主多多推薦一些好的網站和博客 各位網友也多推薦哦

    回复删除
    回复
    1. 关于网站(尤其是墙外的网站),俺前几年已经整理了一批,链接如下:
      [url]https://code.google.com/p/program-think/wiki/Sites[/url]

      关于博客,俺会抽空整理,按照不同的行业和领域分类

      删除
  3. 好的设计在不断演化, 差的设计在不断打补丁。

    是谁说的

    回复删除
    回复
    1. 这句话似乎是某个 IT 大牛说的,忘了是谁了。
      你是从俺博客的“动态副标题”看到的吧?

      删除
  4. google的服务器时间是哪个时区的啊?请懂行的人指教一下,多谢,多谢。我一直困扰这个问题呢,。

    回复删除
    回复
    1. 能否先描述一下你碰到的问题?

      删除
    2. To 编程随想:不知道你对medium怎么看?

      删除
  5. 贾庆林的“建立非正常上访终结机制”是个啥意思?是不让直接到京上访了吗?以后正常上访能够解决问题了?

    回复删除
    回复
    1. 这个您也信。。。只要共产党“至尊执政党”的地位不改变,天朝面临的这些严峻问题是绝对解决不了滴。

      删除
    2. 这个贾庆林,大概是在退休前再忽悠一下吧。

      删除
  6. 在火狐狸上总发不出来。
    博主,你觉得现在,有关大陆的中文话题,墙外哪个博客或论坛人气旺一点。比如如果个人想落户,在哪个较好

    回复删除
    回复
    1. 论坛俺很少逛,不好说。
      如果你想在墙外搭建一个博客,俺个人觉得比较好的 BSP 是 BlogSpot 和 WordPress
      WordPress 的功能会更强;BlogSpot 的安全性会更好。

      删除
  7. 博主可否共享一下 google rss订阅,或分享一下好的google rss 订阅?

    回复删除
    回复
    1. 俺会抽空整理一些有价值的博客,然后放到[url=https://code.google.com/p/program-think/]俺的收藏站点[/url]上。
      那上面目前已经整理过一些网站,博客还没有。

      删除
    2. agree. teaching us readers how to fish. :D

      删除
  8. 一直很好奇,博主除了编程随想这个身份,在互联网上还有没有其它身份?这样一个IT大牛在互联网上的信息如此之少,博主真低调!当然,也为了安全。

    回复删除
    回复
    1. 俺当然有其它身份,但是不可说。
      老话讲得好:小心驶得万年船
      另外,俺只是一介屁民,“大牛”的称号不敢当。

      删除
    2. 博主牛人呀

      删除
    3. 为什么显示的是红色的呀?

      删除
    4. TO 3单元的网友
      啥东西是红色?

      删除
  9. 刚看过右边的“最新评论”后,文字怎么不能变色了?看与未看过的都是一样颜色。

    回复删除
    回复
    1. 请问有没有从链接点击进入?
      如果从“最新评论”的链接点进去,之后该链接应该就变色了。

      删除
  10. [url]http://goo.gl/[/url] google URL short 推荐一下蛮好用的

    回复删除
    回复
    1. no good of it at all. nowadays all browsers provide counting and indexing of visited URLs.

      删除
    2. TO 1单元的网友
      友情提醒一下:
      全英文的留言,很容易被误判为垃圾留言。
      因为俺博客每天都有几百条 全英文 的垃圾广告留言。
      如果方便的话,还是用中文。

      删除
  11. 非常感谢!在这里又长见识了,期待关于搜索引擎的内容!

    回复删除
  12. 最近看到这个,我觉得很适合推荐给大家

    路透社做的中国官员关系网络
    http://connectedchina.reuters.com/

    回复删除
    回复
    1. 多谢分享 :)
      这个路透社搞的权贵关系网,前几天也有网友分享到博客留言中。
      俺近期正在抓紧挖掘其中的关系,以补充到俺整理的《太子党关系网络》中。
      《太子党关系网络》近期会推出 2.0 版,以配合朝廷的两会 :)

      删除
  13. 大牛,你博客的坑真多啊。很吊胃口撒.....你的十八大內鬥系列出不出啊?要不寫個胡錦濤系列?這老哥做了十幾年兒皇帝,一上來就退位?真高風亮節?
    已經這麼多坑了,再多挖幾個吧。

    回复删除
    回复
    1. 18大内斗基本已定局了。下面的看点是薄熙来会怎么判。
      俺近期主要忙着整理《太子党关系网络》的 2.0 版本。过几天会发布

      删除
  14. 博主用的什么rss订阅器 google的停了后没发现啥好用的了 。。

    回复删除
    回复
    1. GR 被关闭确实是一大悲剧 :(
      近期俺也在寻觅好的替代品。过段时间会分享一下俺的心得

      删除
  15. 看了很多评论,发现有部分人说话老是没说到重点,这是为什么捏!

    回复删除
  16. 你好,不知道可不可以在这里问,我想问一下TrueCrypt有什么软件可以一键验证 HASH 校验值

    回复删除
  17. 关于论坛的信噪比,大家有没有想到台湾的EYNY论坛?禁止灌水,重复回文的论坛。

    回复删除
  18. 山寨这俩字真是充分体现了博主对国内这些软件的鄙视,你大概是对所有国内的东西都不满吧。国内有墙,这些软件的出现是信息时代发展的必然结果啊,只要跟别的软件的用法类似,就称为山寨吗。你不只是抹黑某党吧,你是看不起国内的一切吧。国内很多人是无意识的成为了你口中的脑残,包括很多底层的劳动人民,根本没有时间去关心国家的事情,自己的温饱都是问题。不是所有人都像你似的,不缺钱,还是大神,还能有空去自我实现。

    回复删除
  19. 发帖时间过去很久了,现在看还是很有价值。难得的高质量博客。

    回复删除