《易》曰“君子以自强不息”,又曰“君子以向晦而明”,余虽不敏,请事斯语。
    Technorati Profile
    « 上一篇: 自强不息 下一篇: REST四种行为 »
    buluzhai @ 2008-03-21 09:16

    让我想想,大概是如下几块吧:

     -- 攫取(fetching):就是把被指向的网页下载下来。
     -- 数据库:保存攫取的网页信息,比如那些网页已经被攫取,什么时候被攫取的以及他们又有哪些链接的网页等等。
     -- 链接分析:对刚才数据库的信息进行分析,给每个网页加上一些权值(比如PageRank,WebRank什么的),以便对每个网页的重要性有所估计。不过,在我看来,索引那些网页标记(Anchor)里面的内容更为重要。(这也是为什么诸如Google Bombing如此高效的原因)
     -- 索引(Indexing): 就是对攫取的网页内容,以及链入链接,链接分析权值等信息进行索引以便迅速查询。
     -- 搜索(Searching): 就是通过一个索引进行查询然后按照网页排名显示。

    当然,为了让搜索引擎能够处理数以亿计的网页,以上的模块都应该是分布式的。也就是说,可以在多台机器上并行运行。

    摘自《Doug Cutting 访谈录




    评论 / 个人网页 / 扔小纸条
    * 昵称

    已经注册过? 请登录

    新用户请先注册 以便能显示头像及追踪评论回复

    Email
    网址
    * 评论
    表情
     


     

    分类小组论坛
    杂谈 , 娱乐、八卦 , 文学、艺术 , 体育 , 旅游、同城 , 象牙塔 , 情感 , 时尚、生活 , 星座 , 科技

    请注意遵守中华人民共和国法律法规, 如威胁到本站生存, 将依法向有关部门报告, 同时本站的相关记录可能成为对您不利的证据.

    相关法律法规
    全国人大常委会关于维护互联网安全的决定
    中华人民共和国计算机信息系统安全保护条例
    中华人民共和国计算机信息网络国际联网管理暂行规定
    计算机信息网络国际联网安全保护管理办法
    计算机信息系统国际联网保密管理规定

    网志分类
    所有网志 (105)
    看看 (6)
    google (9)
    search (0)
    古人的经济学 (1)
    未分类 (89)
    日历

    站内搜索
    友情链接
    · 我的歪酷 非非共享界 · 云水明奘 · 胡说 · 对牛乱弹琴 · steve yegge · 炎龍的筆記本 · 长东 · xerdoc · canonical · Raw

    订阅 RSS

    0015203

    歪酷博客