网页设计师联盟

--- 学习、交流、展示、资源

招聘精英个人求职网站发布网友作品网页特效动画欣赏网页素材免费资源源码下载设计软件
作品欣赏       域名申请       虚拟主机
网页设计师

  • 新闻资讯
  • 网页教程
  • 平面教程
  • 程序设计
  • 视频教程
  • Flash教程

网页设计师站提供网页设计程序设计服务 E-mail:liangfeng0526@qq.com

 您当前的位置:首页 > 阅读文章
网页设计师联盟(www.wysjs.cn)欢迎您!
 标题:

搜索引擎的难点及工作原理

搜索引擎的难点包括如下几点:

  1) 是否支持并发的爬取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况.

 

 

  2) 采集的数据还要有一个排重的过程. 只需要采集一个网站更新的数据

  3) 对于需要cookie数据的网页如何采集的问题,部分网站需要通过cookie数据登陆网站

  4) 自动通过识别码的验证

 

 

  5) 一些网站对于密集访问的请求会拒绝,技术上也要进行处理

  6) 对于一些特殊网页的采集问题, 比如flash网页,一些游戏网页等,很多网站会让采集程序陷入其中,采集数万无效数据,显然是浪费了采集程序的精力

 

 

  7) 大数据量的存储也是个难点,据说Google的存储是自己开发的架构,没用任何的数据库,因为数据库的查询效率还是有一定损失. 可以采用数据块的模式,然后通过散列表的模式连接.

 

 

  以上主要列出的是后台采集器的相关技术难点,在前台检索、查询效率等方面仍有许多难点.

 

 

  搜索引擎的工作原理大致可以分为:

 

 

  1、搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器人便可以遍历绝大部分网页。

 

 

  2、整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。

 

 

  3、接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。

  • (刊登方式:转载   来源:不详   作者:   添加:admin   关键词:)
  • 您已阅读:搜索引擎的难点及工作原理 您还可以继续阅读↓  或 回到首页看看>>>
  • 上一篇向搜索引擎提交网站的技巧

    网页优化只是做好了登录搜索引擎的前期准备工作,最终我们要将优化好的网站提交搜索引擎,这也是网站注册中非常重要的一环。   ■提交网站还是网页   提交你的网页,而不是你的网站——以前的确如此,而今情况则完全不同。现在几乎所有搜索引擎在网站登录页面都明确..

  • 下一篇搜索引擎如何判断页面中最核心的内容

    搜索引擎蜘蛛把页面代码送回搜索引擎服务器后,SE是如何判断页面中最核心的内容呢?   先说下Kyw认为的搜索引擎运作过程的前几个步骤:   1.蜘蛛下载A页面,送回服务器;   2.服务器寻找A页面的核心内容位置,然后去除HTML代码;   3.寻找网页核心内容..