搜索引擎的工作过程大致可以分为三个阶段

  【上海优化堂以效果为导向 , 为客户持续创造优质价值(www.dxi.com.cn)】

  一、对提交的搜索请求分析  搜索用户在搜索引擎上键入关键词,提交搜索请求,一步一步找到匹配的网页显示出来。当我们键入关键词提交(按下回车)给搜索引擎时,搜索引擎便会对这次搜索请求进行详细分析。  1、中文分词  中文分词是各大搜索引擎中重要的环节,中文分词能够更加明确掌握搜索请求的重点所在,时期更好地页面展示给搜索用户。  百度中文分词常见的以下三种:  a、基于字符串匹配  在基于字符串匹配中正向最大匹配法、逆向最大匹配法、最少切分这三种又比较常见。  正向最大匹配法:利用关键词查询的时候,在百度排名第一位的是以标题和搜索的长尾词相符合,说明在网站条件相当的情况下,先显示标题匹配的网页。  逆向最大匹配法:刚刚是正向最大匹配法相反的规则,即从右往左反向进行拆分和组合。  最少切分:最小切分就是将一个个词组切分为最细化,甚者会一个字出现。

  b、理解分词方法

  理解分词方法:搜索引擎模拟人的思维,对其语句的理解进行分词技术。通过对存储的词语和语句的整合,进行分词理解。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。  c、统计分词方法相邻的字同时出现的次数越多,中文分词就会可能把出现相邻的字当成你一个词。我们常常不是使用粗体,黑体这些吗?原因还在于这对于搜索引擎理解同样有利。  2、去掉停止词  搜索用户在键入关键词时,或多或少会出现不少停止词,像“的”“吗”,这样才能最大限度的显示最相关,最能够满足用户体验的结果页面。  3、处理符号  搜索引擎还是很看重标点符号的,因此我们SEO-er在编辑文章的时候,应当注意标点符号的合理使用,尤其是在文章标题上。  二、匹配搜索请求  当搜索引擎接收到搜索请求详细分析之后,便会匹配URL(当然重点是标题和摘要片段),匹配的URL成千上万个,怎样才能有序显示出来了,这就需要搜索引擎按URL的匹配程度排序。

  三、对匹配网页排名

  为匹配的网页排序,其实就是搜索引擎对匹配的网页进行筛选,挑选的过程,然后按照一定的顺序整理出结构的行为。当然搜索引擎都会给每个网页一个值,即权重(SEO-er们自我定义),通过判断该网页对搜索引擎和用户体验的价值进行排序排名。提高排名的因素多种多样,目前基本上是参考HITS算法,TrustRank信任指数算法、PR值等等。

  搜索引擎的工作过程大致可以分为三个阶段:

  1.爬行和抓取,搜索引擎蜘蛛(spider)也称为bot,机器人。通过跟踪链接访问网页,获得页面HTML代码存入数据库。

  2.预处理,索引程序对抓取来的页面进行文字提取,中文分词。索引等处理,以备排名程序调用。

  3.排名,用户输入关键词后,排名程序调用索引数据库,计算相关性,权重等诸多因素,然后按一定格式返回页面,生成搜索结果。

  简单的说,搜索引擎的爬行和抓取是按照页面链接跟踪抓取,也有另外一种的是目录提交,就是提交自己的网站让搜索引擎收录,所提交的页面会被放在待访问数据库。而搜索引擎蜘蛛抓取页面则是像用户浏览网页一样,从一个页面开始,根据页面上面的链接,一层一层的抓取,这里要提一下,蜘蛛喜欢新鲜的东西哦,不是什么复制过来的页面都能被收录,就算被收录也不会有好的排名!一般搜索引擎为了提高爬行速度,都派出多个蜘蛛分布同时爬行!

  蜘蛛每次访问一个网站,都会先访问网站根目录下的robots.txt文件,如果这个文件禁止搜索引擎抓取和收录某些页面,那么蜘蛛将遵守协议,不抓取被禁止的页面!同样为了抓取更多页面,搜索引擎蜘蛛会跟踪页面上的链接,从这个页面爬到另一个页面,就好像蜘蛛在网上爬一样,这也是蜘蛛这个名字的的由来。理论上说,只要给蜘蛛足够的时间,他能顺着一个网页爬遍互联网,但是这也只是理论而已,真正能被收录的页面只有互联网的一小部分。

  再说下蜘蛛的爬行策略,一般分两种,一个是深度优先,一个是广度优先。深度优先就是,蜘蛛顺着一个A网页爬行,一直是A1. A2. A3. A4. A5.......等等一直到没有其他链接可以进入再返回来爬B.B1.B2.B3.B4`````等等等,在深度优先中,蜘蛛一直爬到没有其他链接可以进入时在从另外一个链接进行爬行。 广度优先就是蜘蛛先抓取A.B.C.D...等等页面,然后返回来抓取A1.A2.A3.... 抓取完了 再去B1.B2.B3...抓取,当这些完了,再返回A1抓取A1-1 .A1-2. A1-3....如此抓取,绝对是照顾到了几乎所有的互联网网页,通常的实际情况中蜘蛛的抓取都是两种情况同时进行。 混合使用的。 uvb741 +我微

  优化堂专注于:网站排名,Seo优化,SEM,海外媒体推广,新闻源软文发布,SEO站群优化http://www.dxi.com.cn/


发布日期:2020/3/7
上一页 网站首页 下一页

全球媒体营销推广SEO
上海优化堂技术中心 咨询电话:400-8090-922
手机:18602125959(微信同号) 联系人: 方先生
以效果为导向 , 为客户持续创造优质价值