seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

大家好、我是胡子先生,一个从事seo行业两年的菜鸟,因为一些个人的想法。从现在开始我们以至于接下来的两月会陆续的分享一些我从事seo这些年的一些工作经验和心得和大家分享。好的、话不多说。我们开始今天的第一个知识点的分享—-搜索引擎的工作原理(或者叫流程)。

搜索引擎工作过程非常复杂,接下来的我们简单介绍搜索引是怎样实现网页的排名的。这里介绍的内容相对于真正的搜索引擎技术来说只是皮毛,不过对于我们的大部分seoer来说已经足够使用了。

搜索引擎的工作过程大体上可以分成三个阶段。

爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面HIML代码,存入数据库。预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。索引:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按定格式生成搜索结果页面。

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

搜索引擎工作原理图

 

上图所示就是搜索引擎的大致工作流程图,首先搜索引擎会从索引区派出程序(百度也叫蜘蛛),通过链接来到网站上面对我们的网页进行抓取,抓取到网页之后先把数据放到临时数据库,临时数据库就会对我们的网页进行一些预处理考核操作(比如去重、中文分词、去停止词、消噪等等),符合搜索引擎规则的就存放到索取区,反之不符合规则就清理掉。然后搜索引擎就会分类、归档、排序。最终将结果展现给用户。

上面大致是搜索引擎的工作流程,接下来我们去看看具体的一些细节

1.1、抓取

1.1.1是什么抓取网页

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

是什么抓取网页

 

蜘蛛是一个抓取网页的程序;相当于一个普通的用户(网页需要登录查看的不能抓取);通过链接抓取。常接触的蜘蛛有:百度蜘蛛baiduspider、谷歌机器人 Googlebot、360蜘蛛 360spider

1.1.2蜘蛛抓取规则

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

蜘蛛抓取规则

 

蜘蛛抓取的规则有很多种:深度优先策略、广度优先策略、大站(高权重)优先策略、时效性优先策略、重要页面优先抓取策略等等。

深度优先策略:从首页出发、顺着链接一直抓取到没有内容可以抓、然后返回其他的栏目或者内容。如图展示:M1–>M2–>M5–>M8–>M6–>M3–S7–>S4广度优先策略:广度优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。就好比图中一样的从M1出发、然后访问M2、M3、M4,访问完之后。再接着访问M5、M6、S7、最后访问M8。这就是广度优先策略。从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源、时间都不是无限的,也不可能爬完所有页

面。实际上最大的搜索引也只是爬行和收录了互联网的一小部分。

大站(高权重)优先策略:就是网站是一个大网站、权重高,蜘蛛会特别关注、抓取的也频繁。时效性优先策略:网站具有时效性内容、比如新闻源网站、一些及时性的新闻也会特别关注。重要页面优先抓取策略:要讲的有两个方面,第一就是首页、首页是一个网站权重最高的页面。第二个受欢迎的页面、投票越高页面页面越重要。

1.1.3蜘蛛抓取内容

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

蜘蛛抓取内容

 

蜘蛛是通过链接的方式去抓取网站的内容的、对文字的识别度是最高的。图片是有专门的图片蜘蛛来抓取。但是要记住、图片需要加拉特属性便签、这样蜘蛛才能更好的识别图片。对于视频、js、iframe框架是不识别的。

1.1.4影响蜘蛛抓取因素

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

影响蜘蛛抓取因素

 

需要权限、需要登录的内容蜘蛛是抓取不到的。路径很长或者路径层次过深也是影响抓取,路径层次最好在3-5层。Robots文件是蜘蛛和网站的一种协议、禁止抓取网站的内容蜘蛛就不会对网站不抓取。网站打不开相当于网站不存在、蜘蛛没有去抓取是很正常的。

1.1.5如何判断蜘蛛访问网站

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

 

判断蜘蛛来到网站有两种方法

查看网站服务器日志文件。通过各大搜索引擎的站长平台去判断。百度有百度站长平台、360有360站长平台。里面添加好网站就可以看蜘蛛是否来到我们网站。

1.2过滤

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

过滤

 

1.2.1过滤系统存在的意义

临时数据库是用来暂时存储蜘蛛抓来的网页的一个地方、对于服务器来说在这里需要对网页进行过滤。过滤需要解决一些没用的资源、节约空间、减少服务器的工作量。另外一些明显的欺骗用户的网页,死链接,空白内容页面等,这些网页对用户、站长和百度来说,都没有足够的价值,因此百度会自动对这些内容进行过滤,以免为用户和您的网站带来不必要的麻烦。

1.2.2影响过滤的因素

页面的打开速度:页面打开速度也是影响搜索引擎过滤的因素之一、国内网页的打开速度<100毫秒、国外空间<200毫秒。网页打开速度可以参考站长工具http://ping.chinaz.com/。权重:这个没什么说的、就是页面权重高的会得到优先处理的待遇。页面的质量:页面质量有三个点来确定:

样板,所谓样板就是我们所说的网页相似度、假如说整个网站的相似度很高的话、页面的质量度也就低。

识别,就是内容是否能够被百度直接识别。文字和链接是能够直接被百度识别的、而图片和视频是不能够被百度直接识别,而是通过标签alt来识别。其余的js、cs、iframe框架等等是识别不了的。

相关,所谓相关是指文章标题和文章内容是否相关,相关度越高就越好

时间因素:也就是当下时间发生什么人们关注什么、写的内容就不容易被顾虑掉。比如说世界杯期间。人们关注世界杯、关于世界杯的东西就不容易过滤。

1.3收录

经过上面的一系列抓取、过滤之后、我们的就到了收录的阶段。蜘蛛会把符合规则的就加入到数据库里面。那么百度收录的是那些内容的。

1.3.1收录的内容

收录大概有这些页面标题、页面描述、页面源代码、页面url这些内容。

1.3.2查看收录

单个页面:查看单个页面就只要在百度上搜索一下这个网址就可以、就比如https://www.zgfupiao.com/sell/gunsushuixiang/ 这个页面。只需要在百度上搜索一下就可以知道他的收录情况,很明显已经被收录了。 seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

查看收录

 

整个网站:要查看整个网站的收录情况就只要一个命令site。Site:你的域名就可以查看整个网站的收录情况。如下图、可以看到整个网站大概收录了1030条网页。所有的排名都是在有收录的前提下实现的。

 

1.3.3收录的常见问题

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

 

新站一个月收录很慢或者只收录首页:新站刚刚搭建、搜索引擎不能判断网站信任度怎么样,所以需要花时间去建立一个信任度。第二就是网站质量的问题、一个新站往往做的内容也不是很多,搜索引擎不能马上判断网站的质量怎么样。所以也会导致收录减慢。长久没有更新网站,突然一篇文章这样的一个页面会长达1个月或是个半月才有可能收录。禁忌:首页不要做出flash、不能使用大量图片做成的首页、不能把导航做出图片的链接。

 

1.4索引

1.4.1索引量

索引量指可以被搜索用户搜索到的网站数据库,索引量工具同时支持站点自定义想要关注的目录,查看某一目录规则下的索引量;索引量不等于流量,索引量会有定期数据波动,属于正常现象。百度索引数据最快每天更新一次,最迟一周更新一次,不同站点的更新日期可能不同。您可以查询到近一年中每天的索引量数据,一年前的索引量数据为每月索引量数据。如果已有流量数据查询不到,请隔日再查,最长间隔一周可查询到数据。

详情可以查看百度官方的资料:https://ziyuan.baidu.com/college/articleinfo?id=806

1.4.2查看索引量

目前site指令的数值是索引量的估算值,比较不佳。百度官方也有提出:推荐站长们使用百度站长平台来查看网站的索引量。

 

seo日常工作内容是做什么,搜索引擎的工作过程包含以下哪些环节

 

1.4.3页面进入优质索引量条件

有时效性有价值的页面:在这里,时效性和价值是并列关系缺一不可,有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的。内容优质的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容结合在一起,或者増高价值原创内容页面:百度把原创定义为花重要个人页面:这里仅举一个例子,科比在新浪微博开户了即使他不经常更新,但对于百度来说,它仍然是个极重要的页面

到这里为止、我们基本把搜索引擎从开始抓取网页或后面进行排名已经大致讲了一遍了。最后进入索引库的页面通过归档排序就能很好的展现给用户。好了最后如果有什么建议或者意见都可以留言告诉我,如若各位有需要课件可以直接给我留言。

本文来自作者:zx1080,不代表小新网立场!

转载请注明:https://www.xiaoxinys.cn/188453.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。