网站优化 网络营销 网站托管
7天见效果,满意后再付费!

咨询热线:15269785717
您的位置: 首页>技术文章>seo优化
圣兴利优化排名系统知多少
时间: 2019-06-12 来源:本站 点击:537次
   圣兴利优化排名系统知多少?
“搜索”在这个数据信息冗杂的时代里,充当着人们信息的筛选器,人们通过使用搜索功能,可以获得自己想要的内容,屏蔽掉无用的信息。对于商家来说,理论上,搜索功能在一定程度上可以增加长尾信息的曝光度。

但是,总所周知,搜索引擎的排序规则实际上饱含水分,竞价排名的规则下,长尾信息的曝光可能就打水漂了。

所以,无论是C端还是B端的产品经理,深谙搜索引擎规则,并学会利用好搜索引擎都非常重要。

一、 初识搜索引擎
提及搜索引擎,大家脑海中就会浮现起国内的百度和国外的Google,我们想要查找什么资料,直接在搜索框中输入关键字,点击搜索按钮,之后就会展现搜索结果。

其实这只是搜索引擎的一部分,我们使用微博搜索某个明星,使用淘宝搜索商品,使用豆瓣搜索一本书,都是搜索引擎。这些搜索引擎因为太常用,我们反而没有意识到。

搜索引擎本质上是一种信息获取方式。

搜索引擎主要经历了:分类目录、相关性搜索、高质量搜索、个性化搜索四个阶段。

在搜索引擎诞生前,我们使用分类目录来获取信息。Yahoo!和国内hao123是分类目录的代表。当时信息相对较少,通过人工整理,把属于各个类别的高质量网站罗列出来。

比如:按照财经类、新闻类、体育类、游戏类等项目进行整理,用户可以通过分类目录来查找需要的信息。

但一个页面的展示空间有限,分类目录也只能收录少数的网站,绝大多数网站都无法被收录,而那些没有被收录的信息,可能正是大家需要的。

有需求,就有商机,搜索引擎顺势而生。

最早的搜索引擎,通过查找用户输入的关键词与网页信息的匹配程度,也就是计算两者的相关性,展示网页列表,至于如何计算匹配程度,会在后文讲解。

相比分类目录,这种方式可以收录大量的网页,并按照用户查询的关键词和网页内容的匹配程度进行排序。

但这种方式有个巨大的问题:只考虑了相关性,没有考虑网页的质量。网页可以通过大量罗列跟内容无关的关键词,来提高与关键词的相关性。

比如:一家做教育的网站,可能会罗列明星、宠物、新闻甚至色情等高流量词语,这种“强行蹭流量”的方式,造成的后果就是搜索结果质量并不好。

解决这个问题的是Google,Google假设网页的链接越多,网站质量越高。利用网页之间的链接数量来确定网页质量,一个网页的链接数量越多,说明在网页在整个互联网中质量越高,Google的核心算法,也会在后文讲述。

发展到现在,搜索引擎不仅需要解决相关性和质量的问题,还要更多考虑用户的真实需求,比如:同样输入“苹果”,年轻人可能想的是手机,另外一些人想到的是水果。这就需要更加复杂的算法和程序了。

二、什么是好的搜索引擎
从分类目录、相关性搜索、高质量搜索、个性化搜索,我们可以从搜索引擎的发展阶段看出,搜索引擎越来越复杂,用户体验也更好了。

那么,如果判断一个搜索引擎好不好呢?

主要有三个评价标准:

1. 好的搜索引擎要快
速度是用户对搜索引擎的第一个印象。

当用户搜索一件商品,几十秒还没有搜索到,他可能去干其他事情了,就直接放弃购买了!商用搜索引擎的查询速度要达到毫秒级,一眨眼的功夫,搜索结果就出来了,用户体验就很好。

影响搜索速度的因素有很多,索引是最关键的因素之一,关于索引,会在下一节详细介绍。

2. 要查的准
当用户翻了3页还找不到想要的内容,干脆就不找了。

影响查询准确率的因素同样有很多,主要有下面这三个:

搜索引擎本身存储的信息要全,对于百度等商用搜索引擎,这就要求爬虫能够爬取全网内容。

关键词和网页内容的相关性要高,用户搜索手机,结果有很多单反相机,就不太好了。

网页信息质量要高,Google发明的PageRank算法很巧妙地解决了这个问题。

3. 搜索引擎要具有稳定性
这也是用户对大多数产品的要求,给用户一个合理的预期,用户才能够信任这款产品,三天两头不能用了,体验就差极了。

搜索引擎是怎么工作的?

那么,搜索引擎到底是如何工作的呢?

PM技术课|搜索引擎知多少?

一个最基本的搜索引擎主要分为:信息获取、信息处理、信息展示三个模块。

巧妇难为无米之炊,信息获取是整个系统的基石。对商用搜索引擎而言,要求爬虫能够爬取全网内容,关于爬虫,我们再上一章已经介绍过了,这里就不再赘述。对网站内部搜索引擎而言,也需要把信息汇总起来,比如:电商平台,就需要把所有的产品信息存储到一起。

信息处理主要是对原始数据清洗,存入数据库,这里最重要的一个环节就是构建索引,相当于给每一个内容添加目录,便于查找。

信息展示指搜索引擎根据用户的查询词(query)来进行数据库检索,将结果展示给用户,主要涉及到用户查询内容与网页内容的相关性分析、网页质量评价等技术。

虽然搜索引擎具体实现方式有差异,但所有的搜索服务都可以在这三个模块的基础上实现。

三、内容索引
搜索引擎为什么这么快?

好的搜索引擎的评价标准之一就是要快,那么搜索引擎是如何实现的呢?

在开始讲解之前,我们可以考虑另外一个相似的问题:如何在图书馆找到一本书?

最笨的方法是一个书架、一个书架地找,这会花费大量的时间。

聪明一些的方式是通过索书号,快速找到所在书架,进而找到这本书。

搜索引擎中的索引就相当于图书馆里每本书的索书号,通过索引,可以快速找到需要的信息。

索引到底长啥样?

以网页搜索引擎为例:下面这张图是一个简单的索引系统(更准确的说法是倒排索引,至于为什么是倒排,这里先卖个小关子,后面会讲到)。

左边是关键词,右边是这个关键词出现在哪个网页中,一个关键词可能同时出现在很多网页中,所以是一对多的关系。

PM技术课|搜索引擎知多少?

与图书馆索引不同是:一个图书馆再大,藏书毕竟还有有限的,图书管理员可以手工给每个图书建立索书号。但搜索引擎存储的数据都是以亿计算的,不可能手工建立索引,只能借助一些技术手段。

从上面的表格我们可以看出,构建索引主要有两个过程:查找关键词,把关键词和网页对应起来。

关键词
构建索引的前提是提取出关键词,那么给定一个文本(也就是网页的文字内容),如何获取里面的关键词呢?

主要有两步:首先是获得文本里出现的所有词语,也叫做分词,之后再从中筛选一些作为关键词。


一个关键词在一个网页中出现的频率越高,这个关键词越重要,排名越靠前;在所有网页中出现的频率越高,这个关键词告诉我们的信息越少,排名应该更靠后。

TF-IDF模型帮助我们解决了关键词与网页相关性的计算,仅仅使用TF-IDF模型,也可以搭建出效果不错的搜索引擎。

当然,商用搜索引擎在TF-IDF的基础上,进行的一定的改进,比如:出现在文章开头和结尾的关键词更加重要,会根据词出现的位置调整相关度。但还是基于TF-IDF模型的调整。

大名鼎鼎的PageRank
搜索结果排序,仅仅考虑相关性,搜索的结果并不是很好。总有某些网页来回地倒腾某些关键词,使自己的搜索排名靠前(当然,部分原因也来自某些搜索引擎更加喜欢推荐自家的东西,这个就不属于技术问题了)。

引入网页质量,可以解决这个问题。排序的时候,不仅仅考虑相关性,还要考虑网页质量的高低,把质量高的网页放在前面,质量低的放在后面。

那么,如何判断网页质量呢?

解决这个问题的是两位Google的创始人。搜索引擎诞生之初,还是美国斯坦福大学研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。

他们的借鉴了学术界评判学术论文重要性的通用方法,看论文的引用次数,引用的次数越高,论文的质量也就越高。他们想到网页的重要性也可以根据这种方法来评价。

佩奇和布林使用PageRank值表示每个网页的质量,其核心思想其实非常简单,只有两条:

如果一个网页有越多的链接指向它,说明这个网页质量越高,PageRank值越高,排名应该越靠前;

排名靠前的网页应该有更大的表决权,当一个网页被排名靠前的网页链接时,PageRank值也越高,排名也更靠前。

我们做一个类比:

有一个程序员,如果公司的人都夸他编程技术高,那么我们认为他编程技术高;

如果他被公司的CTO赏识,我们基本可以确定他的编程水平确实牛。

比如:下面这张图(专业术语叫做拓扑图),每一个节点都是一个网页,每条线都是两个网站之间的链接。

链接越多,说明网站质量越高,相应的PageRank值就越高。

PM技术课|搜索引擎知多少?

这里有个问题:“当一个网页被排名靠前的网页链接时,其排名也应靠前”,一个网页的排名的过程需要用到排名的结果,这就变成了“先有鸡还是先有蛋”的问题了。

Google的两位创始人用数学解决了这个问题:

最开始的时候,假设搜索的网页具有相同的PageRank值;根据初始值,开始第一轮的计算,按照链接数量和每个网页的PageRank值重新计算每一个网页的PageRank值;按照上一轮的结果,按照链接数量和每个网页的PageRank值重新计算每一个网页的PageRank值……

这样计算下去,直至每个网页的PageRank值基本稳定。

你可能会好奇,这样要计算多少次?

佩奇在论文中指出:对网络中的3.22亿个链接进行递归计算,发现进行52次计算后可获得收敛稳定的PageRank值。

当然,PageRank实际运行起来比这个更加复杂,上亿个网页的PageRank值计算量非常大,一个服务器根本无法完成,需要多台服务器实现分布式计算了。为此,Google甚至开发出了并行计算工具MapReduce来实现PageRank的计算!

除了巨大的计算量,PageRank同样要面对作弊的问题。

开头我们谈到TF-DIF的弊端的时候讲到:总有某些网页来回地倒腾某些关键词,使自己的搜索排名靠前。

同样的,针对PageRank,也总有些网页来回地倒腾链接,使自己的搜索排名靠前。这就需要更多的算法,来识别这些“作弊”行为,我们在搜索引擎反作弊一节再来细讲。

其他排序方式
至此,使用TF-IDF计算网页与搜索内容的相关性,使用PageRank计算网页质量,可以很好地实现网页排序,一个基本的搜索引擎就搭建完成了。

商用搜索引擎在此基础上,还衍生了出其他的排名方式。

竞价排名:

比较著名的是百度推出的竞价排名(其实最开始做竞价排名的不是百度,但百度做得太“成功”,也至于大家都认为是百度发明了竞价排名),竞价排名按照按网站出价高低决定排名先后。

这种排名方式最大的优点是:可以帮助搜索引擎公司盈利。

最大的弊端是:无法保证出价高的网页的质量高,在医疗等特殊领域,有时甚至相反。

随着用户数据的积累,关键词和对应用户点击网页的行为数据也被搜索引擎记录下来了,搜索引擎可以根据用户的操作,不断改进自己的引擎。

时至今日,商用搜索引擎的底层技术都差不了太多,用户数据记录成为了竞争的关键因素,这也是百度得以在国内的搜索引擎市场独占鳌头的重要原因——用户越多,搜索越准确,搜索越准确,用户越多!

站内搜索:

百度、Google等通用搜索引擎要做很多工作,相比之下,站内搜索就简单很多——数据量少、也基本都是整理过的结构化数据,比如:豆瓣读书,搜索的时候直接检索自己的数据库就可以了。

虽然站内搜索的技术与通用搜索引擎有很多不一样的地方,但构建索引、相关性计算、质量计算、排序等流程基本一致。对于站内搜索的需求,同样存在开源的解决方案。

业界两个最流行的开源搜索引擎——Solr和ElasticSearch,它们运行速度快、效果好、可靠性高、可扩展,最关键的是免费,足以满足一般的商业需求。

对大多数公司而言,直接使用开源搜索引擎就可以了,不用重新造轮子,甚至,这些开源的解决方案比自己从头搭建的还更加稳定可靠。

五、 SEO与搜索引擎反作弊
搜索引擎结果排名影响流量,流量影响利润,有利润的地方就有“商机”,SEO就是针对搜索引擎排名的“商机”。

SEO(Search Engine Optimization)中文为搜索引擎优化——即利用搜索引擎的规则提高网站在搜索结果的排名。

SEO优化通常有两种方式:一种是网站内部优化,一种是外部优化。

内部优化主要是优化网页内容,比如:提高关键词的数量,优化网页内部标签等。更有甚者,一些网页会使用非常小的字重复关键词,或者使用跟背景相同的颜色重复一些高流量词语,以实现较高的排名。

外部优化主要优化链接,比如:添加友情链接、论坛、贴吧、知道、百科等,这就产生了买卖链接的生意。

可以看出:SEO的优化基本针对的就是TF-IDF和PageRank的排序方式,“投其所好”提高自己的排名。

搜索引擎反作弊
从用户的角度讲:高质量的、相关的信息才是真正需要的。

一些网页凭借SEO优化获得较高排名,本身可能质量不高、相关性也比较弱,这对那些老老实实提供优质内容的网站也是不公平的。

长此以往,可能就会产生“劣币驱逐良币”,搜索引擎搜索到的优质内容不断减少。

从这个角度看,SEO就是针对搜索引擎的作弊,搜索引擎公司也不希望这样的事情发生——搜索不到需要的信息,用户也许直接就跑了!

Google诞生初期,就一直面对作弊与反作弊的问题。

在2001年,敏感的站主和SEO优化者发现:有些网站的Google排名一夜之间就一落千里,有的网站排名则大幅上升,这个现象几乎是每月一次。

后来,人们才知道,Google定期地更新它的反作弊算法,提高搜索质量,这给人的感觉就像跳舞一样,因此被SEO称为Google Dance。

那么,Google是如何反作弊的呢?

虽然各种作弊行为的方式各不相同,但目标一致,都是为了获得更高的排名,大体上还是有一定规律的。根据这些规律,搜索引擎常用的反作弊方式有两类:根据作弊特征的主动出击,建立“黑白名单”的被动防御。

首先,搜索引擎会根据作弊网站的特征主动出击。

就像我们总是能从人群中一眼看到长得最特殊的人一样,一个出现大量重复关键词网页、一个出现大量链接的网页和一个普通的网页,在搜索引擎看来是很不一样的。

PM技术课|搜索引擎知多少?

通过计算网页的关键词数量特征、链接数量特征,可以很快发现那些“出格”的网站,搜索引擎就可以凭此调整排名。(前文所述的Google Dance就是根据作弊网站链接异常实现反作弊的。)

其次,搜索引擎也会建立“黑白名单”,作为防御手段。

搜索引擎会根据网站内容的质量、品牌、权威程度等信息建立一个白名单,比如:政府网站、一些大公司网站就在白名单中,这些网站的质量较高,排名也靠前,白名单链接的网站质量一般也会较高。

与之对应的是黑名单,主要包括那些作弊严重的网站——比如:堆叠关键词、买卖链接的网站。如果同一个网站链向了多个黑名单中的网站,就可以把其认定为作弊的网站,降低排名。

一、从网络推广入门SEO的

2008年,刚刚大学毕业就面临着找工作。我自己学的专业是电子商务,其实在上大学之前根本不知道电子商务是什么,因为父母都是农村的,考的大学也不好,也没有人指导我如何去选专业。不过相信我以后的小孩就不会有这样的情况了,当时的电子商务刚刚兴起,一线城市很火爆,像我们这样三四线的小城市,找电子商务工作真的太难了。

跟很多刚毕业的学生一样,穿这西装革履,一本正经的带上打印好的简历,就这样参加了各种面试。去了企业别人问的问题真的一问三不知,面试的自己都没有信心了。后来都对面试产生了恐惧,因为实在受不了打击。
后来看到一个岗位,叫网络推广。看了职位描述,感觉也挺简单,也不需要说话。投了很多这样的简历,屁颠屁颠的就去了。果然面试上了,一个月1600。果断的就答应了。当时我租的城中村,一个月房租140。
后来上班知道,原来推广确实很简单。就是注册账号,拼命的发帖。一天发上百条。刚开始的一个月就跟傻子一样,不停的注册账号,不停的保存分类信息网站,不停的发帖。
二、反思推广的未来,正式加入SEO大军中

又干了一段时间,我开始有点受不了了,感觉这么干,就跟机器人一样,重复重复在重复,而且也没人鸟我。整个公司的氛围都很安静,只听到键盘敲个不停,一边在伪原创,一边在发帖。我实在受不了,就开始在百度上搜索如何提升自己。当时就看到了一篇比较完整的介绍SEO的文章。
看完后我才明白,原来推广只是为了配合SEO。因为里面写了一句话:内容为王、外链为皇。当时的分类信息是可以带链接的。公司之前还有一个岗位,是专门换外链的。可见当时外链的重要性。大凡有流量的网站,外链至少都是好几万,甚至几十万几百万。
后来继续搜索SEO做的好的人,感觉他们的收入也还可以,就开始自己学习SEO了。并自己做了一个网站。(补充一下:现在推广的形式非常多,并且移动端也很发达,所以推广肯定不是为了SEO服务。)
10年站长经历心得:有价值的内容才是王道 心情感悟 IT职场 站长 经验心得 第2张
三、一做SEO就是10年,不过后来的SEO只是辅助了

刚开始的几年,SEO还是比较吃香的,当时知道了关键词设置,标签、发外链,文字链,锚文本之类的,包括新闻源带链接权重高,真的是无所不用,后来网站的权重,关键词排名都很好,记得网站最好的时候,权重是5,一天有万把的流量。
不过好景不长啊,2012年左右的时候,分类信息被打击的很严重,外链也渐渐的失效了,或者说变得没有那么有效了。之前业内的做法都是发伪原创。后来优化了很久,都没有优化回来,看到了很多关于百度算法的文章,才知道,野蛮时代已经过去。
相信做过SEO的人,每天都查询关键的排名,使用追词工具,发外链,下面一帮伪原创的编辑,还有一个换友链的,少则手上三个网站,多则几百个网站。
10年站长经历心得:有价值的内容才是王道 心情感悟 IT职场 站长 经验心得 第3张
四:认真的做内容,不用刻意,也有效果

SEO的优化变的难了,但是获取流量任然是企业永不停止的道路。我开始走向了运营的道路。我帮助一家企业运营一个农业电商的网站,通
0
阅读延展
  • 山东曲阜大成路星光天地B座1508室
  • 联系电话:15269785717
  • 工作时间:06:00-23:00
  • maimaipinet@126.com(# 换成 @
Copyright @ 2018-2020 山东圣兴利网络科技有限公司 

在线咨询

售后服务

电话咨询

返回顶部