HITS算法原理:
HITS算法不同于其他的搜索引擎链接分析算法,HITS算法原理是通过强调页面与页面之间的关于形成的一个有效的SEO排序算法,更多的是强调枢纽页面与权威页面之间的关系,从而提升网页与网页之间的信任度,然后达到提升页面质量排名的目的。HITS算法特点:
该算法对于国内搜索引擎而言,具有一定的缺陷,也正是一些缺陷影响了搜索引擎结果排序。从而可以利用HITS算法的缺陷进行网站优化。比如由于HITS的主题漂移,即使你发布的外链是不相关的,也会提升网页主题的推荐度,从而提升网页关键词排名。其次,HITS算法由于是归属于链接分析算法,该算法不仅仅是强调外部链接的重要性,同样也强调内部链接的重要性,如站内网页A信任度高,站内网页B包含内页A的链接,也会间接性提升网页B的权重,这也是为何很多时候做排名优化的页面没有排名,反倒引起了没有优化的页面参与了排名。HITS算法用途:
1、可以利用HITS枢纽页面与权威页面之间的关系提升排名卡位现象,比如排名第三页,可以利用该方式有少许排名提升; 2、可以利用HITS的主题漂移原理带动其他页面之间的排名,比如优化页面带动没有优化的页面排名。 首先,我们先来了解一下什么是HITS算法,包括他的计算公式和算法原理以及他优缺点。深刻的理解了这些含义以后,然后我们借助一些特定的实验来验证HITS的效果和实用性。 在HITS链接分析算法当中,阐述最多的两个点就是Hub页面与Authority页面。一、什么是Authority页面(权威页面)
简单来说Authority页面(权威页面)是指在某一个领域范围内或者某一个相关主题范围内的高质量网页。比如招聘领域,前程无忧网站的首页就是该领域的一个高质量优质网页。比如淘宝首页就是电商领域的优质网页。二、什么是Hub页面(枢纽页面)
而Hub页面(枢纽页面)通常就是它页面本身包含了很多高质量的Authority页面的链接,比如360网址导航首页就是一个非常好的Hub页面(枢纽页面)。因为在360网址导航的站点页面里面聚合了众多的不同类型的权威站点集合,比如新闻板块聚集了新浪、腾讯等权威站点。视频板块聚集了搜狐视频、优酷视频等权威站点。这个点和大家经常发布的一些分类目录网站外链有点类似(所以为何网站目录外链还存在一定的效果,正是因为搜索引擎本身有自己特有的算法才会影响到你的排名)。三、HITS算法意义
之所以存在HITS算法,是因为搜索引擎需要在全球所抓取的网页文档集合当中找到与用户搜索请求查询词匹配度与之相关最高的页面进行符合匹配,而这里的匹配度相关最高的则是一些高质量的“Authority”页面和“Hub”页面,而不是大家常常理解的站内文章优质原创等因素。尤其是一些权威页面,搜索引擎更加亲耐,因为这类站点页面的内容会更加满足用户查询的内容。 有很多朋友可能会问到一个问题,如何成为权威页面或者枢纽页面呢? 其实枢纽页面在前面从概念意义上解释来说已经告诉了大家如何去成为枢纽页面。比如360导航网站的某一个站点类型的聚合页面,再比如网站分类目录站点的某一个站点类型的聚合页面,这些都属于枢纽页面,但是枢纽页面也会分为高质量枢纽页面和一般性枢纽页面。比如360导航网站首页不仅是枢纽页面并且还是导航站点的权威页面。 那么又如何成为权威页面呢? 这里就会提到大家想要理解的一个深层次的东西了,所谓的高权重外链其实可以理解为高权威外链,即权重=权威。搜索引擎针对每一个站点和该站点的每一个页面都有一系列的网页评分,而这类评分决定着页面的链接是否为有效的信任度。而权威页面往往会有几个特点: 1、品牌属性 不管是某一种类型的站点,一旦要想成为行业的权威,品牌属性必定浓厚,这点大家可以从百度搜索引擎的知心算法可以得知。如当用户搜索网上商城会联想到京东、天猫;再如当用户搜索空调会联想到海尔、格力、美的等知名品牌。正是因为这类品牌属性,可以让这类品牌官网站点在某一个行业领域形成独特的权威度。但是,对于搜索引擎而言,这类品牌属性搜索引擎是感观不到的,而用户却可以知晓。因为对于用户而言,用户可以通过报刊,电视等多媒体方式了解到这些品牌的循环曝光,从而积累品牌的印象程度。那么搜索引擎是如何计算出这些品牌属性的权威程度呢?针对搜索引擎来说,搜索引擎会通过全网抓取技术检索全球所有网页集合,根据文档检索模型计算出词频,而词频计算出来的相关词频次结合度最高的一类词就是一个主题的符合度。通常情况下,是行业产品词+品牌词检索。 2、历史属性 历史属性我们可以称之为信任度属性,何为信任度属性,简单的理解就是一个权威的站点必定是本身的页面存在一定的真实性、可靠性的价值信任信息,就如百度百科的词条会有对应的参考资料来作为参考佐证,从而针对内容进行信任度提升。所以即使内容不是原创,如果页面满足了信任度属性,你的内容一样非常有价值,也利于搜索引擎优化。信任度属性除了信息价值信任之外还有一点就是历史数据积累,这点在老域名站点体现的非常明显。越老的站点信任度属性就体现的越明显,比如做一些灰色产业或者做医疗的SEO人员就非常喜欢采用使用过的并且干净底子的老域名进行优化效果最佳。 3、曝光属性 权威页面除了品牌属性和历史数据积累等属性还有一点就是曝光属性,这类曝光属性会包含两个大类,其中是站内曝光属性和站外曝光属性。站内曝光属性可以理解为页面收录量,一般情况下,当一个域名使用了10多年,每天都在充实着一些主题非常一致的优质枢纽页面的时候,那么自然而然他的曝光也会放的很大。而站外曝光属性就是在整个互联网站点文档集合里面所体现出你品牌属性的词频集合和关键词主题一致的文档数量,比如阐述淘宝的网页相关结果数有X亿个网页。而X亿张网页集合里面和淘宝相关度最密切的是关于电商、商城、网购等主题行业词汇。那么通过历史属性的数据积累,淘宝站点在电商领域归属于权威站点。四、HITS算法缺陷
每个搜索引擎算法都有自己的优势和缺陷,HITS也不例外,在HITS算法当中,有4个最常见的缺陷,其中包含了计算效率低、主题漂移、容易作弊和结构不稳定。 由于HITS算法是与之查询相关的算法,所以不能先计算,而必须是用户请求了某一个搜索词以后才能去计算该词的一些站点文档匹配度(链接评分板块),加上HITS算法的计算属性需要通过多次的计算迭代才能最终计算出检索结果的文档链接的推荐度投票,所以导致计算效率比较低下。 而主题漂移问题则是大家常常可以看到了一些现象,即使我交换的链接和我站点主题没有一条相关,但是也会促进我的页面关键词排名提升。而这种现象正是因为HITS的特殊算法结构才出现了给与这些无关网页很高的排名。最终导致了搜索结果发生了主题漂移,而这种现象也称为“紧密链接社区现象”。 之所以容易用来作弊是因为HITS强调的比较多的还是枢纽页面和权威页面之间的一种相互增强关系。作弊者可以通过建立新页面的形式,并且在新建立的网页中加入了很多高质量的权威页面链接,自身页面就会形成了一个很好的枢纽页面,然后作弊者可以通过该页面的一个权威枢纽性,再指向作弊网页链接,从而给与作弊网页增加权威页面得分。如下图所示:
五、HITS算法实战应用(实验)
现在我们到了SEO实验阶段了,说千道万不如实战验证。由于文章的特殊性,所以本文只发布和分析一个案例。首先我们来了解下实验步骤! 步骤: 第一步:实验假设 假设一:枢纽页面与权威页面均成立(存在这种现象/说法); 假设二:假设一个网站在不操作任何外链、站内更新、站内布局调整的情况通过HITS算法的逻辑提升排名; 第二步:准备实验站点(记录实验时间和站点快照时间) 1、首先我们准备了一个地区SEO词排名在23位的站点,该站点的该词排名稳定23位超过1一个月(因为不排除其他外链、内容更新影响排名的下降或者提升),所以该站排名23位空档稳定一个月+最好。 2、然后我们记录好站点的快照时间以及最后更新文章的时间节点,保证页面没有被蜘蛛抓取更新过和页面做过内容变动(达到实验的最佳效果),如下图所示:




参考资料
《这就是搜索引擎:核心技术详解》,张俊林 《HITS算法_百度百科》如需转载请保留本文出处: https://www.zhe94.com/478.html