红莲专栏
您的位置:主页 > 营销知识 > 红莲专栏 >

百度检测网站黑链隐藏链接的实施算法及流程

网站编辑:红莲 │ 发表时间:2013-11-27 16:58

 黑链又称暗链、隐藏链接,是黑帽手法中相当普遍的一种手段,是指用非正常手段获取的其他网页的反向链接,最常见的黑链就是通过各种网页程序漏洞获取搜索引擎权重或网页级别(PR)较高的网页的管理权限代码 (Webshell),进而在被黑网页上链接自己的网页。该手段是搜索引擎中进行作弊最有效最迅速的方法之一,在暴利行业使用尤多,例如游戏、外挂、 彩铃等业务的行业。

搜素引擎现有的黑链检测方法主要包括以下几种:

    其一、网站管理人员通过经常查看网页源代码的方式,检查网页是否被挂上黑链。

    其二、查看网页中的链接是否可访问,如果存在未知链接,则怀疑被挂上黑链,删除该未知链接。

    其三、通过FTP工具查看网页文件的修改时间,如果存在修改时间异于 大多数文件修改时间的文件,则该文件就可能被修改了文件源代码,挂了黑链。

    上述几种黑链检测方法都需要大量的人工操作,一方面浪费人力资源,对网站管理人员的黑链知识提出较高要求,无法实现黑链的自动检测;另一方面,对于新出现的黑链作弊方式,很难及时有效地发现。

    百度提供了一种新的检测黑链的方法和装置,以便于实现黑链的自动检测。具体技术方案如下:

    S1、提取待检测网页的超链接,逐一对获取的超链接执行黑链检测流程:

    黑链检测流程包括:A1、判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果是,则确定该超链接为黑链。在所述黑链检测流程的步骤A1中,如果判断结果为否,则进一步执行步骤A2:A2、判断该超链接的外链引用次数是否超过预设的次数阈值,如果是,则确定该超链接为黑链。如果A2的判断结果为否,则将该超链接加入白名单数据库,结束对该超链接的黑链检测流程。在所述步骤S1之前还包括:S0、将所述待检测网页的网址与已有的白名单数据库进行匹配,如果匹配 得上,则确定所述待检测网页不存在黑链,结束流程;否则继续执行所述步骤 S1。

    获取该超链接的网页内容特征;将获取的内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上, 则确定该超链接为黑链。所述恶意特征数据库中存储有被识别为黑链的网页的关键词;所述将获取的内容特征与已挖掘出的恶意特征数据库进行匹配具体包括: 将获取的该超链接的网页标题title或网页元信息Meta与所述恶意特征数据库中 存储的关键词进行匹配。在确定出该超链接为黑链后,进一步包括:从 该黑链的网页中进一步提取关键词,将该关键词存储于恶意特征数据库。在所述步骤A1中,当所述视觉特征参数为颜色设置参数时,对应的不可见特征要求为该超链接的颜色设置参数与所述待检测网页背景颜色一致;或者当所述视觉特征参数为字体参数时,对应的不可见特征要求为该超链接的 字体参数的值小于或等于预设的字体参数阈值;或者当所述视觉特征参数为关键字位置参数时,对应的不可见特征要求为该超 链接的关键字位置在所述待检测网页的可见范围之外;或者当所述视觉特征参数为链接展现参数时,对应的不可见特征要求为该超链接以跑马灯形式闪现或者不显示。

    恶意特征数据库存储有被确定为黑链的链接;该方法还包括:从网页库中获取超链接中包含了所述恶意特征数据库中链 接的网页,对该网页中的其他超链接逐一执行所述黑链检测流程,并将检测出 的黑链加入所述恶意特征数据库;或者,从网页库中找出与所述恶意特征数据 库中链接的网页相似度满足预设相似度要求的网页,将找出的网页作为待检测 网页转至步骤S1处开始执行,然后将检测出的黑链加入所述恶意特征数据库。

    检测黑链的装置包括:链接提取模块,用于提取待检测网页的超链接,并将提取的超链接逐一提 供给检测模块;检测模块,用于判断超链接的视觉特征参数是否满足预设的不可见特征要 求,如果是,则将该超链接发送给黑链确定模块;黑链确定模块,用于将接收到的超链接确定为黑链。该装置还包括:引用次数判断模块,用于在所 述检测模块的判断结果为否时,判断该超链接的外链引用次数是否超过预设的 次数阈值,如果是,则将该超链接发送给所述黑链确定模块。白名单维护模块,用于在所述 引用次数判断模块的判断结果为否时,将该超链接加入白名单数据库。白名单判断模块,用于将所述 待检测网页的网址与已有白名单数据库进行匹配,如果匹配得上,则确定所述待检测网页不存在黑链;否则,触发所述链接提取模块。恶意特征匹配模块,用于获取 发送给所述黑链确定模块的超链接,获取该超链接的网页内容特征,将获取的 内容特征与已挖掘出的恶意特征数据库进行匹配,如果匹配得上,则将该超链 接发送给所述黑链确定模块。

    恶意特征数据库中存储有被识别为黑链的网页的关键词;所述恶意特征匹配模块在将获取的内容特征与已挖掘出的恶意特征数据库进行匹配时,具体将获取的该超链接的网页标题title或网页元信息Meta与所述恶意特征数据库中存储的关键词进行匹配。该装置还包括:恶意特征库维护模块,用于在所述黑链确定模块将该超链接确定黑链后,从该黑链的网页中进一步提取关键词,将该关键词存储于恶意特征数据库。在所述检测模块中,当所述视觉特征参数为颜色设置参数时,采用的不可见特征要求为该超链接的颜色设置参数与所述待检 测网页背景颜色一致;或者当所述视觉特征参数为字体参数时,采用的不可见特征要求为该超链接的 字体参数的值小于或等于预设的字体参数阈值;或者当所述视觉特征参数为关键字位置参数时,采用的不可见特征要求为该超 链接的关键字位置在所述待检测网页的可见范围之外;或者当所述视觉特征参数为链接展现参数时,采用的不可见特征要求为该超链 接以跑马灯形式闪现或者不显示。所述恶意特征数据库存储有被确定为黑链的链接;恶意特征库挖掘模块,用于从网页库中获取超链接中包含了所述恶意特征数据库中链接的网页,将该网页中的其他超链接逐一提供 给所述检测模块,并将所述黑链确定模块确定的黑链加入所述恶意特征数据 库;或者,从网页库中找出与所述恶意特征数据库中链接的网页相似度满足 预设相似度要求的网页,将找出的网页作为待检测网页提供给所述链接提取 模块,然后将所述黑链确定模块确定的黑链加入所述恶意特征数据库。

    百度提供了一种自动实现黑链检测的方式,无需手工操作,不再受限于网站管理员对黑链知识的掌握,并且是基于黑链的基本行为特性,即不可见的视觉特征,因此即便是新出现的黑链, 只要满足该基本行为特性均能够及时有效地发现。

扫描二维码分享到微信

在线咨询
联系电话

02988604351