/*版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明 .*/
搜索引擎web spam类型及防治策略(version 0.9)
中科院软件所 张俊林
url:http://sonata.iscas.ac.cn/zhjl
2005年7月
搜索引擎的目的是发现和用户查询”相关”而且”重要”的页面.一般来说网页是否和用户查询相关是根据内容判断的,而重要性是根据链接分析得到的.web spam通常从内容,链接,信息隐藏三个方面来进行. 往页面加入大量关键词,以对用户不可见的颜色设置字体.这样用户使用不可见的字符串搜索就可能搜索到无关的网页.这种方式主要是基于内容的;分析Pagerank等搜索引擎使用的链接分析技术,构造很多其它网页,并在网页指向网页,这样网页的入度大量增加,导致链接分析失效,排名增高.这种方式主要是基于链接的.
Web spam对于搜索引擎有很大的危害:一方面降低搜索引擎的结果有效性.大量不相关页面占据重要排名位置.另外一个方面, 增加搜索引擎的无效索引,.这样对于每个查询都会耗费不必要的时间来处理这些垃圾索引.
Web spam 和email spam类似,对于某个网页是否真正的spam网页的判断多少是有主观因素的,这也是造成难以防治该类问题的一个核心难点.而目前大多数anti-spam技术都基于以下两个假设:假设一: 非网站一般不会有指向网站的链接(这个假设是有漏洞的,比如honey pot方式,但是大多数情况下是成立的).假设二. 网站往往会增加指向非网站的链接.
本文下面的内容讲述目前常用的一些方法以及比较常见的防治策略.首先需要定义几个概念:
概念一.目标网页----就是者采取一系列措施希望该网页能够在搜索引擎排名中得到比其应该得到的排名高的网页.
概念二:辅助排名网页---者为了提高某个或者某些网页的排名,需要引入大量的其它网页,这些网页的目的是帮助提高目标网页的排名.
一. 搜索引擎spam方法
(1) 内容.目前搜索引擎对于内容相关的判断基本上是基于信息检索领域的TF*IDF模式.TF指的是一个单词在文章中出现的频度,IDF指的是有多少个不同的文章中出现过该词汇.一般来说TF越大,分值越高.IDF越小分值越高,也就是说越少的文章出现过这个词汇,那么IDF分值越高.本质上IDF是衡量词汇权重的一个经典方法.对于者来说IDF基本上是不可控制的,但是TF却是可以操控的.比如通过大量复制词汇并隐藏其可见性可以提高TF值,从而增加搜索引擎排名.另外,搜索引擎对于内容权重的衡量还考虑词汇出现位置,通常考虑的词汇位置包括:文本正文,文本标题,meta tag,URL链接文字以及URL文字.一般文本标题,URL链接文字以及URL文字的权重会比较高.所以者通过在文章标题或者URL链接文字增加词汇来提高排名.这里的URL链接文字不是目标页面包含的链接的文字,而是指向目标页面的链接上的文字.因为一般认为指向目标页面的链接文字是一个摘要性的描述,其准确性比较高,所以权重设定比较大.URL文字指的是在URL中加入词汇比如:www.buy-computer-cheaper.com/not-expensive.htm.内容一般采取以下方式:内容大量重复,提高TF值;在页面加入大量与主题无关的词汇,这样搜索者输入任何词汇都有可能搜索到页面.在有效信息中隐藏词汇,比如将一篇新闻报道文章句子中插入词汇,这种情况比较难以发现.内容拼接,从不同的信息来源摘取不同的句子拼凑成正文,这样只要查询出现句子包含单词就会检索到这篇文章.
(2) Honey pot:网页作者发布有价值信息比如介绍某项技术的技术文章,但是在发布的信息里面隐含指向页面的隐藏链接,这样通过网页本身内容的价值来诱导其它网站增加指向该页面的链接从而间接增加页面的排名(比如本文标题附近的联接http://sonata.iscas.ac.cn/zhjl 以及此处的链接引用,呵呵).比如往blog站点,BBS站点,留言簿或者wiki等可以任意发言的站点增加评论.在发表的评论里面增加指向目标页面的链接,这样会间接增加目标页面的pagerank排名.根据发表评论类型可以分为以下两种:一种是直接发广告性质的与主题无关评论,这个我们经常在BBS或者留言版上看到.一种是评论与主题相关,但是在评论中隐藏无法看到的链接信息.这种情况一般比较难以发现.
(3) 组织spam farm.者建立若干网站,通过精心构建网页之间的链接关系来通过大量辅助页面提高目标页面的排名.
(4) CLOAKING.一般搜索引擎的页面抓取器会定期抓取站点页面,同时会首先访问robot.txt协定文件.者通过在robots.txt做手脚或者记住主要搜索引擎页面抓取器的IP地址来识别搜索引擎,识别之后诱导搜索引擎索引的内容和网站本身的内容不同.
(5) 购买过期域名.过期域名存在大量指向这个域名的链接信息.者通过购买过期域名来获得这些链接信息来提高排名.
(6) 将网页提交到雅虎等目录站点.熟练的者可以通过欺骗目录编辑,使得网页被目录站点收录,一般目录站点的排名很高,所以这样可以有效提高目标页面的排名.
(7) 在目标页面中增加指向重要或者著名网站的链接.这样有可能欺骗搜索引擎目标页面是高质量的索引页面.
(8) 多个域名DNS解析到同一IP地址.因为搜索引擎针对同一域名内链接做过调整,所以者申请多个不同域名但是映射到同一IP.这样来欺骗搜索引擎是不同站点的链接.
(9) 通过页面自动重定向来隐藏页面.
(10) 隐藏文字或者链接.通过设定文字或者链接的颜色为背景色来使得这些文字或者链接对于读者不可见.
(11) 交换链接.者合作交换链接来增加排名.
对于spam farm来说,者通过以下方式可以达到最优:
(1) 单个者能够产生最高pagerank值的link spam方法:一个目标网页(希望排名提升),K个辅助排名网页,K个网页都有且只有一个链接指向目标网页,同样地目标网页也有每个辅助排名网页的一个链接.可以证明这种模式是目标网页通过获得的最大PAGERANK值.同时这个结构也保证只要有一个页面被索引则整个spam farm都能够被索引.只有这样,辅助排名网页采能起作用..对于这种方式可以通过发现这种link farm模式特点的方法来识别可能的网页.
(2) 两个者协作.多个者通过互相链接增加排名.最简单的情况是两个拥有spam farm的者合作,考虑以下几种方式:
a.两人的所有辅助排名网页都同时增加指向对方的目标网页链接.此时两个者的目标网页的pagerank值相等, 假设没有建立联系前各自的值为p和q.后其值等于(p+q)/2 .显然与未交换链接时候相比,原先分值高的比较吃亏,会将一部分分值转移到对方.
b.两人的目标网页互相指向.此时情况与a相同,不过两者建立链接数目减少.减少者人工维护精力.
c.两人的目标网页互相指向,但是将每人目标网页所有指向辅助排名网页的链接去处.此时两者的pagerank分值都有所增加.
(3)对于多个者的有效合作方式: a. 多个目标网页链接形成环形. b.多个目标网页链接形成全链接. 此时对于每个者来说pagerank值都得到提高,都比未合作前的最高值高.
二. anti-spam方法
(1) 人工方式
精度高,但是人工耗费太大,所以不现实.
(2) 半人工方式
半人工方式应该是目前使用比较多的方法,专业的搜索引擎技术公司里面往往会有一批所谓的anti-spam专家来对这些技术进行研究.目前比较通用的一个半人工防治策略如下:
1. 从所有站点随机选择若干站点.比如随机选择2000个站点.(也可以有其它类似的优化策略,比如选择知名度高的网站或者YAHOO等收录的网站作为优良网站的基点)
2. 从2000个站点里面人工判断哪些是优良的网站
3. 链接分析.基本假设是优良网站指向的网站也是优良的.此时可以采取不同的策略,比如优良网站经过K个链接所指向的都认为是优良的.也可以引入衰减因素,离初始优良网站越远的网站其优良性越小.
4. 对遍历过的网站优良性能做评价.此评价作为判断是否网页的依据.
(3) 自动方式
减少人工耗费,是anti-spam研究的目标和方向,但是目前技术对于有些方式很难达到完全自动识别.目前技术主要还是半人工的方式 . 可以自动实现的方式包括:
1. 基于内容的,比如针对标题,如果发现正文内容出现标题文字比例失调,比例太高或者没有出现过,则认为可能是网页.
2. 对于页面内容难以形成主题的页面也很有可能是页面.
3. 针对链接,如果发现可能的spam farm结构或者不正常的大量网站内部相互链接,则判定可能是网站
4. .对于机器自动生成的页面进行特征分析和自动发现.比如机器生成的链接往往很长,包含很多数字和连接符号等.
5. 大量不同域名映射到同一IP地址很有可能是网站.
6 .发现网页的入度,根据分布规律,极少数的网页有非常大量的联入,所以这些大量联入页面如果不是知名网站则很可能是网站.
Web anti-spam领域还是一个比较新的研究领域,经济利益不断驱动人们通过种种”优化”策略来提高网页的排名.所以web spam和anti spam是一个不断学习不断斗争的过程.对此有兴趣的朋友可以和我联系(junlin01 AT iscas dot cn )共同学习共同提高这个方面的技术知识.
分享到:
相关推荐
2012 kdd Survey on Web Spam Detection: Principles and Algorithms
主要介绍如何判断垃圾网页,比较各种方法的优缺点
垃圾网页检测,2013年,TDR,GBR
讨论了SPAM相关内容,包括起源,现状,及各种应对法。
Applications of Web link analysis 有关web spam方面的博士论文,在此和大家一块分享,有兴趣的朋友可以一块交流。
spam系统 假设我们可以获得线上的实时请求(按时间顺序) 每个请求包含如下信息: 时间(unix时间戳) 用户名 动作(提问、回答、评论) 内容 依次考虑如何解决以下问题: 1.当发现动作频率较高的用户时,...
灰度png图像中一阶和二阶SPAM特征的提取器。请阅读相应的论文以获取详细信息。
机器学习数据,机器学习的数据源文件,sms_spam.csv,
web has grown to be a central part of cultural, educational and, most importantly, commercial life. Millions of users today are performing financial transactions on web pages, varying from buying ...
将搜索结果中的垃圾邮件报告给Google。 讓舉報垃圾內容變得輕而易舉: * 在搜索結果和網絡歷史記錄頁面添加舉報鏈接 * 盡可能的使用自動填充功能,填充舉報表格 * 從Chrome歷史中選取垃圾內容的網址 * 循環瀏...
很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队outing 的机会,在动车上看了一些相关的...最 后将讨论对PageRank的Spam攻击方法:Spam Farm以及搜索引擎对Spam Farm的防御。
关闭邮件头的 possible spam 标记,解决垃圾提示
包含了500条短信息,有spam和正常短信息。可用作机器学习的训练和测试数据集。
FINDING AND FIGHTING SEARCH ENGINE SPAM 有关web spam方面的博士论文,在此和大家一块分享,有兴趣的朋友可以一块交流。
序列模式挖掘算法SPAM的改进 序列模式 sequential pattern mining SPAM 序列模式 sequential pattern mining SPAM
Mining the Hyperlinks of the Web Graph 有关web spam 方面的博士论文,有兴趣的朋友可以一块交流。
WebSpam是散布用Python 3制作的不和谐Webhooks的工具 安装 使用程序包管理器安装所需的程序包。 pip3 install -r requirements.txt 用法 1. Make A Discord Webhook 2. Copy Webhook Link 3. Enter Webhook In ...
英文的数据集,机器学期训练数据时用。spam.csv,对垃圾邮箱进行分类,英文的数据集,机器学期训练数据时用。spam.csv,对垃圾邮箱进行分类,英文的数据集,机器学期训练数据时用。spam.csv,对垃圾邮箱进行分类
自己看了Steganalysis+by+Subtractive+Pixel+Adjacency+Matrix+之后总结的,话糙理不糙。
守内安反垃圾邮件系统,SPAM_SQR_2.6版本管理手册