footprint之极限搜刮

首先普及下搜刮的原理,搜刮是凭借调用大量代理频繁获取footprint在谷歌内搜索结果的过程。由于单次搜索谷歌最多只显示1000条记录,所以footprint在搜刮过程中需要各种关键字配合。搜刮包含三个要素:代理、footprint以及关键字。网上有很多采集免费代理的方法,一般都是扫描端口或者直接获取别人发布的匿名代理,再通过代理猎手验证结果;当然你也可以在淘宝找到很多廉价的代理。通过这些方法采集到的代理,一开始搜刮的速度会很顺畅,但时间一长就直线下滑,其原因是匿名代理的存活时间是不确定的。比如你通过各种方法获得1000条匿名代理,一小时后可能仅剩下100条有效代理,而在搜索过程中会有大量时间耗费在调用失效的900条无效代理。所以建议搜刮调用的代理是自动更新并验证其有效性的。这里推荐集特思的GScraper无限代理搜刮,我们的代理扫描服务器群(超过30台)使用自主开发的高效代理扫描软件7×24小时去搜刮世界各地匿名代理,同时每条代理在分配给客户前一秒才刚刚验证,保证代理有效性和速度。当然如果你有技术实力也可以自行采集代理,GScraper支持自动重新导入本地代理,你可以自己编写相关代理验证软件配合,这样也能达到一样的效果。
好吧,磨叽了这么多,上面算是软公告,接下来才是重点。再次强调footprint并非很多新手想的那么神秘和困难,不过就是页面上的痕迹罢了。
一般群发的资源支持两种类型,HTML、UBB代码或者纯URL链接(自动判断网址并添加链接),对应的是A标签(<a href=http://best.gs>Best GScraper</a>)以及U标签([url= http://best.gs]Best GScraper[/url])。A标签比较主流,U标签一般出现在论坛。当然这只是常规情况不是百分百,网站支持何种类型的链接必须提交过后看内容显示才能确定。AD:GScraper群发可以智能判断页面支持类型。很多人为了百分百在页面留下链接,都会同时添加两种标签;或者因为群发中并未选择对应的标签,如在支持HTML的页面留下U标签或者在支持UBB代码的页面留下A标签。种种情况导致页面出现“牛皮藓”,这正是我们利用的重点。

很简单我们的footprint可以直接用”[url=http://*.com]*[/url]”或者”<a href=http://*.com>*</a>”。下面我们就以U标签作footprint为例来讲解如何极限搜刮,尽可能获得更多的结果。
首先可以很清楚看到上面的footprint指定了.com的域名,其实全球的域名有多种,我们全部丢进去。这里只列举几种常见域名后缀:

  • “[url=http://*.com]*[/url]”
  • “[url=http://*.net]*[/url]”
  • “[url=http://*.org]*[/url]”
  • “[url=http://*.co.uk]*[/url]”

同上所述同样我们可以对搜索结果的域名进行筛选:

  • “[url=http://*.com]*[/url]” site:com
  • “[url=http://*.com]*[/url]” site:net
  • “[url=http://*.com]*[/url]” site:org
  • “[url=http://*.com]*[/url]” site:edu
  • “[url=http://*.com]*[/url]” site:gov

上面仅以.com为例,换成其他域名后缀则又是全新的若干条footprint。此外我们还可以指定页面对应语言的格式:

  • “[url=http://*.com/]*[/url]” inurl:html
  • “[url=http://*.com/]*[/url]” inurl:php

你还可以定义特征URL,如inurl:trackback,大家自行发挥吧。

通过这样的方法,你可以实现极限搜刮,尽可能多的获取某footprint在谷歌内的结果。最后再给一句话干货:通过指定谷歌索引日期,你也能获取更多资源哦!

footprint另类总结思路

很多新手为footprint困扰,其实总结footprint并不难,本文列举两种比较另类的思路,帮助你轻松总结footprint获得自己的专属资源。
之前在《如何有效获取优质GScraper AA》有提到“评论页面一般包含三个部分,文章内容、评论内容和评论表单”,我们知道在评论内容区域会显示之前的评论,一般包括用户名、邮箱、网址、时间、IP和评论内容。用户名和邮箱一般都是随机的,而网址是多种多样的,所以不能作为footprint。而剩下的IP和评论内容是我们总结的重点。先说说评论内容,群发一般都是用“nice post”之类比较通用的评论格式,不涉及文章内容适用于各个页面。也正因为如此会在多个网站上留下痕迹,所以我们可以直接以这类常见评论为footprint挖出很多前人成功留下链接的网页。推荐使用GScraper的从链接列表中获取评论内容功能来采集通用评论,然后再检测下谷歌收录数,删少留多直接搜刮即可获得各类资源。

下面主要来讲IP。
评论页面显示的都是提交客户端的IP,按理说这块数据也是多种多样的,我们如何获得来源呢?首先需要了解的是国外很多国家(尤其美国)已经明令禁止SPAM,所以如果你的IP频繁在各大网站上制造垃圾链接,则可能进入黑名单;如果被SBL投诉,甚至可能导致IP失效。AD:集特思提供抗投诉的美国群发服务器,支持各类SEO群发软件。
评论页面内的IP极可能因为SPAM而被投诉并被列入黑名单,而stopforumspam是国际比较权威的防SPAM服务商。全球多个网站调用了该站的API,当某个IP同一时间内频繁在多个网站制造无效链接,则可能进入他们的黑名单数据。stopforumspam是SPAM的噩梦,是SEO群发的敌人,但通过另类思路,我们可以利用他来挖掘footprint。
stopforumspam网站首页里会显示最新的被投诉的IP列表,见下图。
stopforumspam
我们任意选择一条IP丢到谷歌搜索,结果中会包含很多涉及IP相关的网页(见下图)。这些页面都是无效的,根本不能留下链接,需要过滤。
badresult
我们可以用GScraper对链接进行处理,经过总结,可以删除链接中包含以下记录的记录(主流过滤,自己可以自行总结):

  • spam
  •  black
  • proxy
  •  ip
  • domain

过滤完剩下的结果都是有效的,大部分可以通过群发软件留下链接。见下图的结果大部分都是评论资源,很多资源可以通过GScraper留下链接:
goodresult
注意:因为通过黑名单IP作为footprint搜刮到的资源并未指定类型,建议用GScraper归类功能对结果进行整理,这样可以获得GScraper AA,trackback,XRumer,虫虫软件以及GSA的群发类型,丢到对应软件群发即可。

写完了,任何疑问请留言。

 

如何有效获取优质GScraper AA

自谷歌蜂鸟算法更新后,可以明显感觉到二级页面权重得到提升。以louis vuitton bags为例,首页十个席位光是二级页面就占据八个。虽然谷歌对外声称蜂鸟算法主要提升理解查询词背后的实际意义,但很多大词的谷歌首页被多个二级页面占据,其更新本质不言而喻。
再从快速刷站来看,从注册新域名到抢注老域名,从第三方博客再到黑站创建目录,二级页面的权重正在逐渐与首页拉近。可以说谷歌已经不再偏爱首页。
既然谷歌“敢”把页面的权重提升,那他们对页面的判断算法较前必须更智能。抛开站内暂且不谈,我们单从外链质量入手。本文主要探讨如何快速有效的获取优质资源,以GScraper为例,仅需三步则可获得几千不等的优质GScraper AA

第一步:搜刮。

搜刮的前提是footprint。因为GScraper群发并非指定程序类型,而是针对所有的匿名回复,所以对footprint的要求相对比较宽松。我们可以直接总结评论页面的常见文字作为footprint。
评论页面一般包含三个部分,文章内容、评论内容和评论表单。文章内容的文字多种多样,可以跳过。
评论内容的文字一般包含姓名、时间和内容,如:集特思 在 2014年3月18日 说:写的不错!
由此我们可以总结出以下几种:

  • “comment added on”
  • “comment by “
  • “posted at * on * by”

而评论表单就更简单了,无非就是留言,评论之类。我们翻译成英文,随意列举可以得出以下几种:

  • “add a comment”
  • “post a comment”
  • “private comment”
  • “add a reply”
  • “leave a reply”
  • “add review”
  • “your comment”

这样我们很轻易就得到的十条footprint,接下来可以直接放到GScraper里搜刮,推荐的设置:
单词搜索最大结果写500,谷歌每页最大结果写100,语言设置为ALL。

Scraper

通过以上方法搜刮来的数据都是谷歌最新收录的,评论较少,甚至有仍未被评论过的资源。接下来数据处理是关键。

第二步:过滤以及群发。

  1. 过滤重复的链接L。(这个不解释了)
  2. 移除只有域名的链接。(大部分网站首页是不能直接评论的)
  3. 移除域名是IP的链接。(纯IP的网址基本没权重)
  4. 相同域名最多保留5条。(一般来说超过5条不能评论成功那该站也可以放弃了,这样设置可以极大节省测试群发时间)
  5. 过滤特征域名。(比如google这类很难找到匿名回复的站可以直接过滤,这块LIST需要自己积累)

完成以上过滤,选中相应的网站和内容就可以跑了。注意群发时候要选中“检测已经展示您网站的链接”,这样才能获得AA。

如果资源充裕可以考虑选中“跳过链接当出站链接数≥30”,数字自己设置吧,OBL越少,质量越好。

第三步:扩展。

测试完群发后导入AA资源,检测链接对应域名的PR值(注意是域名而不是顶级域名更不是链接),只保留PR值≥1进行扩展。

当然你还可以对语言进行检测,只保留你要优化语种对应的资源进行扩展。最后群发扩展到的资源,获得的GScraper AA都是很优质的外链了。

现在谷歌越来越重视外链的质量,各位看官可以测试下这类资源,效果还是不错的。

如果没有时间的看官也可以考虑集特思的优质外链包月服务,每月至少发送15万的优质GScraper AA。