footprint之极限搜刮

3
0



首先普及下搜刮的原理,搜刮是凭借调用大量代理频繁获取footprint在谷歌内搜索结果的过程。由于单次搜索谷歌最多只显示1000条记录,所以footprint在搜刮过程中需要各种关键字配合。搜刮包含三个要素:代理、footprint以及关键字。网上有很多采集免费代理的方法,一般都是扫描端口或者直接获取别人发布的匿名代理,再通过代理猎手验证结果;当然你也可以在淘宝找到很多廉价的代理。通过这些方法采集到的代理,一开始搜刮的速度会很顺畅,但时间一长就直线下滑,其原因是匿名代理的存活时间是不确定的。比如你通过各种方法获得1000条匿名代理,一小时后可能仅剩下100条有效代理,而在搜索过程中会有大量时间耗费在调用失效的900条无效代理。所以建议搜刮调用的代理是自动更新并验证其有效性的。这里推荐集特思的GScraper无限代理搜刮,我们的代理扫描服务器群(超过30台)使用自主开发的高效代理扫描软件7×24小时去搜刮世界各地匿名代理,同时每条代理在分配给客户前一秒才刚刚验证,保证代理有效性和速度。当然如果你有技术实力也可以自行采集代理,GScraper支持自动重新导入本地代理,你可以自己编写相关代理验证软件配合,这样也能达到一样的效果。
好吧,磨叽了这么多,上面算是软公告,接下来才是重点。再次强调footprint并非很多新手想的那么神秘和困难,不过就是页面上的痕迹罢了。
一般群发的资源支持两种类型,HTML、UBB代码或者纯URL链接(自动判断网址并添加链接),对应的是A标签(<a href=http://best.gs>Best GScraper</a>)以及U标签([url= http://best.gs]Best GScraper[/url])。A标签比较主流,U标签一般出现在论坛。当然这只是常规情况不是百分百,网站支持何种类型的链接必须提交过后看内容显示才能确定。AD:GScraper群发可以智能判断页面支持类型。很多人为了百分百在页面留下链接,都会同时添加两种标签;或者因为群发中并未选择对应的标签,如在支持HTML的页面留下U标签或者在支持UBB代码的页面留下A标签。种种情况导致页面出现“牛皮藓”,这正是我们利用的重点。

很简单我们的footprint可以直接用”[url=http://*.com]*[/url]”或者”<a href=http://*.com>*</a>”。下面我们就以U标签作footprint为例来讲解如何极限搜刮,尽可能获得更多的结果。
首先可以很清楚看到上面的footprint指定了.com的域名,其实全球的域名有多种,我们全部丢进去。这里只列举几种常见域名后缀:

  • “[url=http://*.com]*[/url]”
  • “[url=http://*.net]*[/url]”
  • “[url=http://*.org]*[/url]”
  • “[url=http://*.co.uk]*[/url]”

同上所述同样我们可以对搜索结果的域名进行筛选:

  • “[url=http://*.com]*[/url]” site:com
  • “[url=http://*.com]*[/url]” site:net
  • “[url=http://*.com]*[/url]” site:org
  • “[url=http://*.com]*[/url]” site:edu
  • “[url=http://*.com]*[/url]” site:gov

上面仅以.com为例,换成其他域名后缀则又是全新的若干条footprint。此外我们还可以指定页面对应语言的格式:

  • “[url=http://*.com/]*[/url]” inurl:html
  • “[url=http://*.com/]*[/url]” inurl:php

你还可以定义特征URL,如inurl:trackback,大家自行发挥吧。

通过这样的方法,你可以实现极限搜刮,尽可能多的获取某footprint在谷歌内的结果。最后再给一句话干货:通过指定谷歌索引日期,你也能获取更多资源哦!

说点什么吧?