美国搜索巨头谷歌公司最近开始在网页抓取蜘蛛中实施一项新技术:他们可以让蜘蛛自动填写某些网页中的表格,并且自动提交到服务器上,对反馈页面进行抓取,从而获取更多有关这个网站的详细信息。
媒体分析认为,这将对网站的信息安全构成威胁。
一般来说,表格(Form)是网站方面用来收集用户信息的一种方式。比如用户申请成为注册会员,需要提交相关的身份资料。表格将会把这些数据提交到服务器上,服务器上的网页将会给出下一步提示。
在过去,谷歌公司的蜘蛛机器人并不会填写表格,因为也无法知道下一步的提示网页内容。
最近,谷歌公司对抓取系统进行了升级。机器人将会根据表格中各个项目的名字,自动填写数据提交给服务器,这样,服务器的反馈页面也将被机器人所抓取,谷歌将会获得这个网站的更多信息。
谷歌公司在一个博客中表示,他们会对这个功能采取谨慎态度。比如最开始,一些十分有用的网站才会采用自动填表的手段。另外,网站管理员可以在robots.txt文件中,对于是否允许谷歌提交表格作出规定,谷歌不会违反网站管理员的意愿。
有搜索行业专家表示,谷歌公司的这一功能,将会对企业网站的信息安全构成威胁。
分享到:
相关推荐
该工具集成了各大常见蜘蛛UA,模拟这些蜘蛛UA访问抓取网站,目前网络上很流行蜘蛛挂马,通过该工具模拟访问可以分析网站是否被挂针对搜索引擎的挂马,可以模拟蜘蛛查看源码。 用法也很简单,打开以后输入目标地址,...
网络蜘蛛,自动抓取网上图片,数据库SQLServer,
蜘蛛,google,百度,抓取,搜索,搜索引擎。免费的,方便好用,能快速抓取页面,可以设置抓取内容,包括URL,新闻,多媒体,图片等信息
是一个开放源码网页数据抓取工具,比如网上有很多数据不想手动去记录,可以借助此工具,更改想抓取的网址及规则,获取想要的数据。
C#写的网页抓取分析程序,能自动抓取网页,并解析除指定的文字信息。
PHP模拟baidu蜘蛛抓取网站链接,执行后自动创建一个TXT文本保存抓取的链接。
WSpider, 抓取网页数据的蜘蛛项目 简介SinaWSpider:Mini爬虫爬取新浪数据,详细步骤参见新浪微博数据爬取Part 3:小爬虫的诞生SinaLogin:模拟登录新浪微博,详细步骤参见模拟新浪微博登录-原理分析到实现
js跳转不影响蜘蛛抓取,js跳转的影响很大的所以要加代码
4、采用缓存技术对添加的蜘蛛进行缓存,以达到更快的速度。 5、插件可以自由添加修改和删除各大搜索蜘蛛。 6、可查看蜘蛛爬行的详细信息(最后来访时间,ip地址,被访地址) 7、支持PHP5.3、5.4、5.5、5.6及PHP7.0...
百度批量提交工具可以增加蜘蛛爬行内置了代理验证功能,更适合长期使用。
追虹网络蜘蛛 是制作强大搜索引擎的必备工具之一。追虹网络蜘蛛性能是百度网络蜘蛛性能的10倍,最快速度可以达到抓取网页100个网页/S。
精华志 蜘蛛爬虫,递归抓取页面的URL 抓取页面URL 京华志&精华志出品 分享资源 C# ASP.NET SQL DBA 源码
新闻抓取蜘蛛2016.大数据维基网——大数据工作学习第一站,最全的大数据资源导航网站。聚合互联网、股市、娱乐、社交、电商、APP、生活等各类大数据场景需求,火车头、八爪鱼、集搜客等各大采集工具,hadoop、分布式...
一款非常好用的google模拟抓取工具 他能帮助你更好的了解google蜘蛛
使用Java实现的蜘蛛程序,一个网页页面分析器,用于抓取网页的内容,建立为树形层次结构。
利用自动提交,让度娘时刻关注你的网站最新变化,当你网站有更新操作之后,提交一次给度娘!
刨丁解羊中文分词器,主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词,支持繁体中文分词、简体中文分词、英文分词,是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示:TXT格式正文分词...
一个使用c#开发的比较好用的网络蜘蛛源程序。