`
阿尔萨斯
  • 浏览: 4173797 次
社区版块
存档分类
最新评论

Google即将开始深度Web索引

 
阅读更多

<nobr>Google</nobr> 从来都不会停止对信息的追求,去年共有100 Exabyte 的<nobr>数据</nobr>被 Google 消化(1Exabyte=1000000000Gigabyte)。据估计,仍有大量的在线数据是 Google 所无法获取的,如那些未被索引的网页,非文本内容,以及需要通过表单<nobr>发布</nobr>方可获取的动态内容,即所谓的深度Web。Google 近日在一篇博客文章中宣布,他们即将涉足这些深度Web数据。


在这篇博客文章中,Google 的 Jayant Madhavan 与 Alon Halevy 说,对于那些文本框,我们会从所在页选择一些词汇填写,对于选择框与复选框,我们会从 HTML 中选择一些值,一旦填写好表单,我们会尝试发布这个表单并对返回的合法,有意义的内容进行索引。

Google 同时强调,他们会一如既往地尊重 robots.txt 协议,任何在 robots.txt 被禁止的表单都不会被索引。

据估计,深度 Web 的规模是常规的公开 Web 的数倍,尽管在<nobr>网络</nobr>中,有很多数据是 Google 不应涉足的,但表单可以让 Google 在网络中更进一步,Matt Cutts 指出,我们这样做主要不是为了那些通过表单发布而返回的搜索结果,更多是为了发现一些通过常规手段所没能发现的新链接。

需要指出的是,Google 只索引那些使用 GET 协议的表单,而不会尝试去发布那些使用 POST 协议的表单,所以,你不必担心自己的在线反馈表单收到一堆来自 Google 的垃圾信息。

分享到:
评论

相关推荐

    Google资深工程师深度讲解Go语言 爬虫项目。.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    微软和谷歌的自动化测试,web网站爬虫.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    谷歌专利爬虫.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    谷歌学术爬虫,根据搜索词汇总信息表格并保存.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    接入google search以及爬虫的chatgpt聊天机器人.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    bing、google、baidu搜索引擎爬虫。python3.6 and scrapy.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    谷歌无头浏览器puppeteer结合nodeJs+golang书写的行为类爬虫项目。附带示例.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    网络爬虫调研报告.doc

    深度优先是指网络爬虫会从起始页开始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬行 器采用宽度优先搜索策略...

    网络爬虫调研报告(1).doc

    深度优先是指网络爬虫会从起始页开始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬行 器采用宽度优先搜索策略...

    网络爬虫调研报告(2).doc

    深度优先是指网络爬虫会从起始页开始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬 行器采用宽度优先搜索...

    基于词频密度过滤、利用百度、谷歌、搜搜、360搜索4个引擎为种子来源的多线程爬虫,结果存入mysql。.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    互联网在线翻译引擎爬虫集合.zip

    包含谷歌翻译、百度翻译、有道翻译、必应翻译等引擎 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具...

    asp.net知识库

    深度解析Asp.Net2.0中的Callback机制 使用 Web 标准生成 ASP.NET 2.0 Web 站点 ASP.NET 2.0基于SQLSERVER 2005的aspnetdb.mdf部署 ASP.NET 2.0 Security FAQs Asp.net 2.0功能体验,细节之Web控件(一) 隐藏控件 ...

    C++网络爬虫项目

    Google等商业搜索 引擎提供商,为此开发了一整套云存储与云计算平台,使用数以万计的普通PCWEBCRAWLER 网络爬虫实训项目 4 搭建了海量信息的可靠存储与计算架构,以此作为搜索引擎及其相关应用的基 础支撑。优秀的...

    精通AngularJS part1

    编辑推荐 《精通AngularJS》指出AngularJS诞生于Google,已用于开发多款Google产品。它是一套JavaScript前端框架,用于开发当下流行的数据驱动的单页面Web应用。其核心特性是:MVC、模块化、自动双向数据绑定...索引337

Global site tag (gtag.js) - Google Analytics