1995年,正是互联网方兴未艾之时,雅虎横空出世,雅虎以提供互联网各种信息目录起家,迅速崛起成为世界互联网巨头,整个互联网行业也迎来了门户网站时代。彼时的第一批互联网居民,要想在互联网上获取信息,就需要登录雅虎等门户网站,一页页地翻找目录。即使这样,也极大地方便了大家获取信息。
然而,随着互联网信息爆炸式增长,门户网站的这种收录目录的形式根本不能适应日渐暴涨的互联网内容。于是,以谷歌为代表的搜索引擎公司,一方面通过爬虫实时抓取互联网信息,一方面通过智能搜索算法,根据用户搜索关键词,匹配最合适的网页,谷歌也借此超越各大门户网站,跻身成新的互联网巨头。
在机器学习和人工智能的学习过程中,数据集是横亘在初学者之间的一座大桥,我在:
机器学习需要的大量数据集从哪里找?
机器学习超详细实践攻略(1):盘点scikit-learn里那些有趣又有用的彩蛋级入门数据集
两篇文章中已经介绍了一些初学者寻找数据集的网站和思路。但是,这些方法寻找数据集的时候需要登录不同的网站,然后在里边翻找自己可能用到的数据集。可以说,在寻找数据集方面,包括我写的所有知乎答案在内,仍然停留在“门户网站”的1.0时代。
其实,数据集本质上也是一种信息,如果需要从网上找到某个知识,或者某一张图片,只需要搜索引擎输入关键字就可以了。那是否可以输入一个关键字,就可以找到这个领域的所有数据集呢?
如今,经过一年的测试,谷歌正式推出了一款名为“Google Dataset Search”的数据集专用搜索引擎,目前已经涵盖了2500万个数据集,以后需要数据集,只需要从这个统一入口寻找就可以了,彻底让寻找数据集进入“搜索时代”。网站界面如下所示:
目前,搜索引擎收录的数据集涵盖了地球科学、生物学和农业等各种领域。包含了世界上大多数政府、科研机构、大学等机构发布的数据集,而且数据集的数量继续增加。并且支持普通人按照schema.org的开放标准添加和上传数据集。
利用这个数据集搜索工具,我们可以通过简单的关键字来查找全网中的数据集。对初学者来说,可以更方便地寻找自己感兴趣的数据集,对于整个人工智能行业来说,一方面形成一个数据共享生态系统,鼓励数据发布者按照规定格式存储和发布数据;另一方面也为数据科学家提供相应平台,方便大家引用他们创建的数据集,以使他们的研究成果获得更大的影响力。
一、使用方法
1、搜索方法
进入““Google Dataset Search”网站(网站地址:Dataset Search),这里,我们搜索一下经典的“泰坎尼克号”数据集,可以看到,左侧列出了很多数据集来源。点击排在第一位的kaggle源,还可以查看该数据集的作者、支持下载的格式、数据集的说明、数据集大小等信息。
再搜索一个鸢尾花数据集看看结果:
2、筛选搜索结果
对于搜索结果,还可以根据更新日期、下载格式、使用权限、是否免费四个条件进行筛选。进一步定位我们需要的数据集。
从以上搜索流程中可以看到,数据集的搜索和我们平常的搜索习惯和方式并没有什么不同。
3、其他应用
发布数据集的网站,很多都是诸如kaggle这样的竞赛网站,还是以泰坦尼克号数据集为例,点击这个数据集,直接跳转到了kaggle的主页,下载数据集的时候,还可以顺便研究一下其他人的实现代码。
也就是说,通过这个搜索引擎,不仅可以找到数据集,还可以找到对应的数据比赛以及一些选手的思路,即找问题,又能顺便找到答案。
二、不足
对于国内使用者来说,目前有两点不足,一是对中文支持不是很友好。比如,搜索鸢尾花数据集的时候,如果输入中文,则提示:找不到匹配的数据集。
二是需要一些上网技巧才能访问这个网站。
现在摆在我们面前的障碍,只有需要一些上网技巧和语言限制了。
写在最后
以搜索起家的谷歌,近年来在人工智能方面也是硕果累累,Tensorflow深度学习框架、Colab免费云计算实验室、各种顶会里的论文以及前几年流行一时的“你画我猜”等人工智能小程序,皆出自谷歌之手。甚至开发了Alphago,带动人工智能领域大火的 DeepMind公司,也被谷歌收入麾下。
在学习人工智能知识方面,数据集搜索绝对是刚需,搜索引擎出身的谷歌,也必然有实力让搜索数据集和搜索普通知识一样简单。
随口吐槽一句:寄希望于在国内自顾不暇的百度来跟随谷歌建设国内自己的数据集搜索系统,怕是遥遥无期了。
##############################################################
如果觉得有用,点赞、关注再走呗~