剑桥CS博士推荐,毕业前要掌握的 9 个工具

无论你在创业还是在做学术研究,这些工具都将使你的技能更上一层楼。

学术界在推进技术方面发挥了巨大作用,但学术界和工业界往往存在一种分割状态。我们经常会看到这种现象:无数很棒的辅助工具在学术界被忽视,但在工业界很受欢迎。对于很多研究者来说,学习一种新工具可能存在困难,不愿意花费过多的时间去尝试,在当前自己掌握的工具足以应对各种问题时尤其如此。

其实,有些工具一时未见到效果,在后期可能会有十倍的回报。

来自剑桥大学的计算机科学博士生 Aliaksei Mikhailiuk 为我们整理了机器学习博士在获得学位之前需要掌握的九种工具。他在剑桥大学获得物理学硕士学位,在布里斯托大学获得工程学士学位。他对研究、开发、部署感兴趣,还能熟练掌握计算机视觉算法、聚合和自然语言处理等技术。现任职华为(英国)高级人工智能工程师。

图片

个人主页:https://www.linkedin.com/in/aliakseimikhailiuk/

Mikhailiuk 将这些工具按用途分为四类:可隔离环境、实验跟踪、相互协作以及可视化

可隔离环境工具

机器学习是一个快速发展的领域,常用的包更新非常频繁。尽管开发人员做出了努力,但较新的版本通常与旧版本不兼容,这样给研究者带来很多麻烦。幸运的是,有工具可以解决这个问题!在这一方面,Mikhailiuk 推荐了两个工具:Docker 和 Conda。

Docker

Mikhailiuk 攻读博士学位期间,他有一台由大学管理的机器,学校会定期进行更新。通常情况下是一夜之间更新,没有任何通知。你可以想象,当更新后的第二天早上发现自己大部分工作与最新的驱动程序不兼容,是多么令人崩溃。Mikhailiuk 发现 Docker 可以很好地解决。

图片

Docker 允许将软件包装在称为容器的包中。容器是具有自己的软件、库和配置文件的独立单元。在一个简化的视图中,容器是一个独立的虚拟操作系统,它具有与外部世界通信的手段。Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 或 Windows 操作系统的机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。

一个完整的 Docker 由以下几个部分组成:

  • DockerClient 客户端

  • Docker Daemon 守护进程

  • Docker Image 镜像

  • DockerContainer 容器

Docker 教程:https://aws.amazon.com/cn/blogs/opensource/why-use-docker-containers-for-machine-learning-development/

Conda

现在,复用别人的代码成为了一种新的规范。GitHub 作为一个代码托管云服务网站,帮助开发者存储和管理其项目源代码,且能够追踪、记录并控制用户对其代码的修改。研究者可以克隆上面的代码,安装并提出自己的解决方案,而不需要自己写任何东西。

但是 GitHub 也有不方便的情况,当多个项目一起使用时,你会遇到包管理问题,因为不同的项目需要不同版本的包。

Conda 可以解决这个问题 。Conda 是一个开源跨平台语言无关的包管理与环境管理系统,它允许创建多个环境并快速安装、运行和更新包及其依赖项,用户可以在隔离的环境之间快速切换。

图片

Conda 教程:https://conda.io/projects/conda/en/latest/user-guide/getting-started.html#starting-conda

运行、跟踪和记录实验工具

在应用领域想要获得博士学位,严谨性和一致性是两个基本支柱。假如你是研究机器学习模型的,或多或少都能遇到这种情况——你创建了许多不同的模型来试验不同的参数甚至整个架构。你还想尝试优化器的选择、学习率、时期数等。因此,实际上,你将进行许多不同的实验,并且将越来越难以整理结果。在这一方面,Aliaksei Mikhailiuk 向我们展示了如何正确方便地管理和记录自己的 ML 和 DL 实验工具,主要推荐了 Weights & Biases,MLFlow,Screen 工具。

Weights & Biases

图片

wandb panel 一组简单指标 Snapshot——训练损失、学习率和平均验证损失。请注意,你还可以跟踪系统参数。

W&B(Weights & Biases) 是一个平台,可以帮助数据科学家跟踪他们的模型、数据集、系统信息等。只需几行代码,用户就可以开始跟踪有关这些功能的所有内容。它免费供个人使用,团队使用通常需要付费,但用于学术目的的团队是免费的。你可以将 W&B 与自己喜欢的框架一起使用,例如 TensorFlow、Keras、PyTorch、SKlearn、fastai 等。

W&B 提供了以下 4 个有用的工具:

  • Dashboard:实验跟踪;

  • Artifacts:数据集版本控制、模型版本控制;

  • Sweeps:超参数优化;

  • Reports 保存和共享可重现的结果。

W&B 教程:https://docs.wandb.ai/quickstart

MLFlow

MLFlow 是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的新平台,它是一款管理机器学习工作流程的工具,主要有三个功能模块:Tracking 跟踪和记录、Project 项目管理和 Models 模型管理。MLflow 支持 Java、Python、R 和 REST API 等。

图片

MLFlow 具有以下主要组件:

  • 跟踪:用于跟踪试验,以记录和比较参数与结果;

  • 模型:用于通过各种 ML 库管理模型,并将其部署到各种模型服务和推理平台;

  • 项目:用于将 ML 代码打包成可重用、可再现的格式,以便与其他数据科学家共享或转移到生产环境;

  • 模型注册表:使你可以将模型存储集中化,以便使用版本控制和批注功能来管理模型的完整生命周期阶段转换;

  • 模型服务:可用于将 MLflow 模型以 REST 终结点的形式托管。

MLFlow 教程:https://www.mlflow.org/docs/latest/tutorials-and-examples/tutorial.html

Screen

对于每个研究者来说,让实验通宵运行而且机器不会进入休眠状态再好不过了。当进行远程工作时,很多人都会担心 ssh 会话中断——代码运行几个小时就停止了。

screen 命令允许用户在一个窗口内使用多个终端会话,可以断开连接,也可以重新连接已断开连接的会话。每个会话都可以恢复连接,这样就算会话断开了,用户也不必担心数据丢失。

Screen 教程:https://www.geeksforgeeks.org/screen-command-in-linux-with-examples/

协作工具

学术界缺乏有效的团队管理机制,在某种程度上这是由于学术界会严格划分个人贡献造成的。然而,机器学习的发展速度需要大家共同努力。Mikhailiuk 推荐了两个非常基本的工具:GitHub 以及 Lucidchart,它们对于有效的沟通非常方便,尤其是在远程工作上。

GitHub

GitHub 是通过 Git 进行版本控制的软件源代码托管服务平台,同时提供付费账户和免费账户,这两种账户都可以创建公开或私有的代码仓库,但付费用户支持更多功能。除了允许个人和组织创建和访问保管中的代码以外,它也提供了一些方便社会化共同软件开发的功能,包括允许用户追踪其他用户、组织、软件库的动态,对软件代码的改动和 bug 提出评论等。GitHub 也提供图表功能,用于概观显示开发者们怎样在代码库上工作以及软件的开发活跃程度。

图片

就在近日,GitHub 正式发布了 2021 年度报告。过去一年里,有 1600 万开发者加入了 GitHub,目前平台的开发者数量已经达到了 7300 万;过去一年里,他们在 GitHub 上创建了 6100 万个存储库。世界财富 100 强企业中的 84% 都在使用 GitHub。

GitHub 教程:https://docs.github.com/en/get-started/quickstart/hello-world

Lucidchart

Lucidchart 是一款免费的可以支持离线操作的谷歌浏览器图表插件,可以帮助用户绘制包括流程图、实体模型、UML、思维导图等多种图表的绘制工作。它提供了很多免费绘图模板,大大地加快了用户的绘图速度。该应用的一大优势是,它基于 HTML5,因此用户不需要下载本地应用程序,就可以在电脑、iPad 等设备上使用该应用。它的另一主要优势是共享的协作空间和在图表旁边做笔记的能力。

图片

Lucidchart 教程:https://www.lucidchart.com/pages/tour

可视化工具

提交论文时,研究人员经常会遇到拒稿的情况,这让 Mikhailiuk 意识到可视化功能和结果一样重要。如果审稿人没有太多时间,或者对论文涉及的领域不熟悉,通常来说论文会被拒掉,其中一部分原因可能是论文中的视图给人印象不深刻。因此,Mikhailiuk 推荐了 Inkscape 和 Streamlit 这两个工具。

Inkscape

Inkscape 是一个开源的矢量图编辑工具,使用可伸缩向量图形 (SVG),以及基于 W3C 标准的 open XML 格式作为其默认文件格式。设计过程可能从一张涂鸦、一幅素描或者软件中模型设计开始,这些可能不足以完成一整个项目。Inkscape 可以帮助你将以上不成熟的素材转变为专业的设计,用于广告发布、模型制作等用途。Inkscape 还能提供 TexText 扩展,使用此软件包,你可以将 latex 公式无缝集成到图像中。

图片

Inkscape 推荐教程:https://inkscape.org/learn/tutorials/

Streamlit

Streamlit 和常规 Web 框架不同之处在于,它不需要你去编写任何客户端代码(HTML/CSS/JS),只需要编写普通的 Python 模块,就可以在很短的时间内创建美观并具备高度交互性的界面,从而快速生成数据分析或者机器学习的结果;另一方面,和那些只能通过拖拽生成的工具也不同的是,你仍然具有对代码的完整控制权。

图片

教程地址:https://builtin.com/machine-learning/streamlit-tutorial

以上就是 Mikhailiuk 在获得机器学习博士学位之前需要掌握的九个工具,你不妨也学习一下,相信这些工具在你之后的学习、工作中,会起到事半功倍的效果。

原文链接:https://towardsdatascience.com/nine-tools-i-wish-i-mastered-before-my-phd-in-machine-learning-708c6dcb2fb0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57636.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科研工作专用ChatGPT

最近,一位开发者在 GitHub 上开源了一个「科研工作专用 ChatGPT」项目,让众多科研工作者大受好评。这个项目能够一键完成论文润色、语法检查、中英互译、代码解释等任务,非常方便实用。 自从 ChatGPT 诞生以来,越来越多的科研工作…

微软数据科学家助理(Data Scientist Associate)认证考试通过经验分享(DP-100)

今天冒着大疫情,去海淀的test center参加考试,通过了微软DP-100 在 Azure 上设计和实现数据科学解决方案,并且获得了经 Microsoft 认证:Azure 数据科学家助理 的证书。 经 Microsoft 认证:Azure 数据科学家助理 考试结…

新加坡管理大学何盛烽团队招收计算机视觉方向公派/访问博士生

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>CV微信技术交流群 新加坡管理大学 新加坡管理大学(Singapore Management University),简称新大 (SMU),…

美国CS PhD Research Scientist找工作经验总结

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 作者:刘壮 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu.com/p/537028803 过去小半年的时间主要就在找工作和决定去…

美国佐治亚大学卢国玉老师组招收计算机视觉方向全奖博士生

佐治亚大学 University of Georgia在2022 USNews美国大学排名排48名,全美最佳公立大学排第15,是公立常青藤大学之一。学校坐落在距离亚特兰大一小时车程的Athens,气候宜人,非常安全。亚特兰大机场是美国最大的机场,交通…

新加坡国立大学Robby T. Tan教授招收计算机视觉方向博士生

来源:AI求职 新加坡国立大学 新加坡国立大学(National University of Singapore),简称国大(NUS),是亚洲顶尖、国际知名的研究型大学(2022 年,泰晤士高等教育世界大学排名为世界第 21…

计算机名校远程在职硕士信息汇总Online Master

许多在职的程序员一方面希望拿一个名校学历,一方面觉得辞去工作去读书成本太高,此时他们会选择去读一个在线硕士online master。本文梳理了英美名校提供的在线硕士项目,比如加州大学伯克利,帝国理工,佐治亚理工&#x…

CVPR 2023最佳论文候选出炉!武大、港中文、商汤等国内机构多篇入选

©作者 | 编辑部 来源 | 新智元 刚刚,CVPR 2023放榜12篇获奖论文候选,武大、港中文、港科大、上海人工智能实验室、商汤、华为等国内机构赫然在列。 今天,官方公布了12篇获奖论文候选。(占接受论文的0.51%,占提交论…

722上海隐语开源一周年Meetup!

凭借大数据、大算力的「大力出奇迹」,各类大模型「智能涌现」,再一次诠释了「数据是新时代的石油」。然而随着 ChatGPT 等各类大模型的应用,暴露出的隐私安全与数据要素流通问题引发广泛关注。数据流通与隐私安全的关键技术路径 —— 隐私计算…

开源不是商业模式

前几天,一篇名为《开源商业模式是个伪命题》的文章横空出世,看似犀利的观点却没有引起激烈的反驳。无论是开发专有软件的企业,还是重度投入到开源软件开发的企业,都认同开源本身并不是企业作为软件及服务提供商的商业模式。 行业当…

2023年十大新兴技术发布

在夏季达沃斯论坛(世界经济论坛第十四届新领军者年会)上,《2023年十大新兴技术报告》正式公布。 据介绍,《2023年前沿技术十大报告》旨在帮助各行业的专业人士预测可能出现指数级发展的技术,解读其影响、推动塑造产业和…

巴比特 | 元宇宙每日必读:美媒称,微软已解散仅成立四个月的工业元宇宙团队,约 100 名员工被解雇...

摘要:据美国科技媒体 The Information 2 月 9 日报道,一位直接了解此事的人士透露,微软仅成立四个月的工业元宇宙团队已经宣告解散,该团队的约 100 名员工已全部被解雇。微软在去年 10 月成立了工业元宇宙核心团队,从事…

精彩回顾 | Dev.Together 2022 开发者生态峰会圆满落幕

3 月 25 日,由SegmentFault 思否和开源社联合主办的 Dev.Together 2022 开发者生态峰会圆满落幕。来自国际科技巨头、云计算领军企业、高成长企业、开源基金会、技术社区的 44 位专家讲师,围绕开发者业务价值、开发者社区运营与增长、技术活动与技术布道…

被比尔盖茨选中的GPT技术,是如何演进,又革谁的命?

作者 | 智商掉了一地、Python 如果机器能够以类似于人类的方式进行理解和沟通,那会是怎样的情况?这一直是学界中备受关注的话题,而由于近些年来在自然语言处理的一系列突破,我们可能比以往任何时候都更接近实现这个目标。在这个突…

【汇正财经】大盘震荡收涨

盘面回顾: 今日沪指早上高开回落,午后再次向上翻红,深成指、创业板指盘中曾跌幅近1%,之后也有向上收窄跌幅动作,截止收盘沪指涨0.28%,深成指跌0.15%,创业板指跌0.31%。今日主力资金净流入氯碱工…

房屋建筑与装饰工程工程量计算新旧规范对比(二)

五、附录部分主要变化附录A 土石方工程1.项目划分  1)土方工程:挖基础土方拆分为:挖沟槽土方、挖基坑土方。   2)石方工程:石方开挖拆分为:挖一般石方、挖沟槽石方、挖基坑石方。   3)回填…

安装算量软件_跨工程复制工程量项、工程量数据

鹏业安装算量软件跨工程复制工程量项与工程量数据,用于不同工程之间数据借用 操作步骤 1.同时打开多个工程 2.选中需要复制项、图上计算图元 3.鼠标右键-复制 (带基点复制) 4.在对应位置-鼠标右键-粘贴 注意点: 可以同时打开多次软件 软件中的操作 1.打开多…

工程量计算稿1.54安装教程 v1.54pjb

对于工程预算的人员来说,有一款好的预算软件绝对是一个不可多得的事情,因此小编今天为大家带来了工程量计算稿软件破解版,这是这个软件系列中的1.54版本,附带的注册机能够完美的激活软件,亲测有效,可以免费使用所有功能,详细的安装教程,参考下文。这款软件主要还是用于…

土方量计算的准确作法

​现在说到土方量结算,绝大多数土木行业的人都说某某软件很方便,但是我要问到手算会吗,大多数人都会支支吾吾,虽然手算确实不现实,但是我们做为专业人员,总不能沦为软件使用者吧?其中的原理大家…

工程量计算稿1.55安装步骤 v1.55pjb

你是在还在用纸笔记录工程数字量?那你有没有计算错误的时候呢?中途修改肯定会很麻烦吧,那不如试试这款工程量计算稿,通过它用户可以随时随地修改其中一个数字,最终结果也会随之改变,非常方便快捷,计算速度比手工计算快2/3,避免了手工计算容易漏算的弊端,并在在核对后修…