你该选择哪个职业呢?数据科学家、数据分析师和数据工程师

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

许多人,在技术行业内外,对不同的数据角色及其职责感到困惑。这可能会使得想要进入该领域的人难以知道哪份工作适合他们的技能,以及与他们想要做的事情是否一致。因此,在这篇文章中,我想详细解释数据科学家、分析师和工程师之间的区别。


下面的图表展示了公司内部的基本数据流。

这并不是普遍适用的,不同的组织之间可能会有所变化。

公司内部的数据流。作者绘制的图表。
让我们来详细分析这些步骤:

  • 收集 — 这主要是关于从你可能需要的来源收集数据。要获取数据,你需要从组织拥有的网站或产品中进行日志记录和API调用。
  • 存储 — 现在我们有了数据,需要存储它以便我们可以访问。数据可以存储在许多地方和形式中,如关系数据库、云基础设施(如S3桶),甚至是某个服务器上的普通旧CSV。为此,你需要构建健壮的数据管道。
  • 转换 — 尽管我们有了数据,但它可能不是在一个很好的格式中。所以,我们需要转换它来清理并创建有用的表格。
  • 分析 — 数据清理干净后,我们可以开始从中收集洞察,以帮助推动业务决策。
  • 优化 — 数据生命周期的最后顶点是使用洞察来优化公司内部的流程,通过预测分析、建模和测试来实现。

角色要求概览


公司内不同的数据角色将控制数据流的不同部分。通常,数据工程师将使用管道来收集和存储数据。收集步骤也可以与软件工程师协作完成。

转换阶段是由这三个角色以某种方式完成的,至少根据我的经验是这样。数据科学家需要转换数据以进行模型训练,分析师转换数据以收集洞察,工程师通过数据建模转换数据以创建更好的表格。

然后,数据分析通常由数据分析师完成。最后,数据科学家负责流程中的优化步骤。尽管如此,数据科学家可能会发现自己有时也在进行一些分析,反之亦然。

我想强调的是,根据我的经验,角色之间的界限并不是固定的,而是经常相当流动的。如果你是一名数据工程师,你可能会发现自己有时也在进行一些分析和预测建模。这取决于你的组织结构和你的角色需求。

在大公司,你的技能将会更加专业化。数据科学家只会做建模部分,工程师只会做收集和存储方面的工作。而在小公司,比如初创公司,你更有可能是全能选手。在申请工作时请记住这一点!

还有另一件事需要注意,那就是每家公司对数据角色的定义往往不同。一家公司的数据科学家可能在另一家公司是数据分析师。因此,在申请前仔细阅读职位描述非常重要。

无论如何,让我们分解这三个数据角色以及他们执行工作所需的技能和工具。

数据工程师


如上所述,数据工程师基本上是数据生态系统的基础,因为他们是获取和存储数据的人。他们的总体目标是构建健壮且可持续的数据管道和基础设施,以服务分析师、科学家和任何想要在公司内部使用数据的人。

以下是成为数据工程师所需的技能和工具:

  • 编码 — 作为工程师,你需要能够编码。你需要知道的主要语言是Python和SQL,但像NoSQL、R和Java这样的语言也很有用。
  • 数据库和存储 — 现在,关系型和非关系型数据库是存储数据的主要方式,因此了解它们的工作方式和功能非常重要。常见的学习对象包括MySQL和PostgreSQL。你还需要了解数据仓库和数据湖等内容。
  • 命令行和终端 — 像任何技术职业一样,使用命令行执行命令、编辑文件和运行脚本是很重要的。
  • ETL(提取、转换、加载) — 这些工具有助于构建数据管道,比如Apache Airflow。
  • 云计算 — 许多数据工作流程,以及一般的技术工作,都是通过云计算完成的。现在几乎是基本要求,要理解AWS、Azure和Google Cloud等平台。


这并不是一个详尽的列表,因为每个公司的数据工程师角色都不相同。

数据分析师


数据分析师的主要工作是从数据中提取有意义的洞察,以帮助业务。作为分析师,你通常比数据工程师更接近业务端,因此领域知识很重要。

以下是成为数据分析师所需的技能和工具:

  • 编码 — 一般来说,分析师主要需要了解SQL。Python对许多角色来说很有用,但不是必需的。
  • Excel — 对于任何行业的任何分析任务,Microsoft Excel都是黄金标准。作为分析师,你必须非常熟练地使用它。
  • 仪表板 — 你需要能够以清晰的方式将你的发现呈现给利益相关者。使用Power BI和Tableau等工具通过仪表板进行呈现是最佳方式。
  • 分析技能 — 分析师经常运行实验,如AB测试,因此擅长数学和统计学是必需的。
  • 沟通 — 如上所述,你经常需要向非技术利益相关者展示你的发现,因此能够以易于消化的方式传达你的结果至关重要。

像数据工程师一样,这个列表绝不是详尽的,某些公司可能还需要分析师具备其他技能。

数据科学家


作为数据科学家,你的主要目标是创建预测性和机器学习算法,以帮助业务做出决策和自动化流程。你可能会进行预测、优化,甚至是深度学习,这取决于你工作的行业和领域。

以下是成为数据科学家所需的技能和工具:

  • 编码 — Python和SQL是必须的。Python因为大多数机器学习包都是用这种语言编写的,SQL用于收集你的训练数据。
  • 机器学习 — 你需要对机器学习算法及其工作原理有良好的
  • 理解,因为这是你大部分时间都在做的事情!
  • 数学和统计学 — 要理解机器学习,你需要在线性代数、微积分和贝叶斯统计等领域精通数学和统计学。
  • 云计算 — 许多算法和数据科学产品都部署在云上,因此熟悉云系统是很好的。
  • 命令行和终端 — 数据科学家相当多的时间在生产代码中工作,因此精通Bash和Z-Shell脚本非常有用。
  • 沟通 — 你经常需要向非技术利益相关者展示你的发现和模型,因此能够以易于消化的方式传达你的结果至关重要。

该选择哪一个?


最终的问题是,你应该选择哪个数据角色?在我看来,这取决于你的技能集在哪里以及你对什么感兴趣。我认为成为分析师是最容易的,因为它的要求较少,所以你可以更快地获得第一份工作。它也是对任何关注业务的人来说最好的角色。数据科学家的工作主要针对喜欢数学和统计学的人,而数据工程师非常适合喜欢技术方面的人。无论你选择哪一个,记住,无论标题如何,各公司的角色和职责都会有所不同。因此,确保你仔细阅读职位描述,以准确了解你每天将要做的事情!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/291602.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

粉丝免费福利第一期-海浪型手机支架

🍁 作者:知识浅谈,CSDN签约讲师,CSDN博客专家,华为云云享专家,阿里云专家博主 📌 擅长领域:全栈工程师,大模型,爬虫、ACM算法 💒 公众号&#xff…

配置Web运行环境与第一个网页

目录 安装与配置Web环境: 1.下载 2.安装 3.下载插件 第一个网页: 安装与配置Web环境: 如下使用了VSC作为web的运行环境。 下面是VSC的官网点击进入:Download Visual Studio Code - Mac, Linux, Windowshttps://code.visualstudio.com/download 1.下载 进入官网后可以看到…

SpringBoot整合腾讯云邮件发送服务非STMP

SpringBoot整合腾讯云邮箱服务 1、pom配置 <!-- 腾讯云邮箱服务--><dependency><groupId>com.tencentcloudapi</groupId><artifactId>tencentcloud-sdk-java</artifactId><!-- go to https://search.maven.org/search?qtencen…

11-设计模式:Go常用设计模式概述

设计模式是啥呢&#xff1f;简单来说&#xff0c;就是将软件开发中需要重复性解决的编码场景&#xff0c;按最佳实践的方式抽象成一个模型&#xff0c;模型描述的解决方法就是设计模式。使用设计模式&#xff0c;可以使代码更易于理解&#xff0c;保证代码的重用性和可靠性。 …

动态规划之方格取数

方格取数 动态规划&#xff0c;数字三角形模型 题目链接 https://www.luogu.com.cn/problem/P1004 题目描述 解法一 O ( n 4 ) O(n^4) O(n4) #include<bits/stdc.h> using namespace std; int n, i, j, l, k, x, y, s; int d[55][55], f[55][55][55][55]; int main()…

nginx界面管理工具之nginxWebUI 搭建与使用

nginx界面管理工具之nginxWebUI 搭建与使用 一、nginxWebUI 1.nginx网页配置工具 官网地址: http://www.nginxwebui.cn 源码地址&#xff1a;https://git.chihiro.org.cn/chihiro/nginxWebUI 2.功能说明 本项目可以使用WebUI配置nginx的各项功能, 包括http协议转发, tcp协议…

CQ 社区版2.10.0 | 新增 SQL 审核、全新英文版上线…

三月中旬&#xff0c;我们预告了 CloudQuery 社区版即将上线的「SQL 审核」功能。现在&#xff0c;它来了&#xff01; 本次社区版 v2.10.0&#xff0c;除了 SQL 审核功能&#xff0c;我们还在手动授权、连接分组等模块做了新功能和优化。 新增功能 新增 SQL 审核功能 支持…

Linux编译器-gcc/g++/gdb使用

Linux编译器-gcc/g/gdb使用 一、背景知识二、 gcc如何完成2.1 预处理(进行宏替换)2.2 编译&#xff08;生成汇编&#xff09;2.3 汇编&#xff08;生成机器可识别代码&#xff09;2.4 连接&#xff08;生成可执行文件或库文件&#xff09; 三、函数库四、gcc选项五、gdb5.1 背景…

产品之美10| 小小提示词(hint),便于用户交互

最近AIGC功能火热&#xff0c;有文生图和图生图两种。当用户初次接触到文生图的时候&#xff0c;会有一刻停顿&#xff1a;我该怎用输入呢&#xff1f;这时候的hint就可以发挥作用了&#xff1a; 编辑框&#xff08;EditView)里面有可爱的小女孩&#xff0c;加风格卡通。用户看…

基于单片机的二维码LCD显示控制设计

**单片机设计介绍&#xff0c;基于单片机的二维码LCD显示控制设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的二维码LCD显示控制设计是一个集硬件、软件与通信于一体的综合性项目。此设计的主要目标是实现单片机…

【动手学深度学习-pytorch】 9.4 双向循环神经网络

在序列学习中&#xff0c;我们以往假设的目标是&#xff1a; 在给定观测的情况下 &#xff08;例如&#xff0c;在时间序列的上下文中或在语言模型的上下文中&#xff09;&#xff0c; 对下一个输出进行建模。 虽然这是一个典型情景&#xff0c;但不是唯一的。 还可能发生什么其…

【详细讲解yarn的安装和使用】

&#x1f308;个人主页:程序员不想敲代码啊&#x1f308; &#x1f3c6;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家&#x1f3c6; &#x1f44d;点赞⭐评论⭐收藏 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提…

Java复习第十二天学习笔记(JDBC),附有道云笔记链接

【有道云笔记】十二 3.28 JDBC https://note.youdao.com/s/HsgmqRMw 一、JDBC简介 面向接口编程 在JDBC里面Java这个公司只是提供了一套接口Connection、Statement、ResultSet&#xff0c;每个数据库厂商实现了这套接口&#xff0c;例如MySql公司实现了&#xff1a;MySql驱动…

C语言: 指针讲解

为什么需要指针? &#xff08;1&#xff09;指针的使用使得不同区域的代码可以轻易的共享内存数据。当然你也可以通过数据的复制达到相同的效果&#xff0c;但是这样往往效率不太好&#xff0c;因为诸如结构体等大型数据&#xff0c;占用的字节数多&#xff0c;复制很消耗性能…

论文笔记:TALK LIKE A GRAPH: ENCODING GRAPHS FORLARGE LANGUAGE MODELS

ICLR 2024&#xff0c;reviewer评分 6666 1 intro 1.1 背景 当下LLM的限制 限制1&#xff1a;对非结构化文本的依赖 ——>模型有时会错过明显的逻辑推理或产生错误的结论限制2&#xff1a;LLMs本质上受到它们训练时间的限制&#xff0c;将“最新”信息纳入到不断变化的世…

Android熄屏/亮屏,旋转屏幕/横竖屏切换生命周期变化与activity销毁重建

Android熄屏/亮屏&#xff0c;旋转屏幕/横竖屏切换生命周期变化与activity销毁重建 1、熄屏/亮屏 熄屏后&#xff0c;Android生命周期走&#xff1a; onPause onStop 接着点亮Android手机屏幕&#xff0c;生命周期走&#xff1a; onRestart onStart onResume 2、旋转屏幕&…

云架构(二) 大使模式

Ambassador pattern &#xff08;https://learn.microsoft.com/en-us/azure/architecture/patterns/ambassador&#xff09; 简单描述 创建一个助手服务&#xff0c;这个服务代表消费服务或者应用程序发送网络请求。大使服务可以看做是与客户机同一个位置的进程外代理。 这种…

Linux——逻辑卷(LVM)管理

目录 LVM简介 LVM机制的基本概念 PV&#xff08;Physical Volume&#xff0c;物理卷&#xff09; VG&#xff08;Volume Group&#xff0c;卷组&#xff09; LV&#xff08;Logical Volume&#xff0c;逻辑卷&#xff09; PE&#xff08;Physical Extent&#xff0…

手写SpringBoot(三)之自动配置

系列文章目录 手写SpringBoot&#xff08;一&#xff09;之简易版SpringBoot 手写SpringBoot&#xff08;二&#xff09;之动态切换Servlet容器 手写SpringBoot&#xff08;三&#xff09;之自动配置 手写SpringBoot&#xff08;四&#xff09;之bean动态加载 手写SpringBoot…