成为AI产品经理——模型构建过程(上)

目录

一、背景

1.对内

2.对外

二、模型构建过程 

1.模型设计

2.特征工程

① 数据清洗

② 特征提取

数值型数据

标签/描述类数据特征

非结构化数据(处理文本特征)

网络关系型数据 

③ 特征选择 

④ 训练集/测试集


一、背景

虽然产品经理不需要参与到模型构建工作中,但是我们需要对模型构建过程有一定的了解,有点两点好处:

1.对内

配合算法同学进行数据收集、模型训练、参数调优,及时跟进项目优化,应对突发状况。

2.对外

如果模型训练过程中出现问题,我们能够使用非技术性的话语向业务方解释,帮算法同学争取更多的时间。

二、模型构建过程 

 模型构建主要包括以下五个部分:

模型设计、特征工程、模型训练、模型验证、模型融合、模型部署,接下来我们对于以下概念依次讲解。

1.模型设计

模型设计时我们需要确认以下几个问题:

① 有没有必要建立这个模型?

② 我们当前的技术和资源能不能做这个模型?(数据源够不够、样本怎么获取、目标变量怎么设定)

③ 我们需要达到怎么样的预期结果?

 不同的需求决定了模型的应用场景,决定了它能够达到的业务预期。

2.特征工程

特征工程的概念是:将其他类型的数据转化成数量化信息以供模型训练。

特征工程是模型构建过程中耗时最长的一项工作,为什么特征工程耗时最长呢?

我们知道模型训练就是从数据中提取特征,然后根据特征使用算法来建立出对于未知数据进行预测的模型。算法逼近特征,而特征决定模型的上限。

特征工程里面又细分了其他工作模块:

数据清洗、特征提取、特征选择、训练集/测试集。

① 数据清洗

我们提供的数据并不是可以直接使用的数据,因为可能会存在异常数据、不均衡数据、数据残缺、量纲不一致等问题。

此时我们需要对残缺数据进行补全;对于干扰数据进行删除;对于异常数据进行标注;对于不均衡数据:丢弃较多的数据或者补充较少的数据;对于量纲(单位)不一致的数据进行归一化处理。

② 特征提取

特征提取通常有四种常见类型:数值型特征数据,标签或描述类数据,非结构化数据,网络关系型数据。

  • 数值型数据

包含大量数值特征的数据。使用数值数据时,我们需要分两部分:主体变量特征和度量维度特征。比如京东的浏览页面次数是主体特征数据,浏览时长和浏览次数排名就是其他度量维度特征。

  • 标签/描述类数据特征

有些特征没有大小关系,无法使用数值表示,我们称为标签/描述类数据。比如:好瓜、坏瓜。这种就是标签/描述类数据,我们可以将好瓜标记为[0,1],将坏瓜标记为[1,0]。

  • 非结构化数据(处理文本特征)

 非结构化数据通常出现在UGC(User Generated Content)用户生成内容。比如用户的评论信息。现在我们需要使用用户的评论信息进行特征提取,这里需要使用到自然语言处理的方法。比如:买了一箱,孩子很喜欢。我们筛选出“孩子”,就可以知道这是一位亲子用户。

简而言之,非结构化数据(文本特征数据),我们就是进行文本清洗和挖掘,挖掘出一定的用户特征。

  • 网络关系型数据 

网络关系型数据就是通过数据信息获得用户的社交关系。比如我们可以通过同一公司地址基本确定两者是同事关系。我们可以通过用户同一家庭地址基本确定两者的亲人关系。

通常来说:算法工程师可以通过通讯录、收货地址、位置信息、好友助力等信息确定用户的关系网络,这个关系网络中的信息就可以作为我们特征提取的参考。

③ 特征选择 

第一步:跟进特征覆盖率、IV指标(信息的价值量)进行筛选。

IV:判断哪些特征进入模型,这个特征重不重要就使用IV指标。IV值就是用来衡量变量预测能力的,IV值越大,表示该变量的预测能力越强。

第二步:根据业务需求设定阈值,筛选掉一部分数据。

第三步:根据特征的稳定性筛选数据。

IV指标详解:机器学习-变量筛选之IV值和WOE - 知乎 (zhihu.com)

④ 训练集/测试集

 做完以上的工作我们就开始划分训练集和测试集了,我们通常将样本60%数据作为训练集,20%作为验证集,剩余20%用于测试集,三者数据相互独立。

训练集用于训练模型,验证集用于对训练后的模型进行验证微调,测试集用于对训练和验证后的数据进行测试,评估模型是否达到业务指标。

在模型构建过程中,因为很多因素的不确定性,导致会出现很多计划外的工作,所以你需要充分的了解模型构建流程为算法同学争取更多的时间和资源。

参考文献:刘海丰——《成为AI产品经理》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/204082.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SSM的网络财务管理系统设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

nuxt、vue实现PDF和视频文件的上传、下载、预览

上传 上传页面 <el-form-item :label"(form.ququ3 1 ? 参培 : form.ququ3 2 ? 授课 : ) 证明材料" prop"ququ6"><PdfUpload v-model"form.ququ6" :fileType"[pdf, mp4, avi, ts]"></PdfUpload> </el-form-i…

Java游戏制作——王者荣耀

一.准备工作 首先创建一个新的Java项目命名为“王者荣耀”&#xff0c;并在src下创建两个包分别命名为“com.sxt"、”com.stx.beast",在相应的包中创建所需的类。 创建一个名为“img”的文件夹来储存所需的图片素材。 二.代码呈现 package com.sxt;import javax.sw…

Android开源框架--Dagger2详解

功名只向马上取&#xff0c;真是英雄一丈夫 一&#xff0c;定义 我们知道在一个类中&#xff0c;通常会定义其他类型的变量&#xff0c;这个变量就是我们所说的“依赖“。 对一个类的变量进行初始化&#xff0c;有两种方式。第一种&#xff0c;这个类自己进行初始化&#xff…

【Vue】Vue3 配置全局 scss 变量

variables.scss $color: #0c8ce9;vite.config.ts // 全局css变量css: {preprocessorOptions: {scss: {additionalData: import "/styles/variables.scss";,},},},.vue 文件使用

血的教训------入侵redis之利用python来破解redis密码

血的教训------入侵redis之利用python来破解redis密码 利用强大的python来进行redis的密码破解&#xff0c;过程不亦乐乎&#xff0c;当然也可以用shell脚本 本篇文章只供学习交流&#xff0c;请勿他用&#xff0c;谢谢。 其他相关联的文章 [1]VMware安装部署kail镜像服务器【…

Spring Boot创建和使用(重要)

Spring的诞生是为了简化Java程序开发的&#xff01; Spring Boot的诞生是为了简化Spring程序开发的&#xff01; Spring Boot就是Spring框架的脚手架&#xff0c;为了快速开发Spring框架而诞生的&#xff01;&#xff01; Spring Boot的优点&#xff1a; 快速集成框架&#x…

git的用法

目录 一、为什么需要git 二、git基本操作 2.1、初始化git仓库 2.2、配置本地仓库的name和email 2.3、认识工作区、暂存区、版本库 三、git的实际操作 3.1 提交文件 3.2 查看git状态以及具体的修改 3.3 git版本回退 git reset 3.1 撤销修改 四、git分支管理 4.…

fastjson和jackson序列化的使用案例

简单记录一下一个fastjson框架和jackson进行序列化的使用案例&#xff1a; 原json字符串&#xff1a; “{“lockCount”:”{1:790,113:1,2:0,211:0,101:1328,118:8,137:0,301:0,302:0}“,“inventoryCount”:”{1:25062,113:2,2:10000,211:2,101:11034,118:9,137:40,301:903914…

【数据库】聊聊一颗B+树 可以存储多少数据

我们知道数据库使用的数据结构是B树&#xff0c;但是B树可以存储多少数据呢&#xff0c;在面试中也是经常会问的问题&#xff0c;所以我们从根上理解这个问题。 操作系统层面 数据都是存储在磁盘中的&#xff0c;而磁盘中的数据都是以最新单位扇区进行分割。一个扇区的大小是…

大数据平台/大数据技术与原理-实验报告--MapReduce编程

实验名称 MapReduce编程 实验性质 &#xff08;必修、选修&#xff09; 必修 实验类型&#xff08;验证、设计、创新、综合&#xff09; 综合 实验课时 2 实验日期 2023.10.30-2023.11.03 实验仪器设备以及实验软硬件要求 专业实验室&#xff08;配有centos7.5系统…

Cortex-M与RISC-V区别

环境 Cortex-M以STM32H750为代表&#xff0c;RISC-V以芯来为代表 RTOS版本为RT-Thread 4.1.1 寄存器 RISC-V 常用汇编 RISC-V 关于STORE x4, 4(sp)这种寄存器前面带数字的写法&#xff0c;其意思为将x4的值存入sp4这个地址&#xff0c;即前面的数字表示偏移的意思 反之LOA…

论文阅读:“Model-based teeth reconstruction”

文章目录 AbstractIntroductionTeeth Prior ModelData PreparationParametric Teeth Model Teeth FittingTeeth Boundary Extraction Reference Abstract 近年来&#xff0c;基于图像的人脸重建方法日趋成熟。这些方法可以捕捉整个面部或面部特定区域&#xff08;如头发、眼睛…

探索H5的神秘世界:测试点解析

Html5 app实际上是Web app的一种&#xff0c;在测试过程中可以延续Web App测试的部分方法&#xff0c;同时兼顾手机端的一些特性即可&#xff0c;下面帮大家总结下Html5 app 相关测试方法&#xff01; app内部H5测试点总结 1、业务逻辑 除基本功能测试外&#xff0c;需要关注的…

【微服务专题】微服务架构演进

目录 前言阅读对象阅读导航前置知识笔记正文一、系统架构的演变1.1 单体架构1.2 单体水平架构1.3 垂直架构1.4 SOA架构1.5 微服务架构 二、如何实现微服务架构2.1 微服务架构下的技术挑战2.2 微服务技术栈选型2.3 什么是Spring Cloud全家桶2.4 Spring Cloud Alibaba版本选择 学…

智慧化工~工厂设备检修和保全信息化智能化机制流程

化工厂每年需要现场检修很多机器&#xff0c;比如泵、压缩机、管道、塔等等&#xff0c;现场检查人员都是使用照相机&#xff0c;现场拍完很多机器后&#xff0c;回办公室整理乱糟糟的照片&#xff0c;但是经常照了之后无法分辨是哪台设备&#xff0c;而且现场经常漏拍&#xf…

HarmonyOS4.0系列——02、汉化插件、声明式开发范式ArkTS和类web开发范式

编辑器调整 我们在每次退出编辑器后再次打开会直接进入项目文件中&#xff0c;这样在新建项目用起来很是不方便&#xff0c;所以这里跟着设置一下就好 这样下次进入就不会直接跳转到当时的文件项目中&#xff01;&#xff01; 关于汉化 settings → plugins → installe…

耗时一个星期整理的APP自动化测试工具大全

在本篇文章中&#xff0c;将给大家推荐14款日常工作中经常用到的测试开发工具神器&#xff0c;涵盖了自动化测试、APP性能测试、稳定性测试、抓包工具等。 一、UI自动化测试工具 1. uiautomator2 openatx开源的ui自动化工具&#xff0c;支持Android和iOS。主要面向的编程语言…

西南科技大学数字电子技术实验二(SSI逻辑器件设计组合逻辑电路及FPGA实现 )预习报告

一、计算/设计过程 说明:本实验是验证性实验,计算预测验证结果。是设计性实验一定要从系统指标计算出元件参数过程,越详细越好。用公式输入法完成相关公式内容,不得贴手写图片。(注意:从抽象公式直接得出结果,不得分,页数可根据内容调整) 1、1位半加器 真值表: 逻…

flask 上传文件

from flask import Flask, request, render_template,redirect, url_for from werkzeug.utils import secure_filename import os from flask import send_from_directory # send_from_directory可以从目录加载文件app Flask(__name__)#UPLOAD_FOLDER media # 注意&#xff…