2022机器学习阶段性复盘

2022机器学习阶段性复盘

文章目录

  • 2022机器学习阶段性复盘
  • 一、业务洞察
    • 1.1 业务调研
    • 1.2 采样策略
  • 一、特征工程
    • 1.1 特征筛选之iv_psi
    • 1.2 特征筛选之启发式搜索
    • 1.3 时间特征的曲率变换
    • 1.4 多重共线性特征的剔除
    • 1.5 什么样的特征适合树模型或LR模型
    • 1.5 什么样的特征是稳定可泛化特征
  • 二、机器学习
    • 1.4 什么样的特征适合LR
    • 2.1 refit训练
    • 2.2 Wide&Deep的改动思考
    • 2.3 LightGBM与RF的思考
    • 2.4 深度学习结合optuna的调参策略
    • 2.5 小样本建模的挑战
    • 2.6 多目标学习-多塔构建思路
    • 2.7 神经网络偏置项如何更新
    • 2.8 神经网络BN层的意义
    • 2.9 L1与L2正则项的正确解读
    • 2.9 weight_decay的解读-L2正则项系数
    • 2.10 数值特征归一化的选择
    • 2.11 优化器的选择
    • 多分类损失函数
    • FM公式推导
    • 手写卷积代码
    • 皮尔逊系数
    • PCA与SVD
  • 三、前瞻性模型调研
    • 3.1 Transformer的预训练与下游finetune
    • 3.2 腾讯广告大赛冠军方案
    • 3.3 整体nn.Embedding和独立Embedding的差异
    • 3.4 ChatGPT中Reward Model机制
  • 三、销售能力建模
    • 3.1 销售能力重点指标
    • 3.2 ELO算法
    • 3.3 融合ELO的线性回归算法
  • 四、分发策略
    • 4.1 优选与优配策略
    • 4.2 假设检验及应用
    • 4.3 评估策略理论收益
  • 五、工程能力
    • 5.1 torch常用指令
    • 5.1 分布式云梯框架
    • 5.2 torch.script模型部署
    • 5.3 onnx模型部署
    • 5.4 类scikit-learn的模型部署
  • 六、重点踩坑
    • 6.1 数据穿越&训练集测试集不同分布的危害
  • 七、面试复盘
    • 7.1 spark实现k-means


一、业务洞察

1.1 业务调研

基本情况:公司概况,各SKU的总营收,客单价,转化率,投流,销售;
调研评估:策略覆盖度,投放占比等;
分配过程:了解端到端的线索投流到转化的全流程,至关重要,涉及AB桶试验设计;
调研问题清单:行业概况,公司概况,时间周期规律,用户画像,组织架构;
数据基建:了解重点分配表,订单表等数据,目标是串联整个分配流程。对齐数据及口径一致性;

销售访谈:

  1. 销售流程的拆解,包括线索获取,外呼,跟进,成单
  2. 典型的一天工作安排是怎样的?一天多少新量,多少老量?多少量是合适的?
  3. 怎么判断高意向客户?
  4. 怎么保证每个月业绩稳定?
  5. 核心话术分享?
  6. 逼单的技巧?
  7. 什么情况放弃一个客户?
  8. 成单用户的维护?如何促进复购?
  9. 公司的激励措施
  10. 人员流动发生时,客户怎么交接?

1.2 采样策略

一、特征工程

1.1 特征筛选之iv_psi

信息价值IV与群体稳定性PSI

  • WOE定义:对每一特征下的每种取值,统计该取值下的正负样本数量与该特征下的正负样本数量之间的关系
    W O E i = l n ( N e g i N e g T / P o s i P o s T ) = l n ( N e g i N e g T ) − l n ( P o s i P o s T ) WOE_i=ln(\frac{Neg_i}{Neg_T}/\frac{Pos_i}{Pos_T})=ln(\frac{Neg_i}{Neg_T})-ln(\frac{Pos_i}{Pos_T}) WOEi=ln(NegTNegi/PosTPosi)=ln(NegTNegi)ln(PosTPosi)

  • IV定义:IV值的计算是对WOE值的加权和, 在 W O E WOE WOE的基础上量化了该特征下每一取值在差异占比上的相对关系。也就是说,如果某个分组样本正负样本差异占总体数量比较低,那么对预测其实贡献也是比较低的,所以会给WOE基础上再打个折。
    I V = Σ i n ( 负样本占比 − 正样本占比 ) ∗ W O E i IV = \Sigma^n_i(负样本占比-正样本占比)*WOE_i IV=Σin(负样本占比正样本占比)WOEi
    I V i = ( N e g i N e g T − P o s i P o s T ) ∗ W O E i = ( N e g i N e g T − P o s i P o s T ) ∗ l n ( N e g i N e g T / P o s i P o s T ) IV_i=(\frac{Neg_i}{Neg_T}-\frac{Pos_i}{Pos_T})*WOE_i=(\frac{Neg_i}{Neg_T}-\frac{Pos_i}{Pos_T})*ln(\frac{Neg_i}{Neg_T}/\frac{Pos_i}{Pos_T}) IVi=(NegTNegiPosTPosi)WOEi=(NegTNegiPosTPosi)ln(NegTNegi/PosTPosi)
    I V = Σ i n I V i IV=\Sigma^n_iIV_i IV=ΣinIVi

  • psi定义:
    p s i = Σ ( A − E ) ∗ l n ( A / E ) = Σ ( c n t i c n t t e s t − c n t i c n t t r a i n ) ∗ l n ( c n t i c n t t e s t / c n t i c n t t r a i n ) psi=\Sigma(A-E)*ln(A/E) = \Sigma(\frac{cnt_{i}}{cnt_{test}} - \frac{cnt_{i}}{cnt_{train}})*ln(\frac{cnt_i}{cnt_{test}}/\frac{cnt_i}{cnt_{train}}) psi=Σ(AE)ln(A/E)=Σ(cnttestcnticnttraincnti)ln(cnttestcnti/cnttraincnti)
    与iv计算框架一致,不同的是参与iv计算的是同一份数据下该取值的负样本率和正样本率,而psi是两份数据下该取值的占比

  • ppsi定义:
    p p s i = Σ ( A − E ) ∗ l n ( A / E ) = Σ ( P o s i P o s t e s t − P o s i P o s t r a i n ) ∗ l n ( P o s i P o s t e s t / P o s i P o s t r a i n ) ppsi=\Sigma(A-E)*ln(A/E) = \Sigma(\frac{Pos_{i}}{Pos_{test}} - \frac{Pos_{i}}{Pos_{train}})*ln(\frac{Pos_i}{Pos_{test}}/\frac{Pos_i}{Pos_{train}}) ppsi=Σ(AE)ln(A/E)=Σ(PostestPosiPostrainPosi)ln(PostestPosi/PostrainPosi)

    IV的头半段其实反映出了该分组的有响应和无响应分别占总体的比例。

    woe有正有负,而iv由于 ( 负样本占比 − 正样本占比 ) (负样本占比-正样本占比) (负样本占比正样本占比) W O E i WOE_i WOEi方向相同,乘积是正的;

    分箱越细,IV越高,因此分箱要控制在10以内,最小箱占比5%;

    只能应用于二分类场景;

    IV与PSI的共同点,都是对两个概率分布的差异性的衡量,IV是对同一份数据中正负样本的衡量,PSI是对两份数据中取值占比的衡量,ppsi是对两份数据中正样本率的衡量;

1.2 特征筛选之启发式搜索

    利用可解释性强的backbone(如LR),从1个特征开始训练,每次新增一个特征加入训练,每次从剩余的特征列表中选出考试结果最优的特征进行保留,继续进行下一轮特征筛选,直到考试结果不再增长;

    特征列表务必要保证是稳定可用的特征,避免选出的特征存在不稳定特征造成过拟合,可利用value_counts(), iv_psi等手段粗筛一波

    考试结果可选取K折验证的validset集合,最后投票选择;

1.3 时间特征的曲率变换

    对于时间类特征,若定义域在0-1之间,直接做log变换并不足够的凸显差异(近乎于y=x),做曲率变换是为了加大差异程度;
在这里插入图片描述

1.4 多重共线性特征的剔除

  • 根据特征构造逻辑和经验,进行去重;
  • 对num型特征,根据person系数进行去重;

1.5 什么样的特征适合树模型或LR模型

    LR模型对于cat型特征,只能采取onehot编码进行表达,要保留最精简特征,同质特征会分散信息权重;
    而树模型,本质是一种if-then的策略,onehot的表达会使得一个特征被离散化后,分别做if-else的分裂,导致一个特征的表达过于分散。

1.5 什么样的特征是稳定可泛化特征

  • 泛化性通过的基于LR的启发式搜索

二、机器学习

1.4 什么样的特征适合LR

LR本质是对历史特征进行加权求和的操作, y = Σ w x + b y=\Sigma wx+b y=Σwx+b, 求得的是与目标的线性关系

  • 线性相关性越强,越适合LR,最适合的方案应当是泛化性通过的启发式搜索,其次是简单的iv,psi观察;
  • 某些num特征更适合分箱处理,因为num特征只有一维,根据公式而言,LR只能学得该特征与目标的线性权重,非线性信息无法学得,因此对此类特征进行分箱,才更适合LR学习;

2.1 refit训练

  • valid refit训练
    神经网络在训练时需要配置validset以进行early_stopping和观察过拟合情况,训练集天然缺少valid数据,为了弥补valid数据没参与训练的损失,可以在early_stopping发生后,进行refit。可尝试将train+valid进行Oversampling的数据,进行1-2epoch补充训练。

  • 数据集时效性增强refit
    对于toB的convertion场景,客户方业务变动直接反映在数据的时效性上,时间上越接近当下的数据就越接近线上的情况,因此可对训练集中时间接近当下的样本,进行过采样(如直接复制,按比例复制等),从结果上看来对测试集的效果有正向作用。

2.2 Wide&Deep的改动思考

原始的WD就Wide和Deep独立处理,最后合并输出。
问题:Wide就是LR没什么好说的,但Deep非常容易产生过拟合

Wide不断拼接Deep,即残差块,Wide直接添加到每一deep_layer的输出
一方面,可以避免梯度消失
一方面,保留最有信息的特征,避免该deep-layer学习到的信息量很少
一方面,

2.3 LightGBM与RF的思考

2.4 深度学习结合optuna的调参策略

    以Wide&Deep为例,需要调的参数包括了embedding_size, layers, dropout, learning_rate等,手工调参太过于依赖经验,需要借助optuna进行调参;

  • 层数不要作为参数,一个探索任务的层数应固定下来,调节隐层神经元数量,以节省optuna的参数空间;
  • 训练过程要设置early_stopping,可以以auc_valid作为指标,patience>=7作为早停条件,返回给optuna的是auc_valid_best;
  • 为了试验可复现性,请务必每次在optuna.trial前设置随机种子

2.5 小样本建模的挑战

  • 尽可能使用简单的模型;
  • 神经网络的参数尽可能少,主要体现在正则化Dropout,隐含层和神经元数量在不影响效果的情况下,尽可能少;
  • 特征数量尽可能精简,可使用LR启发式搜索挑出泛化性强的特征作为Wide,Deep在wide特征基础上,结合业务洞察加入特征;
  • 模型评估时,要切换随机种子,交叉验证。

2.6 多目标学习-多塔构建思路

  • 硬参数共享
    在这里插入图片描述

    即Embedding, Linear等层的weight实现共享。

    硬参数共享大大降低了过度拟合的风险。实际上,实验表明过度拟合共享参数的风险是N阶的。 其中N是任务数 , 小于过度拟合任务特定参数,即输出层。这在直觉上是有道理的:我们同时学习的任务越多,我们的模型就越能找到捕获所有任务的表示,我们对原始任务过度拟合的可能性就越小。

2.7 神经网络偏置项如何更新

结论:偏置项也会被更新

首先理解偏置的功能

  • 偏置可以加速神经网络拟合,对于二维空间而言, f(x) = wx是一个过原点的直线,但过原点的直线(超平面)不一定满足当下的分类任务,因此需要偏置项;

  • 偏置b可以视为控制每个神经元的阈值(-b等于神经元阈值);
    在这里插入图片描述
    每个神经元单独设置阈值等价于在每一层加入一个没有输入,输出恒为1的偏置神经元,下一层的神经元的bias等价于这个偏置神经元输出的权值,也就是说只要调整权重就能等效调整阈值

  • 神经网络加偏置的神经元
    f(w0x0+w1x1+…+wn*xn),其中x0代表偏置,是一个恒为1的神经元,w0是其对应的权重
    在这里插入图片描述

2.8 神经网络BN层的意义

神经网络BN层的意义

2.9 L1与L2正则项的正确解读

L1与L2正则项的直观理解
损失函数等高线理解

2.9 weight_decay的解读-L2正则项系数

结论:在L2正则项前乘的系数,反映在权重更新公式上,是一个令权重不断减小的系数,已达到防止过拟合的目的

带L2正则项的损失函数为
在这里插入图片描述
其中C0代表原始的代价函数,后面那一项就是L2正则化项,系数λ就是权重衰减系数。

对于权重的更新如下所示:
在这里插入图片描述
在这里插入图片描述
因此,最终体现在权重更新的公式上,weight_decay与原始w结合,除正则项带来的缩减以外,w本身也在逐渐减小,达到防止过拟合的作用。

2.10 数值特征归一化的选择

Q:数值特征主要围绕[0,1]好还是[-1,1]好?
0,1归一化,让处于0的特征,学不到任何有价值的信息,因此需要做min,max截断处理,缺失值填充0

一般选择归一到[-1,1], 因为大部分网络是偏好零对称输入的,我们使用的激活函数一般都是ReLU,如果ReLU的输入都是正数,那么它其实就是一个恒等函数,有没有它都一个样,ReLU就失去了意义。

2.11 优化器的选择

  • 随机梯度下降SGD
    对每个训练样本进行参数更新,每次执行都进行一次更新,且执行速度更快。
    θ=θ−η⋅∇(θ) × J(θ;x(i);y(i)),其中x(i)和y(i)为训练样本。

    优点:
    频繁的更新使得参数间具有高方差,损失函数会以不同的强度波动。这实际上是一件好事,因为它有助于我们发现新的和可能更优的局部最小值,而标准梯度下降将只会收敛到某个局部最优值。

    缺点:
    但SGD的问题是,由于频繁的更新和波动,最终将收敛到最小限度,并会因波动频繁存在超调量。

  • Batch-wise的SGD(常用)
    为了避免SGD和标准梯度下降中存在的问题,一个改进方法为小批量梯度下降,即每一个batch,进行一次随机梯度下降;

    优点:
    可以减少参数更新的波动,最终得到效果更好和更稳定的收敛。
    由于矩阵运算,使得计算更加高效

  • 带动量的SGD
    SGD方法中的高方差振荡使得网络很难稳定收敛,所以有研究者提出了一种称为动量(Momentum)的技术,通过优化相关方向的训练和弱化无关方向的振荡,来加速SGD训练。换句话说,这种新方法将上个步骤中更新向量的分量’γ’添加到当前更新向量。

    V(t)=γV(t−1)+η∇(θ).J(θ),最后通过θ=θ−V(t)来更新参数。

    优点:
    使网络能更优和更稳定的收敛;
    减少振荡过程。

    缺点:
    当小球达到曲线上的最低点时,动量相当高。由于高动量可能会导致其完全地错过最小值,因此小球不知道何时进行减速,故继续向上移动

    当其梯度指向实际移动方向时,动量项γ使得权重更新更快;当梯度与实际移动方向相反时,由于γ使得权重更新变缓。这种方式意味着动量项只对相关样本进行参数更新,减少了不必要的参数更新,从而得到更快且稳定的收敛,也减少了振荡过程。

  • Adam自适应优化器
    就是好

多分类损失函数

结论:交叉熵损失函数, torch.nn.CrossEntropyLoss(),即softmax+交叉熵
交叉熵=信息熵=信息量的数学期望: − Σ p ∗ l o g ( y ′ ) -\Sigma p*log(y') Σplog(y)

FM公式推导

FM模型

手写卷积代码

def convolution(k, data):# k:3x3卷积核n,m = data.shapeimg_new = []for i in range(n-3):line = []for j in range(m-3):a = data[i:i+3,j:j+3]line.append(np.sum(np.multiply(k, a)))img_new.append(line)return np.array(img_new)

皮尔逊系数

用于衡量两个连续变量的相关系数
p e a r s o n = c o v ( X , Y ) σ x σ y pearson=\frac{cov(X, Y)}{\sigma_x\sigma_y} pearson=σxσycov(X,Y),即两个连续变量的协方差/各自的标准差
c o v ( X , Y ) = 1 n − 1 Σ ( X − X ‾ ) ( Y − Y ‾ ) cov(X,Y) = \frac{1}{n-1}\Sigma(X-\overline{X})(Y-\overline{Y}) cov(X,Y)=n11Σ(XX)(YY)

PCA与SVD

PCA: 在样本空间中,通过线性映射,找到样本空间的子空间,目标是尽可能保证线性无关/正交的信息,即保证样本方差最大。(其实也与奥卡姆剃刀的思想一致)

  • 样本中心化,即减去该条样本向量的均值
  • 求出协方差矩阵 C = 1 m X X T C=\frac {1}{m}XX^T C=m1XXT
  • 求出协方差矩阵的特征值及对应的特征向量
  • 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P

SVD:奇异值分解

  • A m x n A_{mxn} Amxn的矩阵进行分解为 U Σ V T U\Sigma V^T UΣVT, 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
  • 首先求左奇异矩阵 A T A A^TA ATA和右奇异矩阵 A A T AA^T AAT
  • 分别根据左右奇异矩阵计算特征值和特征向量
  • 利用 A v i = σ i u i Av_i=\sigma_i u_i Avi=σiui求出奇异值 σ \sigma σ
  • 最终得到A的奇异值分解为 A = U Σ V T A=U\Sigma V^T A=UΣVT

可以看到,PCA仅用到了SVD的右奇异分解手段,
左奇异矩阵可以用于行数的压缩。
右奇异矩阵可以用于列数即特征维度的压缩,也就是我们的PCA降维。

三、前瞻性模型调研

3.1 Transformer的预训练与下游finetune

Attention与Transformer
Transformer与下游finetune

3.2 腾讯广告大赛冠军方案

3.3 整体nn.Embedding和独立Embedding的差异

整体embedding:所有的cat特征构造一份lookup table
独立embedding: 每个特征都有自己的lookup table

3.4 ChatGPT中Reward Model机制

Reward Modeling

下图是ChatGPT中权重的更新逻辑,可以看到Reward Model的创新主要是采用了相对的人工排序,来计算Loss
在这里插入图片描述
其中,yw 代表排序排在 yl 的所有句子。用上述例子(A > B > C > D)来讲,loss 应该等于:

l o s s = r ( A ) − r ( B ) + r ( A ) − r ( C ) + r ( A ) − r ( D ) + r ( B ) − r ( C ) + . . . + r ( C ) − r ( D ) loss = r(A) - r(B) + r(A) - r(C) + r(A) - r(D) + r(B) - r(C) + ... + r(C) - r(D) loss=r(A)r(B)+r(A)r(C)+r(A)r(D)+r(B)r(C)+...+r(C)r(D)
l o s s = − l o s s loss = -loss loss=loss

为了更好的归一化差值,我们对每两项差值都过一个 sigmoid 函数将值拉到 0 ~ 1 之间。可以看到,loss 的值等于排序列表中所有「排在前面项的reward」减去「排在后面项的reward」的和。而我们希望模型能够「最大化」这个「好句子得分」和「坏句子得分」差值,而梯度下降是做的「最小化」操作。

三、销售能力建模

3.1 销售能力重点指标

3.2 ELO算法

3.3 融合ELO的线性回归算法

四、分发策略

4.1 优选与优配策略

在这里插入图片描述
模糊区间:若名片相对于参考系的排序为3%,那么会产生一个±1.5%的模糊区间,即实际名片对应的销售范围是(3-1.5%,3+1.5%),然后在模糊区间里会再进行小策略的研究。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.2 假设检验及应用

4.3 评估策略理论收益

优配乘积=各档名片转化率*各档销售转化率

优配基线乘积=名片平均转化率*各档销售转化率

优配后平均期望=avg(各档优配乘积)

优配后基线平均期望=avg(各档优配基线乘积)

提升效果=优配后平均期望/优配后基线平均期望

● 公式如下:
在这里插入图片描述

五、工程能力

5.1 torch常用指令

5.1 分布式云梯框架

5.2 torch.script模型部署

5.3 onnx模型部署

5.4 类scikit-learn的模型部署

六、重点踩坑

6.1 数据穿越&训练集测试集不同分布的危害

2022-12-01以来,持续两个月的攻坚,最终告一段落,起因是经过方法论提炼的特征,能经过历史4个月的考验。

  • 第三方数据方更新版本,版本之间的数据diff非常大,使得模型必须重新训练。但由于第三方数据不存在回溯逻辑,开工前已经建立起了数据穿越的可能。
  • 业务对应的是考研,且2022-12/2023-01/2023-02,分别发生了疫情解禁,考研结束,春节,复工四大标志性事件,使得这期间的数据分布与9/10/11月的训练数据分布存在差异,但客观条件是我们也没有更多数据支撑了;
  • 模型攻坚方向经历了,非线性模型 -> 数据时效性增强 -> 多目标双塔模型,均无显著收益。
  • 最终怀疑第三方数据发生穿越,且刚好穿越了12-01-02三个和业务强相关的三个月,于是将和业务强相关的特征全部剔除,保留了穿越影响小的特征。效果稳定上升。

七、面试复盘

7.1 spark实现k-means

算法实现步骤
step1 首先随机选取k个样本点最为初始聚类中心
step2 计算每个样本到聚类中心的距离,将该样本归属到最近的聚类中心
step3 将每个类的点的均值作为新的聚类中心
step4 重复2、3步骤直到代价函数不再发生较大大变化或达到迭代次数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18757.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

音乐推荐算法+ChatGPT歌词创作

不知道有没有小伙伴喜欢这个项目,今天刚完成,哈哈哈。 体验地:http://make.forwardforever.top:614 账号:root 密码:123 账号:root2 密码:456 主页: 曲库: 评论功能: …

使用LSTM预测股价,特征:19个指标5天历史数据

LSTM介绍 LSTM是具有时间特性的神经网络,我们利用LSTM预测时间序列——股价。 从文本到股价,LSTM的输入特征和网络结构都有哪些变化呢? 我们先看一个简单的RNN结构。与普通的全连接层神经网络的权重更新沿着一层层隐藏层网络不同&#xff0c…

北大朱松纯教授:做智能时代的先知、先觉、先行者

本文转发自北京大学智能学院,文章根据朱松纯教授2023年7月1日在北京大学智能学院2023年毕业典礼上的即兴讲话整理而成。 做智能时代的 先知、先觉、先行者 ——在智能学院2023届毕业典礼上的讲话 朱松纯 2023年7月1日 尊敬的各位来宾、各位老师,毕业班同…

谷歌周彦祺:LLM浪潮中的女性科学家多面手丨智源大会嘉宾风采

导读 大模型研发竞赛如火如荼,谷歌紧随OpenAI其后推出PalM2、Gemini等系列模型。Scaling Law是否仍然适用于当下的大模型发展?科技巨头与初创企业在竞争中各有哪些优势和劣势?模型研究者应秉持哪些社会责任? 2023智源大会「基础模…

AI巨头争相推出,企业对话场景应用量暴增1000%,究竟发生了什么?

采访嘉宾 | 中关村科金AI 平台能力中心 作者 | 刘燕 大模型构建人机协同的新型生产关系 对话式 AI 产品拥抱大模型 一个大胆的决定 自 2014 年成立以来,中关村科金就选择专注于企业服务赛道提供对话场景服务,聚焦生成式 AI 技术,包括领域大…

深聊丨“紫东太初”大模型背后有哪些值得细读的论文(一)

原创:谭婧 没有人想等待,没有人想落伍。 新鲜论文时兴火热,成为大模型发展迅猛的标志之一,人们用“刷论文”这个游荡意味的动词替代另一个颇为严肃的动作,“读论文”。 论文被当作“教材”和“新知识”,在a…

紫东太初:造一个国产大模型,需用多少篇高质量论文?

原创:谭婧 “视觉自监督算法这轮,你是不是没跟上?” 我面前这位年薪近七十万,互联网大厂AI算法工程师的好友, 他用一个反问句回答了我的关心: “自监督这个玩意咋跟上?” 他抬了抬头&#xff0c…

一场九年前的“出发”:奠基多模态,逐鹿大模型

原创:谭婧 全球AI大模型的技术路线,没有多少秘密,就那几条路线,一只手都数得过来。 而举世闻名的GPT-4浑身上下都是秘密。 这两件事并不矛盾。为什么呢? 这就好比,回答“如何制造一台光刻机?”。…

独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow,光年之外欲添新大将...

文丨谭婧 以ChatGPT为代表的AI大模型是2023年的科技C位。 2023年3月27日,ChatGPT引发的“抓马连续剧”,又有新剧更新。 前情提要: 前美团联合创始人、高级副总裁王慧文发文宣布进入AI领域,称将打造中国的OpenAI。 新闻标题一&…

对话AI顶尖大牛周明老师:大模型的机遇和挑战?

Datawhale学习 分享人:周明老师,Datawhale 特邀嘉宾 这次 Datawhale开源学习 特别邀请了周明老师分享: 周明,澜舟科技创始人兼CEO,中国计算机学会 CCF 副理事长、NLP和大模型领域的顶尖大牛。 1991年就从NLP重镇哈工大…

对话李彦宏:AI 大模型时代,应用开发机会比移动互联网大十倍

AI 2.0 时代,ChatGPT 的出现,让大模型引发的诸神之战正式打响。百度作为中国首个推出真实应战“武器”的公司,其基于千亿量级数据炼就而成的“文心一言”背后,蕴藏哪些鲜为人知的故事?这种打破人类对过往 NLP 之智能对…

从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进...

图文原创:亲爱的数据 “Were building something big ... stay tuned. Talk to me if you want to work on scalable foundation models.” “我们正在建造一个大项目……请继续关注。如果你想在可扩展基础模型上工作,请告诉我。” “参数服务器之父” A…

单元测试编写最佳实践(ChatGPT+Mockito+JUnit)

背景 基于 springboot 微服务架构给单元测试带来的问题: springboot 单元测试启动家长过程非常缓慢,后期服务启动达到分钟级,非常影响效率服务之间相互依赖非常严重,单元测试的运行非常依赖其它服务稳定性第三方服务和中间件&am…

一种基于GOP改进的口语语音评测算法

最近在看语音评测的算法,看到2019年INTERSPEECH 2019 的的一篇paper。这篇主要是研究了 HMM transition probabilities对语音评测的影响。 测试后发现还是比原来的GOP语音评测算法有所改善。

微信版大语言模型来了:跨时空对话李白、教你高情商说话,API在线试玩全都有...

鱼羊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI 大规模语言模型,微信版,来了! 并且甫一登场,就没藏着掖着: 论文、API接口、在线试玩网站……一条龙全都齐备。 续写文本、阅读理解等常规任务就不说了,这个名…

元语AI(ChatYuan): ChatGPT中文版尝试?功能型对话大语言模型.beta版

元语AI是什么 我们训练了一个叫做元语AI(ChatYuan)的模型,它可以通过对话形式进行交互。它可以回答问题,具有联系上下文的能力;可以写文章、写作业、写诗歌、做中英文间的翻译;一些法律等特定领域问题也可以…

李宏毅HW01——新冠疫情数据的预测

目的:熟悉熟悉pytorch 导入数据 !gdown --id 1kLSW_-cW2Huj7bh84YTdimGBOJaODiOS --output covid.train.csv !gdown --id 1iiI5qROrAhZn-o4FPqsE97bMzDEFvIdg --output covid.test.csv/Users/missbei/miniforge3/envs/NLP_search/lib/python3.8/site-packages/gdo…

基于Spark对美国新冠肺炎疫情数据进行分析

2020年美国新冠肺炎疫情数据分析 基于Spark对美国新冠肺炎疫情数据进行分析一、实验环境二、数据集加载三、使用Spark对数据进行分析四、数据可视化 基于Spark对美国新冠肺炎疫情数据进行分析 此案例以2020年美国新冠肺炎疫情数据作为数据集,以Python为编程语言&am…

Chinese medical dialogue data 中文医疗对话数据集

Chinese medical dialogue data 中文医疗对话数据集 Data_数据中有6个文件夹分别是: <Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答…

Python爬取新冠肺炎实时数据及其可视化分析

点赞、关注再看&#xff0c;养成良好习惯 Life is short, U need Python 初学Python&#xff0c;快来点我吧 案例&#xff1a;Python爬取新冠肺炎实时数据及其可视化分析 作者&#xff1a;PyQuant 博客&#xff1a;https://blog.csdn.net/qq_33499889 慕课&#xff1a;https:…