头歌-机器学习第10次实验逻辑回归

第1关：逻辑回归核心思想

任务描述

本关任务：根据本节课所学知识完成本关所设置的编程题。

编程要求

根据提示，在右侧编辑器补充 Python 代码，实现sigmoid函数。底层代码会调用您实现的sigmoid函数来进行测试。(提示: numpy.exp()函数可以实现 e 的幂运算)

测试说明

测试用例：

输入：1

预期输出：0.73105857863

输入：-2

预期输出：0.119202922022

#encoding=utf8
import numpy as npdef sigmoid(t):'''完成sigmoid函数计算:param t: 负无穷到正无穷的实数:return: 转换后的概率值:可以考虑使用np.exp()函数'''#********** Begin **********#return 1.0/(1+np.exp(-t))#********** End **********#

第2关：逻辑回归的损失函数

任务描述

本关任务：根据本节课所学知识完成本关所设置的选择题。

编程要求

根据相关知识，按照要求完成右侧选择题任务，包含单选题和多选题。

测试说明

平台会对你选择的答案进行判断，全对则通过测试。

1、逻辑回归的损失函数可以写成如下形式 (A)^         −log( p ) y=1
cost={          ^−log(1− p y=0A、对
B、错2、下列说法正确的是 (A、C、D)
A、损失值能够衡量模型在训练数据集上的拟合程度
B、sigmoid函数不可导
C、sigmoid函数的输入越大，输出就越大
D、训练的过程，就是寻找合适的参数使得损失函数值最小的过程3、sigmoid函数(对数几率函数)相对于单位阶跃函数有哪些好处？ (A、B)
A、sigmoid函数可微分
B、sigmoid函数处处连续
C、sigmoid函数不是单调的
D、sigmoid函数最多计算二阶导4、逻辑回归的优点有哪些？ (D)
A、需要事先对数据的分布做假设
B、可以得到“类别”的真正的概率预测
C、可以用闭式解求解
D、可以用现有的数值优化算法求解

第3关：梯度下降

任务描述

本关任务：用 Python 构建梯度下降算法，并求取目标函数最小值。

编程要求

根据提示，使用 Python 实现梯度下降算法，并损失函数最小值时对应的参数theta，theta会返回给外部代码，由外部代码来判断theta是否正确。

测试说明

损失函数为：loss=2∗(θ−3) 最优参数为：3.0 你的答案跟最优参数的误差低于0.0001才能通关。

# -*- coding: utf-8 -*-import numpy as np
import warnings
warnings.filterwarnings("ignore")def gradient_descent(initial_theta,eta=0.05,n_iters=1000,epslion=1e-8):'''梯度下降:param initial_theta: 参数初始值，类型为float:param eta: 学习率，类型为float:param n_iters: 训练轮数，类型为int:param epslion: 容忍误差范围，类型为float:return: 训练后得到的参数'''#   请在此添加实现代码   ##********** Begin *********#theta = initial_thetai_iter = 0while i_iter < n_iters:gradient = 2*(theta-3)last_theta = thetatheta = theta - eta*gradientif(abs(theta-last_theta)<epslion):breaki_iter +=1return theta#********** End **********#

第4关：动手实现逻辑回归 - 癌细胞精准识别

任务描述

本关任务：使用逻辑回归算法建立一个模型，并通过梯度下降算法进行训练，得到一个能够准确对癌细胞进行识别的模型。

编程要求

根据提示，在右侧编辑器Begin-End处补充 Python 代码，构建一个逻辑回归模型，并对其进行训练，最后将得到的逻辑回归模型对癌细胞进行识别。

测试说明

只需返回预测结果即可，程序内部会检测您的代码，预测正确率高于 95% 视为过关。

提示：构建模型时 x0 是添加在数据的左边，请根据提示构建模型,且返回theta形状为(n,)，n为特征个数。

# -*- coding: utf-8 -*-import numpy as np
import warnings
warnings.filterwarnings("ignore")def sigmoid(x):'''sigmoid函数:param x: 转换前的输入:return: 转换后的概率'''return 1/(1+np.exp(-x))def fit(x,y,eta=1e-3,n_iters=10000):'''训练逻辑回归模型:param x: 训练集特征数据，类型为ndarray:param y: 训练集标签，类型为ndarray:param eta: 学习率，类型为float:param n_iters: 训练轮数，类型为int:return: 模型参数，类型为ndarray'''#   请在此添加实现代码   ##********** Begin *********#theta = np.zeros(x.shape[1])i_iter = 0while i_iter < n_iters:gradient = (sigmoid(x.dot(theta))-y).dot(x)theta = theta -eta*gradienti_iter += 1return theta#********** End **********#

第5关：手写数字识别

任务描述

本关任务：使用sklearn中的LogisticRegression类完成手写数字识别任务。

编程要求

填写digit_predict(train_sample, train_label, test_sample)函数完成手写数字识别任务，其中：

train_image：训练集图像，类型为ndarray，shape=[-1, 8, 8]；
train_label：训练集标签，类型为ndarray；
test_image：测试集图像，类型为ndarray。

测试说明

只需返回预测结果即可，程序内部会检测您的代码，预测正确率高于 0.97 视为过关。

from sklearn.linear_model import LogisticRegressiondef digit_predict(train_image, train_label, test_image):'''实现功能：训练模型并输出预测结果:param train_sample: 包含多条训练样本的样本集，类型为ndarray,shape为[-1, 8, 8]:param train_label: 包含多条训练样本标签的标签集，类型为ndarray:param test_sample: 包含多条测试样本的测试集，类型为ndarry:return: test_sample对应的预测标签'''#************* Begin ************#flat_train_image = train_image.reshape((-1, 64))# 训练集标准化train_min = flat_train_image.min()train_max = flat_train_image.max()flat_train_image = (flat_train_image-train_min)/(train_max-train_min)# 测试集变形flat_test_image = test_image.reshape((-1, 64))# 测试集标准化test_min = flat_test_image.min()test_max = flat_test_image.max()flat_test_image = (flat_test_image - test_min) / (test_max - test_min)# 训练--预测rf = LogisticRegression(C=4.0)rf.fit(flat_train_image, train_label)return rf.predict(flat_test_image)#************* End **************#