激活函数篇 04 —— softmax函数

在这里插入图片描述

将模型的输出转换为概率分布，使得模型能够输出每个类别的概率值。
$\text{Softmax}(a_i)=\frac{e^{a_i}}{\sum_{j=1}^n e^{a_j}}$
其中， $a_i$ 是输入向量中的第 $i$ 个元素， $n$ 是输入向量的长度。

将输入向量中的每个元素转换为一个概率值，使得所有输出的概率值之和为 1。这样，Softmax 函数可以将模型的输出解释为一个概率分布，从而方便地进行多分类任务。

在零点不可微，负输入的梯度为零，会产生永不激活的死亡神经元。复杂度可能会有点高，因为要做求和。输入值太大的话可能梯度会变小导致梯度消失。

假设有一个输入向量 $a = [2, 1, 0.1]$ ，通过 Softmax 计算每个元素的概率值：
$\text{Softmax}(2)=\frac{e^2}{e^2+e^1+e^{0.1}} \approx \frac{7.389}{11.212} \approx 0.659$
$\text{Softmax}(1)=\frac{e^1}{e^2+e^1+e^{0.1}} \approx \frac{2.718}{11.212} \approx 0.242$
$\text{Softmax}(0.1)=\frac{e^{0.1}}{e^2+e^1+e^{0.1}} \approx \frac{1.105}{11.212} \approx 0.099$

输出概率分布为 $[0.659, 0.242, 0.099]$ ，这些概率值之和为 1。

应用场景

1. 多分类任务： 例如图像分类、文本分类等。它将模型的输出转换为每个类别的概率值，从而方便地进行分类预测。

2. 语言模型： 用于语言模型的输出层，将模型的输出转换为每个单词的概率值，从而预测下一个单词。

3. 推荐系统： 用于计算用户对不同物品的偏好概率，从而进行个性化推荐。

torch实现

import torch
import torch.nn.functional as F
z = torch.tensor([2, 1, 0.1])
pb = F.softmax(z, dim=0)
print(pb)

tensorflow实现

import tensorflow as tf
z = tf.constant([2, 1, 0.1])
pb= tf.nn.softmax(z)
print(pb)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/15323.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

激活函数篇 04 —— softmax函数

应用场景

相关文章

【韩顺平linux】部分上课笔记整理

redis底层数据结构——简单动态字符串

使用 POI-TL 和 JFreeChart 动态生成 Word 报告

VLLM历次会议(2024.1)

第一财经对话东土科技 | 探索工业科技新边界

RabbitMq入门

【报错解决】MySQL报错：sql_mode=only_full_group_by

postgresql 游标（cursor）的使用

十二、Docker Compose 部署 SpringCloudAlibaba 微服务

java项目之金华学校社团管理系统源码(ssm+mysql)

deepseek+kimi自动生成ppt

Shapefile格式文件解析和显示

Golang 并发机制-7：sync.Once实战应用指南

【DeepSeek × Postman】请求回复

如何通过PHP接入DeepSeek的API

网络工程师（26）TCP/IP体系结构

每日Attention学习22——Inverted Residual RWKV

vscode预览插件

【04】Java+若依+vue.js技术栈实现钱包积分管理系统项目-若依框架二次开发准备工作-以及建立初步后端目录菜单列-优雅草卓伊凡商业项目实战

【DeepSeek】DeepSeek概述 | 本地部署deepseek