3.4 朴素贝叶斯算法
朴素?
假设:特征与特征之间是相互独立的
应用:文本分类,单词作为特征
3.4.1 什么是朴素贝叶斯算法
朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的简单概率分类器,它假设特征之间相互独立。这种分类器在文本分类、垃圾邮件识别等领域非常流行,因为它易于实现,并且即使在特征数量很大的情况下也能表现良好。
在实际应用中,分母P(F) 对于所有类别是相同的,因此通常在分类决策中被忽略,我们只需要比较分子的大小来确定类别。此外,由于概率值可能非常小,直接计算可能会导致数值下溢,因此在实际计算中常常使用对数似然比来避免这个问题
3.4.2 概率基础
3.4.3 联合概率,条件概率,相互独立
3.4.4 贝叶斯公式
拉普拉斯平滑系数
3.4.5 API
3.4.6 案例:20类新闻分类
1 步骤分析
进行数据集的分割
TFIDF进行的特征抽取 将文章字符进行单词抽取
朴素贝叶斯预测
这个数据集在网络上不能自动下载,所以需要人为去下载。其下载过程需要另行自己下载,这里不做过多讲解,如有需求可以去访问其他网站咨询。
3.4.7 朴素贝叶斯算法总结
3.4.8 总结
条件概率,联合概率计算方式与特征独立的关系
贝叶斯公式的计算