基于朴素贝叶斯算法对肿瘤类别分类

艾派森

分类：机器学习

发布时间 2023.06.27阅读数 1293 评论数 0

朴素贝叶斯算法

贝叶斯定理

贝叶斯定理（Bayes Theorem）也称贝叶斯公式，是关于随机事件的条件概率的定理定理内容：如果随机事件A1 ,A2 ,…,An构成样本空间的一个划分（不重、不漏），且都有正概率，则对任何一个事件B（P(B)>0），有

提示： 贝叶斯定理是“由果溯因”的推断，所以计算的是”后验概率”

举例说明：

据天气预报预测，今日下雨(事件A)的概率为50%——P(A)；

堵车（事件B）的概率是80%——P（B）

如果下雨，堵车的概率是95%——P(B|A)

计算：如果放眼望去，已经堵车了，下雨的概率是多少？

根据贝叶斯定理：P(A|B)=0.5x0.95÷0.8=0.59375

朴素贝叶斯算法原理

重要前提条件： 一定要“朴素”—— 样本的各特征之间相互独立

对于待分类样本，在此待分类样本出现的条件下（也就是样本各个特征已知），计算各个类别出现的概率，哪个最大就认为此样本属于哪个类别。

详细过程

1 设x={a1 ,a2 1 ,…,am}为一个待分类项，而每个a为x的一个特征属性
2 有类别集合C={y1 ,y2 2 ,…,yn}
3 计算P(y1|x)，P(y2|x)，…，P(yn|x)
4 如果P(yk|x)=max{P(y1|x)，P(y2|x)，…，P(yn|x)}，则x∈yk 4

对于第三步的详细计算：

朴素贝叶斯的三种方式

三种朴素贝叶斯的适用条件

伯努利朴素贝叶斯

适用于离散变量，条件是各个特征是服从伯努利分布（0-1分布），每一个特征的取值只能有两种值。在scikit-learn中，使用 sklearn.naive_bayes.BernoulliNB实现伯努利朴素贝叶斯。

高斯朴素贝叶斯

适用于连续变量，条件是各个特征是服从正态分布的。在scikitlearn中，使用 sklearn.naive_bayes.GaussianNB实现高斯朴素贝叶斯。

多项式朴素贝叶斯

适用于离散变量，条件是各个特征是服从多项式分布的，所以每个特征值不能是负数。在scikit-learn中，使用sklearn.naive_bayes.MultinomialNB实现多项式朴素贝叶斯。

补充： 多项式分布来源于统计学中的多项式实验：实验包括n次重复试验，每项试验都有不同的可能结果。在任何给定的试验中，特定结果发生的概率是不变的

实战——肿瘤类别的分类

数据集简介

威斯康星乳腺肿瘤数据集是一个非常经典的用于医疗病情分析的数据集，它包括569个病例的数据样本，每个样本具有30个特征，而样本共分为两类：恶性（Malignant）、良性（Benign）。使用sklearn.datasets.load_breast_cancer加载数据集。

使用高斯朴素贝叶斯分类

由于数据集的各个特征属于连续型变量（半径、表面积、平滑度等），所以使用高斯朴素贝叶斯(GaussianNB)进行分类。

from sklearn.datasets import load_breast_cancer
 
cancer = load_breast_cancer()  # 加载威斯康星乳腺肿瘤数据集
 
# 拆分数据集
from sklearn.model_selection import train_test_split
 
X_train,X_test,y_train,y_test = train_test_split(cancer.data,cancer.target,random_state=666)
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb.fit(X_train,y_train)  # 训练集上拟合
gnb.score(X_test,y_test)  # 测试集上测试

Python 语义网学习笔记朴素贝叶斯

打赏 0

上一篇：python实现基于长短期记忆网络LSTM模型预测茅台股票价格趋势

下一篇：基于tensorflow深度学习的猫狗分类识别

基于朴素贝叶斯算法对肿瘤类别分类

艾派森

目录

朴素贝叶斯算法

朴素贝叶斯的三种方式

实战——肿瘤类别的分类

为你推荐

深度学习(五)：FastFCN代码运行、测试与预测

经典文献阅读之--Translating Images into Maps（鸟瞰图分割）

利用python实现Ridge岭回归和Lasso回归

语义实例分割1-02：snake(实时实例分割))-官方数据训练测试，环境搭建等

机器学习笔记（六）：贝叶斯分类器

YOLO-LITE

关于作者

艾派森

31

0

0

2

精选Python实现KNN算法和交叉验证

集成学习之随机森林、Adaboost、Gradient Boosting、XGBoost原理及使用

python实现基于长短期记忆网络LSTM模型预测茅台股票价格趋势

相关推荐

YOLOV5：数据集制作【照着做你也能训练自己的神经网络】

NanoDet代码逐行精读与修改（五.1）检测头的构造和前向传播

精选基于SVM-支持向量机对鸢尾花数据进行分类

[ICCV2017][IJCAI2018]当低级视觉任务遇上高级视觉任务

精选KITTI数据集解析和可视化

数据认知与数据预处理--数据认知

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

基于朴素贝叶斯算法对肿瘤类别分类

艾派森

目录

朴素贝叶斯算法

朴素贝叶斯的三种方式

实战——肿瘤类别的分类

为你推荐

深度学习(五)：FastFCN代码运行、测试与预测

经典文献阅读之--Translating Images into Maps（鸟瞰图分割）

利用python实现Ridge岭回归和Lasso回归

语义实例分割1-02：snake(实时实例分割))-官方数据训练测试，环境搭建等

机器学习笔记（六）：贝叶斯分类器

YOLO-LITE

评论（0）

关于作者

艾派森

31

0

0

2

精选Python实现KNN算法和交叉验证

集成学习之随机森林、Adaboost、Gradient Boosting、XGBoost原理及使用

python实现基于长短期记忆网络LSTM模型预测茅台股票价格趋势

相关推荐

YOLOV5：数据集制作【照着做你也能训练自己的神经网络】

NanoDet代码逐行精读与修改（五.1）检测头的构造和前向传播

精选基于SVM-支持向量机对鸢尾花数据进行分类

[ICCV2017][IJCAI2018]当低级视觉任务遇上高级视觉任务

精选KITTI数据集解析和可视化

数据认知与数据预处理--数据认知

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板