中国月期刊论文发表网基于贝叶斯的二值图像分类算法

　　月期刊论文发表网推荐计算机杂志《电脑爱好者》杂志社创建于1993年6月，隶属于中国科学院。发展至今她已经成为拥有《电脑爱好者》半月刊、《电脑高手》、《电脑爱好者合订本》、《互动软件》、《数码》五本电脑类刊物，集采编、出版、发行、展览、广告、销售于一体的集团化企业。
　　摘要：如当今有各式各样的水印检测算法，水印的检测算法是提取水印关键的第一步。如果无法检测出图像中的水印，就无法提取图像中的水印。由于水印载体之间存在的差异和嵌入水印鲁棒性的不同，各种水印检测算法的准确率也是不同的。有些水印检测算法容易产生漏警与虚警的现象，而有些水印的检测算法的准确率较高。本文在参考了已有的基于统计特征的二值图像信息隐藏检测算法之后，再根据其算法的特征使用朴素贝叶斯的分类算法对含有水印的图像与没有水印的图像进行有效分类，最后通过对图像分类的方法对图像是否藏有水印进行检测。本文提出的算法可以作为现有水印检测算法的补充和参考。

　　关键词：贝叶斯,水印,二值图像,朴素贝叶斯,信息隐藏

　　数字水印的载体可分为黑白和彩色的两种载体，黑白图像被称为二值图像。由于水印与水印的载体有二值图像与非二值图像之分，因此这两种水印的检测算法是有很大差别的。现有的水印检测算法是多种多样的，例如有对LSB信息隐藏的检测，二值图像的信息隐藏检测和JPEG图像的隐藏信息检测。在本文中只对二值图像的信息隐藏检测算法进行研究，该算法是不同图像特征值之间比较算法。

　　如果某个载体中隐秘有水印，那么这个含有水印载体的特征值就会发生变化。当载体嵌入隐秘图像之后该载体的特征值有可能变大，也有可能变小，但也有不发生变化。图像的特征值的变化是载体中是否藏有隐秘图像的重要依据和重要根据。在二值图像的信息隐藏检测算法中，该检测算法局限性在于需要将现有图像特征值与原有图像特征之进行比较，因此，统计特征的二值图像信息隐藏检测算法是一种非盲检的算法。在机器学习中贝叶斯算法是一种分类算法，该算法具有智能性和有效性。因此该算法已在多个科学领域有多次的成功有效的应用。本文中在基于统计特征的二值图像信息隐藏检测算法的部分算法分析之后的基础之上，再结合概率统计中的贝叶斯分类算法对不同特征图像进行有效的分类。

　　1 信息隐藏检测原理及分类

　　信息隐藏检测技术研究是一项具有挑战性的工作。有针对性的信息隐藏检测所采取的策略与目前反病毒软件类似。针对性的信息隐藏检测针对各种隐藏算法提出的检测算法。目前针对性的信息研究非常活跃。信息隐藏方法可分为时/空域方法。

　　有针对性的算法一般检测率都很高，但实用性却不好，毕竟实际应用中不能穷举所有的信息隐藏方法，何况信息隐藏不同于密码，隐藏算法完全可以做到保密，因而未知隐藏信息嵌入方法的通用性的信息隐藏检测时信息检测研究的重点。

　　当今有针对性的信息隐藏检测技术有LSB、BPCS、扩展频方法，统计嵌入方法、以及有待隐藏信息生成载体的信息隐藏方法等。

　　2 贝叶斯分类

　　在机器学习中，我们感兴趣的是在给定训练数据D时，确定假设空间H中的最佳假设。所谓最佳假设，一种办法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种直接计算这种可能性的方法。

　　贝叶斯算法基于贝叶斯定理，分类算法的比较研究发展，一种称为朴素贝叶斯分类法的简单贝叶斯分类算法可以以决策树和经过挑选的神经网络分类算法想媲美。贝叶斯分类是统计学分类方法，是一种具有最小错误率的概率分类方法，可以用数学公式的精确方法表示出来，并且可以用很多种概率理论来解决。用于大型数据库时，贝叶斯分类算法也已表现出高准确率和高速度。

　　因此根据上述理由本文提出一种符合条件的图像样本的样本集合，使用贝叶斯公式和朴素贝叶斯的分类方法对图像集合中不同属性的图像进行分类，将含有水印的图像与未含有水印的图像进行分类。

　　2.1 贝叶斯公式

　　(1)X：样本数据，即所研究问题的实例，如一张图像、一篇文章、一个句子等;

　　(2)H某种假设，如样本X属于某种特定类C。

　　(3)P(H)：H先验概率，，即任意样本属于类C的概率，此时样本X的属性完全未知

　　(4)P(H|X)：在条件X下，H的后验概率，即已知某一样本的各个属性后，这一样本属于类C的概率。

　　(5)P(X)：X的先验概率，即此样本出现的概率。

　　(6)P(X|H)：条件H下X的后验概率，即已知样本属于类C的情况下，该样本具有属性X的概率。

　　2.2 朴素贝叶斯分类法

　　算法[1-2]：

　　(1)假设数据集D，而A1，A2，A3……，An是数据集的n个属性，对于某一具体的样本，其属性值为(x1，x2，x3，……，xn)其中xi就是属性Ai的取值。

　　(2)假定有m个类，C={C1，C2，C3……Cn}，给定样本X，分类器将预测X的类别。对于朴素贝叶斯，当且仅当：P(Ci|X)>P(Cj|X) 1≤j≤m，j≠1时，才可判定X属于类C。

　　(3)计算P(Ci)。

　　(4)计算P(X|Ci)。

　　(5)为了预测X的类标签，对每个类Ci，计算P(X|Ci)P(Ci)，分类法预测元组X的类标签为Ci，当且仅当P(X|Ci)P(Ci)>P(X|Cj)P(Cj) 1≤j≤m+1，j≠i时。

　　3 二值图像信息隐藏检测算法与水印的概率统计

　　3.1 二值图像信息隐藏检测算法

　　假设广义的定义图像特征为U，信息隐藏于二值图像后，图像特征的值增大为U′。这样，原始图像的U肯定小于嵌入信息后的图像的U′，但在实际应用中，二值图像千差万别，有的原始图像的U值甚至提嵌入信息后的U′都要大，这样我们就很难找到一个能区分所有二值图像是原有图像还是嵌入了信息的图像的阈值。

　　如果图像已经包含了隐秘信息，U和U′应该大致相等，如果图像不包含隐秘信息，U′一定会比U大很多。可采用比值U′/U来区分这两类图像。令R=U′/U，如果图像已经嵌入了隐秘信息，R大致等于或者略微大于1;而如果图像中没有隐秘信息，R一定比1大得多。　　3.2 图像特征的分析与讨论

　　根据对图像特征值的计算R=U′/U，可以R将分为三种情况：①大致等于1;②略微大于1;③一定比1大的多。R的值大致等于1，可以解释为略微小于1或略微大于1。

　　(1)当R的值大致等于1或略微大于1时，则图像中藏有水印。

　　(2)当R的值一定比1大的多时，则图像没有水印。

　　根据R的值的大小可将：R划分为大于1的值域和略微小于1的值域。

　　(1)当R略微小于1时，则图像中藏有水印。

　　(2)当R大于1时，

　　分两种情况讨论：

　　①当R略微大于1时，则图像中藏有水印。

　　②当R远大于1时，则图像没有水印。

　　结论：

　　因此当R的值略微小1时，则图像中藏有水印。

　　当R的值大于1时，则图像中可能藏有水印也可能没有水印。

　　讨论：

　　当图像中藏有水印时，此时图像的属性值的取值范围是R略微大于1。

　　当图像中没有水印时，此时图像的属性值的取值范围是R远大于1。

　　存在一个值域R，当R>1时，这里用集合B代表图像的集合，用0表示图像中没有藏有水印，则1就表示图像中有水印。存在集合B，并且有b∈{0，1}存在集合B，在这里可以统计概率的方法来计算b∈{0，1}时，b分别取得属性值0或1的概率多少。通过某个图像集合中元素属性值的概率计算，从而可以计算可以得出图像中没有藏有水印的概率是多少，同时通过计算也能得出图像中有水印的概率为多少。最后通过使用贝叶斯算法的图像特征概率计算，来对不同特征的图像进行分类。

　　3.3 水印的概率统计

　　以下对集合B，计算元素b分别取得0与1的概率：

　　若随机变量b只取0与1，它们的概率分布为：

　　P(b=1)=p，P(b=0)=1-p

　　注释：p表示的是0与1的概率。

　　概率p计算公式：

　　P(X=k)=Cknpkqn-k，k=0、1、2，……，n。

　　0　　4 贝叶斯的概率分类方法

　　贝叶斯公式：

　　(1)X：{x1，x2，x3，……，xn} {图像不含有水印，图像藏有水印}。

　　(2)H假设元素X属于图像中藏有水印。

　　(3)P(H)：概率为P(X=k)=Cknpkqn-k。

　　(4)P(H|X)：在X条件下，H的概率理想状态下，其为50%。

　　(5)P(X)：概率为P(X=k)=Cknpkqn-k。

　　(6)P(X|H)：理想状态下，图像藏有水印样本出现的先验概率为50%。

　　5 含有水印的图像与没有水印图像的分类算法

　　(1)在数据集中D中，图像中藏有水印，图像中没有水印是数据集的2个属性。对于某一具体的样本属性值就是R值。1)图像藏有水印时，其属性值略微大于1。2)图像没有水印时，其属性值远大于1。

　　(2)这里有两个类别，有水印的图像与没有水印的图像为两个不同的类别。如果样本X属于有水印图像的概率大于样本X属于没有水印图像的概率，则这时可以判断样本X属于有水印的图像。如果样本X属于没有水印图像的概率大于样本X属于有水印图像的概率，则这时可以判断样本X属于没有水印的图像。

　　当且仅当：P(Ci|X)>P(Cj|X) 1≤j≤m，j≠1时，才可判定X属于类C。

　　(3)计算Ci的先验概率P(Ci)。

　　(4)计算Ci条件下X的概率P(X|Ci)。

　　(5)为了预测X的类标签，对每个类Ci，计算P(X|Ci)P(Ci)，分类法预测元组X的类标签为Ci，当且仅当P(X|Ci)P(Ci)>P(X|Cj)P(Cj) 1≤j≤m+1，j≠i时。

　　说明：当且仅当Ci的先验概率P(Ci)与Ci条件下X的概率P(X|Ci)的乘积大于Cj的先验概率P(Cj)与Cj条件下X的概率P(X|Cj)的乘积时，才能够预测X的类标签。

　　6 结束语

　　图像提取算法固然重要，但要提取水印必须检测出载体中的水印，因此水印的检测算法更为重要。但是目前的某些水印的检测算法容易产生漏警和误警现象，解决水印检测算法的漏警和误警是水印研究人员主要研究的问题之一。因此一个好的水印检测算法能够尽量减少漏警与虚警的概率。本文查阅和参考了已有的水印图像检测算法，提出了一种基于该算是否切实有效，还需要在实际应用的到检测和验证。在这里十分希望广大的水印研究者提出新的信息隐藏检测算法，来完善现有的信息隐藏检测算法。

　　参考文献：

　　[1]TomM.Mitchell(美)著.机器学习[M].北京：机械工业出版社，2013.

　　[2]罗森林，马俊，潘敏丽编著.数据挖据理论与技[M].北京：术电子工业出版社，2013.

　　[3]金聪.数字水印理论与技术[M].北京：清华大学出版社，2008.

　　作者简介：朱俚治(1980-)，男，江苏宜兴人，计算机科学与技术专业毕业，本科，工学学士，工程师，研究方向：网络安全。

　　作者单位：南京航空航天大学信息中心，南京 210016

　　基金项目：本文是北京航空航天大学软件开发环境国家重点实验室开放基金资助项(项目编号：SKLSDE-2013KF)。