您的当前位置:首页一种大容量鲁棒性中文文本数字水印算法

一种大容量鲁棒性中文文本数字水印算法

来源:锐游网
维普资讯 http://www.cqvip.com 第27卷 计算机应用 VoI.27 2007年6月 Computer Applications June 2007 文章编号:1001—9081(2007)S1一O229一O3 一种大容量鲁棒性中文文本数字水印算法 董相志 ,柳岸 ,苏庆堂 ,陈伟波 ,邹海林 (1.鲁东大学现代教育技术教学部,山东烟台264025; 2.中国科学院成都计算机应用研究所,四川成都610041; 3.烟台市政府办公室技术科,山东烟台264003; 4.鲁东大学计算机科学与技术学院,山东烟台264025) (dongxz@yantai.gov.an) 摘要:较早的文本数字水印算法大多是基于英语字母字符的文档构建,较少考虑汉字特征,一 般不同时具有大容量和鲁棒性特点。运用小波变换技术和混沌技术,根据汉字笔画特征自定义数据 隐藏字典和动态密钥字典,构建面向汉字文本的小波零树群,提出了一种新的汉字文本数字水印算 法,兼具大容量和鲁棒性。 关键词:中文文本数字水印;大容量;鲁棒性;小波变换;Logistic映射 中图分类号:TP309.9 文献标识码:A 0 引言 为了将小波变换技术应用到文本领域,克服上述问题,本 文在综合比较研究各种文本数字水印算法之后,认为汉字不 目前,针对图像水印技术的研究文献较多,并且适用于图 同于英文字母的最大特征是其笔画的复杂性和紧密性,汉字 像的水印算法大多可以转换为音频、视频水印算法。关于文 比英文字母更易隐藏信息,关键是准确找出这些隐藏位置,这 本数字水印的研究文献相对较少,原因如下: 是本文提出将小波变换技术应用于汉字文本水印算法的基本 (1)数据冗余度较低。即使将文本视作图像处理,也只 思路。 能是二值图像¨J。原本适合于灰度和彩色图像的各种变换 域算法不能很好地直接应用于文本,像离散余弦变换(DCT) 1 单个汉字信息隐藏位置的确定 和小波变换(DWT)等在图像水印技术领域应用相对成熟的 在图像小波编码领域,最有效的方法之一是小波零树编 算法,在文本领域鲜有成功的应用 J。 码方法。由于小波变换具有空频局域性的特点,因此在不同 (2)表象透明度较高。文本文档中可加入的隐藏信息位 尺度上描述相同空间位置的小波变换系数之间具有相似性, 少,而且更易暴露,容易破坏文档的原貌。这是因为人类视觉 通过图1不难观察到这种自相似性。图1对144×144的汉 系统(HVS)对白纸黑字(二值图像)的变化极为敏感 ,]J。 字“鲁”的二值图像分别进行一级小波分解和三级小波分解, (3)信息嵌入能力低。这个问题是前两个因素决定的, 分别形成4个子带和1O个子带,变换后系数矩阵的主要能量 一篇十页的文档可能不如一页灰度图像隐藏的信息多。 集中在少数的小波系数上,在高频子带,大多数小波系数因取 (4)算法鲁棒性较差。现有文本数字水印算法大多是基 值小基本不可见。 于空域变换的。由于空域变换使用的是不重要的像素位,水 鱼k---L4A 印信息很容易被滤波、图像量化和几何变形等操作所破 日 坏 。 文献[1]提出的白空格正弦编码;文献[2,4—8]提出的 行移字移编码,文献[3]提出的哈希编码;文献[9—11]提出 (a)一层小波变换(b)三层小波变换 的文档字符特征编码,文献[2,10]分析了这些算法的性能和 图1汉字“鲁”的二值图像的小波变换 水印信息容量;文献[12,13]提出的对角线文档特征编码;文 1.1 汉字小波变换系数树表示 献[143提出的基于汉字字根结构和语意挖掘的水印嵌入思 由图2所示的小波变换多分辨结构可以看出,描述相同 想;文献[15]提出的页边距空白统计特征编码;文献[16]提 空间位置的小波系数,在同方向低频子带和相邻高频子带之 出的文本分区分行点阵权重平衡方法;文献[17]提出的基于 间存在4叉树层次关系。图2是一个按三层分解的小波变换 单词“音节”编码;文献[18]提出了基于汉字字符拓扑结构的 系数矩阵,每个子带内用一个小方格表示一个小波系数。图 编码方案。文献[19]总结了几种主要的文本水印技术,分析 中只画出了部分系数的小格(1/9的系数)。 了中文文本数字水印的研究应用前景。整体看来,现有文本 为了构建小波零树,做如下设定: 水印算法普遍存在鲁棒性差和可嵌入水印信息量不高的问 (1)用c 表示第m层,d方向子带内的一个系数, , 是 题,限制了文本数字水印的实用化程度。 在本子带内的下标,舭 巩、HH 子带的方向序号分别取 收稿日期:2006—10—13;修订日期:2007-01一o4 基金项目:国家863计划资助项目(2003AA1Z2320);山东省科技攻关计划资助项目(2005GG4201009) 作者简介:董相志(1969一),男,山东莱阳人,高级工程师,硕士,主要研究方向:电子政务与信息安全;柳岸(1982一),男,山东烟台人,硕 士研究生,主要研究方向:嵌入式系统;苏庆堂(1967一),男,讲师,硕士,主要研究方向:数字水印技术与系统仿真; 陈伟波(1968一),高级 工程师,硕士,主要研究方向:电子政务;邹海林(1962一),男,教授,博士,主要研究方向:计算机图形图像技术,小波理论及应用. 维普资讯 http://www.cqvip.com 计算机应用 1,2,3。 2007年 个子树 ’ (2 , ), ’ (2 +1, ), ’ (2i,2j+1), (2 + 1, +1),分别用其根节点系数值与 比较,如果小于门限, 标记为零树;否则进一步分解为四个子树递归下去。对于所有 的零树,用一个比特值为0的系数表示整棵树。不能用零表示 的系数,可以进一步用来确定信息隐藏位置和编码。 确定隐藏位置的方法是:设汉字像素值矩阵为A ,定 ( J)表示子方向树。例如,根 ,.(2)定义d方向各层子带内表示相同空间位置的系数集 合为一颗方向树。最高层子带只取一个系数,为树的根节点。 每一高层子带的一个系数对应同方向低一层子带4个系数为 其子节点。 (3)以最高层方向子带内一个系数为根的方向树称为最 大方向树,记为 (f√)。用 节点为 …的方向树包括系数集{Co: , : ,C 2j, : , : , 义A( :_『,s:t)为矩阵A从第f行到第_『行,第s列到第f列的子 矩阵。确定信息隐藏位置的步骤如下: (1)计算A£=A(0:( 一1),0:(Ⅳ一2))一A(0:( 一 1),1:(N一1)); ,c:f;0≤i,j≤3}共计21个系数。 (4)图2中画出了分别以 : , : ,C 3 ,为根的三棵最大 方向树。定义 (f√)为一棵全树,其根节点为最高层子带系数 oLJ,根节点之下是同层分别以c ,c孑,c 为根的三棵最大 方向树。 m J m |\I 点 HL2 \ FTTT-FTVTI 宙 口 \ LH2 HH2\ HLl \. 匪 噩 LHl 图2 144×144“鲁”字小波变换系数的树形表示 1.2汉字“鲁”的小波零树边界模型 如果将流行的小波零树模型(系数最大门限法、EZW法、 SPIHT法)直接用于汉字小波零树的构建,可能在较大程度上 破坏文本质量。比如可能会在一个本来空白的区域产生一个 甚至多个黑像素,而在本来全黑的区域产生一个甚至多个白 像素。为此对一般的小波零树模型进行修正,主要依据三条 原则:1)偏离汉字笔画边界较远的白空处不能隐藏数据,同 样偏离汉字笔画边界较远的笔画内部不能隐藏数据;2)要避 免在笔画的中问位置、在孤立的“点笔画”位置、在笔画特别 少的位置、在标点符号位置隐藏数据;3)数据的隐藏位置确 定为汉字笔画的边沿周围,即靠近黑白区域的边界上。这个 位置上数据的改变,可以看作是对汉字笔画的拓展,不易引起 人类视觉的注意,因为汉字笔画的起落笔具有“藕断丝连”的 意境。因此将数据主要隐藏在笔画的起始、转折、末尾部分是 可行的。以汉字串“鲁东大学”为例,适合隐藏信息的位置如 图3圆圈标注的部分所示。 巍露受 图3隐藏位置 构建小波零树的方法是:假设汉字的点阵为N×N,小波 分解的层数L由最接近Ⅳ的2 决定,不能分解到单像素的最 高层子带用小波系数块作为根节点。对于一个144×144的汉 字,其小波分解至第7层效果最佳。对于一棵以c 为根节点 的方向树 ( √),如果对于给定的门限 ,I 7., d < ,J就 认为整个方向树 (iJ)上的系数均小于门限,并设定该树 根节点值为0,将该树标志为零树。如果l c l≥ ,将分成四 (2)计算AR=A(0:(M一1),1:(Ⅳ一1))一A(0:( 一 1),0:(Ⅳ一2)); (3)计算A =A(0:( 一2),0:(N一1))一A(1:( 一 1),0:(N一1)); (4)计算A8=A(1:(M一1),0:(N一1))一A(0:( 一 2),0:(N一1)); (5)将A ,A ,A,,A 中值为一1的元素置为0,得到 , BR,BT,BB; (6)计算B皿=B£+ ,B他=B,+ ,值为2的元素代 表左右边界或上下边界像素;计算B=B + +曰,+ ,值 为3或4的元素代表左右边界或上下边界像素; (7)遍历前面得到的小波零树,边界像素对应子节点为 零的位置是数据“1”的隐藏点,子节点系数非零的位置作为 数据…0的隐藏点。 2算法实现 2.1 利用Logistic映射混沌水印信息 利用混沌序列调制水印信息,具有算法简单、不易破解和 初始条件敏感等优势。Logistic映射是一个随机过程,兼具非 周期、不收敛的特性。一维Logistic映射定义如下: +】=1一A :,A∈(0,2) 随着A的逐渐增大,序列迭代会出现多次突变。当A= 1.401 15时,序列进入混沌状态。 、 在某市的政府公文传输系统中,设定 。=0.49,A的取值 范围为(1.5,1.9),不同的收文单位指定不同的A值,以增强 混沌强度。假设某市的电子公文系统中有200个收文单位,则 需要生成200个A值作为各单位密钥,存于密钥字典中。在每 份电子公文中调制的水印信息为“发文单位,发文时间,收文 单位”。生成水印信息混沌序列步骤为: (1)生成当前“发文单位,发文时间,收文单位”字符序 列的二值图像水印向量W={W1, ,…, ,…, },P= 1,2,…,N× ; (2)查找各收文单位密钥字典表,确定‰和A的值,生成 长度为N×M的Logistic映射混沌序列X={X,, ,…, , …, Ⅳ},k=1,2,…,N× ; (3)利用异或运算生成水印密文空间 =W 0 X, = 1,2,…,N×M。 2.2水印嵌入和提取 结构太简单的汉字不适合隐藏信息,通过对GB2312字 库筛选,建立了一个包含6000个常用汉字的门限数据字典, 字典中根据不同汉字的“象形”特点确定了不同的门限系数, 以构造对应的小波零树。另外,还建立了部门密钥字典,针对 不同部门设定的A值,实现一个单位一把密钥。对于不同的 维普资讯 http://www.cqvip.com 6月 董相志等:一种大容量鲁棒性中文文本数字水印算法 231 公文,由于发文时间是一个变量,保证了水印信息对同一单位 的公文具有动态性。一个单位一把密钥,一文一变的原始水 印信息,实现了算法的高强度。 水印嵌入步骤是: 位置越多。对汉字隐藏门限字典统计的结果显示,平均每个 汉字的信息藏位为8.7个。所以,该算法较好地解决了大容 量水印信息嵌入问题。 各县市区人民政府(管委) 市政府各部门, 有关单位:  、为有效遏制侵犯商标权、著作权、专利 权等行为 增强全社会的知识产权保护意 识,营造发展高新技术产业的良好环境 统 筹协调全市知识产权保护工作,督办重大案 件 市政府决定成立烟台市保护知识产权工 作领导小组。现将领导小组成员名单公布如 (1)利用Logistic映射和当前水印信息生成混沌水印空 间 ; (2)扫描遍历原始文档的正文部分,根据第1小节中确 立的信息隐藏原则提取满足要求的汉字,生成汉字向量组Z; (3)扫描遍历向量组z求得每个汉字的全树 (iJ); (4)查找汉字门限字典,根据其对应的门限值构建小波 零树; (5)计算边界矩阵,运用 修正小波零树; (6)重复步骤(2)至(5),直到所有 信息被嵌入小波 零树群; (7)对小波零树群实施小波逆变换,构建含有水印信息 的新文档。 水印提取步骤是: (1)扫描遍历含水印信息文档,根据字典库提取隐藏信 息的汉字向量组z; (2)扫描遍历向量组z求得每个汉字的全树 (i√); (3)查找汉字门限字典,根据其对应的门限值构建小波 零树; (4)计算边界矩阵,遍历小波零树提取水印信息位; (5)重复步骤(2)至(4),从小波零树群析取水印向量 ; (6)查找部门密钥字典,确定A值,构建混沌序列 ; (7)计算 0 ,析取水印二值字符图像空间向量 ; (8)显示 。 3 实验结果 实践中采用PDF1.5的文件形式。主要基于以下理由: 1)在PDF文档中,所有的字符是作为图像来处理的;2)PDF 是事实上的全球电子文档技术标准;3)PDF支持多媒体数据 如文本、图像、音频、视频的单一文件集成。图4显示了原始 文档、嵌入水印文档和析取水印的结果。 为了验证本文算法的抗噪性,观察添加Gaussian噪声析 取水印的结果是:水印文档经JPEG有损压缩后质量变化不 大,因为PDF本身已经是基于JPEG的压缩格式。现有的一 些文本数字水印算法(基于字移、行移、字符特征等空域变 换)大多经不住几何变换攻击。本文算法对于几何平移具有 很强的鲁棒性,这是因为平移不改变小波零树群的编码顺序。 但文本图像在裁剪和旋转等强几何变换后,析取的水印可能 是残缺的或失去意义的。这是因为复杂的几何变换有可能置 乱小波零树群的顺序,水印的析取不再是嵌入的逆过程。即 使如此,小波零树群编码还是提供了较强的稳定性。 从实践看,本文算法对于去除攻击也有很好的鲁棒性。 假如由10个16×16点阵字块组成水印,其信息量为2560个 像素位,嵌入文档后可能分布在几百几千个字块的点阵中,很 难寻找并去除。即使去除部分隐藏信息,仍然可以根据残缺 的笔画特征推断出整个汉字。同时,借助于Logistic映射的混 沌能力,再加上系统中采用了动态值字典和一文一水印的方 法,本文算法还有较强的抗密码攻击能力。 从图3中不难看出,越是复杂的汉字可用于信息隐藏的 下: (a)原始文档 各县市区人民政府(管委),市政府各部门, 有关单位: 为有效遏制侵犯商标权 著作权、专利 权等行为,增强全社会的知识产权保护意 识,营造发展高新技术产业的良好环境 统 筹协调全市知识产权保护工作,督办重大案 件,市政府决定成立烟台市 护知识产权工 作领寻小组。现将领导小组成员名单公布如 下: (b)含有水印信息的文档 鲁丈 (c)析取的水印 图4原始水印、嵌入水印的文档及析取水印的结果 4 结语 汉字具有笔画多、结构复杂的特点,借助小波变换的多尺 度多分辨分析能力,可以在一些笔画的特定位置作局部改变 而不影响其视觉外观。这种以单个汉字为分析对象,以局部 像素的改变为水印特征的算法,同时具有大容量和鲁棒性的 特点。将这种算法应用到基于PDF格式的电子公文传输系 统中,通过水印提取,可以很容易识别出隐藏的发文单位、收 文单位、发文时间、签收时问等信息,实现了对一般公文的数 字版权保护和踪迹保全功能。 该算法不足之处是未能有效克服其他文本数字水印算法 普遍存在的抗几何变换能力差,抗传真、打印失真能力差的弱 点,其较好的鲁棒性仅局限于电子文档领域。算法的复杂性 主要集中在前期数据字典的分析建立和小波零树群的构建遍 历两个方面。 参考文献: 【1】HUANG D,YAN H.Interword Distance Changes Represented by Sine Waves for Watermarking Text Images[J1.IEEE Transactions on Circuits and Systems for Video Technology。2001。1 1(12):1237 —1245. 【21 LOW SH。MAXEMCHUK NF.Capacity of Text Marking Channel 【J1.IEEE Signal Processing Lettem,2000,7(12):345—347. 【31 PUHAN NB,HO ATS.Binary Document Image Watermarking for Secure Authentication Using Perceptual Modeling[AI.IEEE Inter- national Symposium on Singal Processing and Information Technolo— yg[C1.2005. [41 LOW SH,MAXEMCHUK NF,BRASSIL JT,et a1.Document markingand identiifcation using both line and word shitfing[AI. Infoeom 95[C1.April,1995. (下转第234页) 维普资讯 http://www.cqvip.com 计算机应用 2007血 P G ,G2,e,P, ,日},其中PD =aP,日是由M模拟的随机 综上, 解决离散对数问题的优势 一 和,的优势 ,近似 问答器。另外 也模拟签名问答器和确认/否认问答器。并且 相同。证毕。 配置F的身份标识输入为ID。 在学习阶段,,进行一系列的查询。当,对身份标识ID进 4 结语 行日查询时, 输出Q仍=H(ID)=bP。如果,对消息m 进 本文提出了一个新的基于身份的三次传递的不可否认签 行日查询,M返回h =H(m )=I)iP,其中 ∈RZq是M随机 名方案。方案的确认协议和否认协议都是三次传递的,因而 选取。如果,对消息m 进行签名查询, 返回or =e(ViP。 , 具有较高的效率。方案在random oracle模型下证明是安全 Q∞)作为有效的签名。我们假设,对一个消息进行签名查询 的,其不可伪造性在BDH假设下是安全的;不可分辨性在 之前已经进行过日查询。另外,,也可以对任意的消息一签名 DBDH假设下是安全的;不可扮演性在CDH假设下是安全 对查询 模拟的确认/否认问答器。 的。 学习阶段结束,,输出一个元组(m‘,or‘, )。 参考文献: 然后,进入扮演阶段。 【1】HAN S,YEUNG KY,WANG J.Identity based conflrmer signatures 如果 =1,,和 一同执行确认协议,,作为证实人; 作 from paiirngs over elliptic curves【A】.proceedings of ACM confer- 为验证人,并输入(m‘,or‘)。第一次传递, 获得,的承诺信 ence on Electronic commerce【C】.New York:ACM Press,2003. 息(z。,z2, , );第二次传递, 发送挑战值c∈ Z。;第三 262—263. 次传递 获得,白勺返回信息(c c。 ,d。,D。)。然后 重新设 【2】 ZHANG F,SAFAVI-NAINI R,SUSILO W,et .ID—based Con- 置,为第一次传递之后的状态,并继续第二次执行确认协议, ifrmer(Undeniable)Singature at ACM-EC'03[J/OL】.http:∥ 发送不同于c的挑战值c’e Z。,并重新运行,得到返回信 eprint.iacr.org/2003/129/,2003. 息(c2。,c笠, , )。 【3】LIBRET B,QUISQUATER J.Identiyt based undenibale singatures 从第一次执行的确认协议, 获得如下关系: 【A】.Topics in Cryptology-CT-RSA'04【C】.Berlin:Springer-Ver- lag,2004.112—125. e(P,D )=Z (PD ,Q册) (1) [4】 林群,李进,王燕鸣.基于身份的指定确认者签名[J】.计算机应 从第二次执行的确认协议, 获得如下关系: 用研究,2005,22(10):99—100. e(P,D2)=Z。e(PD ,Q册) 。 (2) 【5】 KUROSAWA K,HENG S.3-Move undenibale singature scheme (1)/(2)得: 【A】.Advances in Cryptology--EUROCRYPT 2005【C】.Berlin: 一D2 Springer-Veriag,2005.181—197. 一c21 )=e( ,Q,D)=O(aP,be) (3) 【6】BONEH D,FRANKLIN M.Identiyt based encryption from the Weft 可以从(3)中得到口bP: ,从而解决了CDH1'oq paiirng【A】.Advances in Cryptology—Crypto'01【C】.Berlin:Spring- c“一c2 er-Verlag,2001.213-229. 题。 【7】 FEIGE U,SHAMIR A.Witness indistinguishable and witness hid- 如果 =0,,和 一同执行否认协议,同样可以得到 ing protocols【A】.ACM Symposium on Theory of Computing— abP(过程略)。 STOC'90【C】.New York:ACM PI s,1990.416—426. (上接第231页) [12】PARK JH,JEONG SE,HUH Y.A New Digital Watermarking for 【5】 BRASSlL JT,LOW SH,MAXEMCHUK NF,et a1.Electronic Text Document Images Using Diagonal Profile【A】.PCM 2001, Marking and ]dentiifcation Techniques to Discourage Document LNCS 2195【C】.2001.748-755. Copying【J】.IEEE Journal on Selceted Areas in Communications, 【13】PARK JH,JEONG SE,KIM CS.Robust and Fragile Watermark- 1995,13(8):1495—1504. ing Techniuqes for Documents Using Bi-directional Diagonal Pro- 【6】 MAXEMCHUK NF,LOW SH.Marking Text Documents【A】.Pro- ifles【A】.ICICS 2001,LNCS 2229【C】.2001.483—494. ceedings of the IEEE International Conference on Image Prcoessing 【14】SUN XM,CHEN HW,12 CY,et a/.Deeper Chinese Information 【C】.WasMngton,DC,1997.13一l6. Processing of Open Software and its Application in Chinese Docu- 【7】 MAXEMCHUK NF,LOW SH.Performance Comparison of Two Text ment Watermarking【A】.Proceedings of the Second International Marking Methods【J】.IEEE Journal of Selectde Areas in Communi— Conference on Machine Learning and Cybernetics【C】.Xi’an: cations(JSAc),1998,16(4):561—572. IEEE,2003.442—446. 【8】 BRASs1L JT,LOW SH,MAXEMCHUK NF.Copy ̄【gIlt Protcetion 【15】KIM Y-W,OHI—S.Watermarkingtext documentimages using for the Elcetronic Distribution of Text Documents【J].Prcoeedings of edge direction ihstograms【J】.Pattern Recognition Letters,2004,25 the IEEE,1999,87(7):1181—1196. (11):1243—1251. 【9】 BRASSIL JT,0’GORMAN L.Watermarking document images with 【16】HU SY.Document Image Watermarking Based on Weisht-Invarinat bounding box expansion【A】.Prco.1 st Int'l Workshop on Informa- Partition Using Support Vector Machine【A】.DAS 2004,LNCS tion Hiding【C】.Newton Instiutte,Cambridge,UK,1996.227— 3163【C】.2004.546—554. 235. [171 MICIC A,RADENK0VIC D,NIKOLIC S.Autentiifcation of Text 【10】LOW SH,MAXEMCHUK NF,LAPONE AM.Document Identiif— Documents Using Diigtla Watermarking【A】.TELSIKS 2005 Serbia cation for Cop ̄ig}1t Protcetion Using Cenla'oid Detcetion【J】.IEEE nad Montenegro【C】.Nis,2005. Transactions on Communications,1998,46(3):372—381. 【18】 刘东,周明天.一种文本数字水印系统解决方案【J】.计算机应 【111 AMANO T,MISAKI D.A Feature Calibmtion Method for Water— 用,2oo6,26(1):84—86. marking of Document Images【A】.Proc.5th Int.Conf.Document 【19】 黄华,齐春,李俊,等.文本数字水印【J】.中文信息学报,2001, Analysis and Recognition【C】.1999.91—94. 15(5). 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top