无失真的中文文本水印技术研究句子的长度特征句子的长度也是句子的一个重要特征这个

句子大全 2020-09-04 13:07:01

相关推荐

无失真的中文文本水印技术研究句子的长度特征句子的长度也是句子的一个重要特征这个长度可以是字符的长度、字的个数或者词的个数。通常我们对句子的理解都是以词为单位的所以本文从词级别出发。首先采用分词系统分词得到词语集合为了提高算法的鲁棒性本章过滤掉句子中的停用词将剩下的有意义的实词的个数作为句子的长度特征。句子权重的计算上述提取的三个句子特征需要进行有机的结合常见的方法有机器学习、线性加权等方法。本章采用较为简单的线性加权的方式将三者结合。在使用权值公式计算之前有必要将三个特征的特征值进行归一化。本章采用极值归一化方法。其计算公式如下所示其中誓。一分别表示第个原始数据的最小值与最大值。采用权重公式计算句子的总的权重公式如下所示其中为每一个特征的权重参数并且。对于文本来说句子之间的百语义相关度特征反映了文本内容的全局整体信息而从句子中提取的特征则反映了文本内容的局部细节信息。因此句子相关度特征权值应该较大而句子信息熵特征的权值及句子长度特征权值相对较小。在实验中将句子相关度特征权值设置为句子信息熵特征分量的权值设置为句子长度特征设置为水印信息的构造文本零水印的核心思想就是希望找出文本重要的特征作为文本的水印信息。它的一个重要的性能就是鲁棒性在文本中最难改变的就是文本的语义信息。所以从句子层面出发结合句子的多特征找出句子中语义信息较强、与全文相关性较大实词个数相对较多的句子在获取重要句子以后我们并不需要将句子集合作为水印信息而是选取句子的重要信息作为水印信息。在文本挖掘领域研究中有学者提出在所有词性中名词和动词是语义信息相对强并且比较稳定的陆。因为名词是实体的一种描述并且在句子中主语和宾语通常是名词谓语动词通常是动词在一个句子中主谓宾又是相对比较稳定的成分。所以在获取重要句子集合以后我们通过标注获取句子集合的名词和动词作为水印信息为了能够抵抗同义词攻击通过语义消歧获取词语的第一个语义代表作为水印信息这样即使遭受了同义词攻击本章所提算法仍能够抵抗。水印的构造流程如图所示。硕士学位论文水印构造算法如下原始文本丁密钥注册码对文本进行预处理包括将句子分旬得到并采用哈工大的语义消歧词性标注模块将所有句子中的此进行语义标注以及词性标注采用中的相对熵方法计算每一个句子的信息熵其中五为每一个语义的频率为除去语义标注为“一 ”的语义的个数采用相关度计算公式得出每个句子与全文其它句子的相关度并且采用的方法统计句子长度得到句子的长度特征将所得的三个特征值用公式进行归一化运用句子的权值计算公式得出句子的权重重复处理完文本中的所有句子选出高权重的句子并获取这些句子的名词以及动词的语义代表将所得的词语作为文本的水印信息将得到的水印信息通过进行混沌加密将经过加密后的最终水印信息在认证中心进行注册水印构造流程文本水印的检测当发生版权纠纷时需要对待测文本进行水印检测将检测到的水印与原来注册的水印进行相似度比较来确定版权的归属。水印检测的基本流程如图所示。其算法主要分为两部分第一部分同水印的提取算法的步骤相同即水印信息的生成第二部分就是将争议的文本提取出来的水印信息与之前注册的水印信息进行相似度比较。若计算所得的相似度无失真的中文文本水印技术研究在阈值范围内则认为这两个文本来源一致否则说明两个文本来源不一样。图水印检测流程汉字字符串相似度计算字符串与数值型变量是不同的数值型变量可以通过数值的大小来比较的字符串是由一组含义不相同的字符组成所以在计算字符串的相似度的时候需要采用一些特定的方法。常用的数据分析类型有区间标度遍历、二元变量、标称型变量、序数型变量、比例标度型变量、混合类型变量等。综合考虑本文采用文献中所采用的汉字字符串相似度计算方法。该方法的表达式为其中为相似度为字符串和字符串中相同单词的个数是在字符串但不在字符串中的词的个数是在字符串但是不在字符串中的词的个数。个变量的权重参数。本文实验中设置为。分别设置为水印的检测算法待测文本丁’ 注册码密钥版权的确定对文本进行预处理包括将句子分句得到并采用哈工大的语义消歧词性标注模块将所有句子中的此进行语义标注以及词性标注采用中的相对熵方法计算待检测文本的句子信息熵其中‘为每一个语义的频率为除去语义标注为“一语义的个数采用相关度计算公式得出每个句子与全文其它句子的相关度并且采用的方法统计句子长度得到句子的长度特征将所得的三个特征值用公式进行归一化运用句子的权值计算公式得出句子的权重硕士学位论文重复处理完文本中的所有句子选出高权重的句子并获取这些句子的名词以及动词的语义代表将所得的词语作为文本的水印信息将得到的水印信息 ’通过进行混沌加密。采用所提出的字符串相似度计算公式将字符序列 ’进行相似度比较从而进行版权的确定实验结果及分析为了验证所提出的算法的有效性进行了相关实验实验中采用的样本是从互联网上的。在实验中相关阈值确定句子选取阈值确定采用本章第三节提出的特征选择算法得到句子信息熵、句子相关度、句子的长度这三个特征通过归一化处理后三个特征值都会在这个区间采用公式计算句子的权重后所得句子的权重也在区间但是每个文本的句子权重的分布会存在较大的差异为了使其在区间内的分布相对较均匀将其权重进行了一些处理将每个句子的权重与所有句子的权重最大值相比得到新的值作为该句子权重的最终值。本文通过实验来确定句子权重阈值的选取通常文本中重要的句子不会很多本文的实验阈值从开始依次递增至实验结果如图所示图中横坐标是阈值的选取纵坐标是攻击后的水印相似度。图不同阈值下水印的相似度由上图的曲线可以看出在不同的攻击下句子的权重阈值的选取对水印相似度有一定的影响尤其是对于剪切攻击在阈值取的时候水印的相似度值较大从而本章算法将句子的权值的阈值选取为。无失真的中文文本水印技术研究相似度阂值确定为了验证算法的有效性通过随机选取份测试文本用本章提出的零水印算法进行水印的相似度测试结果如图所示。图不同文本司的水印相似度通过图可以看出不同文本的水印相似度最大没有超过为了尽可能降低误检率我们将文本水印相似度的阈值选取为如果相似度大于即认为这两个文本来源一致否则认为两个文本是不一样的。鲁棒性实验随机抽取篇测试文本对其进行不同比例的同义词替换、句式变换和增删攻击然后从攻击后得到的文本中提取出水印与原始的没有进行修改的文本提取出来的水印进行相似度计算通过计算平均值得到的结果如图所示。每篇文本的内容都分别进行了的不同程度的修改由实验结果可以看出本章提出的算法具有较强的鲁棒性。图不同攻击比例下的水印相似度硕士学位论文对比实验句式变换攻击为了验证本章算法的有效性将该算法与文献中提出的算法进行比较。首先是将文本进行句式变换攻击主要包括主动句被动句变换、状语的前置等常见的句式变换。实验所得的结果如下图所示。图旬式变换攻击对比图由实验结果可以看出本章提出的算法在抗句式变换攻击的能力高于文献提出的算法。本算法是结合了句子的多个特征信息熵是一个对称的函数句子的语序改变不会改变句子信息熵值而句子的相关度特征只与句子中包含的语义有关。所以本章提出的算法具有较强的抗旬式变换攻击的能力。同义词替换攻击在自然语言处理技术基础上进行同义词攻击时非常常见的一种攻击方法本章采用实验室整理的一个较好的同义词词库对文本进行同义词替换攻击同时与文献中的算法进行比较结果如下图所示。图同义词攻击对比图无失真的中文文本水印技术研究实验结果表明同义词替换攻击对文本的水印信息的提取影响较小进行同义词替换后整个文本的语义编码的概率分布基本没有改变同时对文本中的句子的相关度的影响也不会很大对于句子的长度特征而言本文是获取的有用词汇的个数综合分析句子的这三个特征基本没有太大的改变。而对于最后构成的水印信息而言本文是获取句子中语义相对比较强的名词和动词这些词汇一般不容易被修改即使被修改本章提出的算法也得到了一定的保证最后是获取名词和动词的语义代表来表征提取出来的词汇所以本章提出的算法抗同义词攻击能力较强。增删攻击敌手在通常情况下会对文本进行一些增加和删除操作以达到破坏水印信息的目的所以本章也进行了一些增删攻击来验证算法的有效性并进行了对比试验。增删攻击对比实验结果如下图所示。图增删攻击对比图对于增删攻击而言本章采取的是随机增加或者删除句子的攻击方法本章提出的水印算法抗此类攻击的能力相对比较弱但是与文献中的算法基本相当在攻击比例大于的时候有些优势而比文献中的算法要好。本章提取的算法是通过句子的语义特征结合然后选取重要的句子中的关键信息构建水印对句子的随机增删会影响水印信息但是有时候影响并不是很明显。上述这几种算法抗随机增删攻击的能力都不是很理想所以这也是今后需要研究的一个内容。本章小结针对现有的文本零水印方法主要停留在词汇表层没有深入到词汇的深层次本章从句子层面着手将文本看成是句子的集合利用自然语言处理技术并根据文本自身特点在重要的句子中获取重要的词汇构建水印将句子的语义信息硕士学位论文熵、句子的相关度、句子长度这三个特征结合利用线性权重公式得到所有句子的权重然后通过获取高权重句子中语义信息较强的动词和名词构建水印信息通过实验验证了算法的有效性并且与已有文本零水印算法进行了对比。无失真的中文文本水印技术研究结论随着计算机和互联网技术的飞速发展信息的传播变得更加迅速、存储也变得更为方便人们获取信息变得更加容易从而引发了一系列的信息安全问题。数字水印技术在版权保护、数字产品完整性验证以及来源跟踪等领域得到了很好的应用。数字水印技术在图像、视频、音频等载体中的研究比较成熟但是文本含有的冗余空间较小使得文本水印技术的研究相对滞后。传统的嵌入型文本数字水印技术大都是通过修改载体文本的格式信息或者文本内容以实现信息的嵌入不可避免地会对文本进行修改并且现有的文本数字水印方法存在鲁棒性不强容量较小等问题。本文工作总结提出了一种基于编码映射的中文文本水印方法。该方法通过将文本进行分词得到所有词汇采用同义词词林将分词所得的词汇分成若干语义集合并且统计每个语义集合的频数采用编码将水印信息映射到高频的语义集合并且获得高频集合在词林中的位置作为权重在进行映射的同时需要记录行号信息作为最后的注册码版权认证时需要将待检测文本进行语义分类进行编码映射通过第三方提供的注册码即可提取出水印信息。为了提高算法的安全性本文先将水印信息采用混沌加密算法进行加密提取水印后再进行解密。实验验证了该算法的有效性。提出了一种基于句子多特征融合的中文文本零水印方法。立足于文本的语义从全文的角度出发该方法通过提取句子信息熵句子相关度句子长度三个特征并利用线性权重公式计算所有句子权重选取阈值范围内的重要句子中的名词和动词构建水印信息最后采用混沌加密方法将所得的水印信息进行加密。该方法不仅仅从词汇或者句子出发而是结合句子和词汇并通过实验验证了算法具有更强的鲁棒性。编程实现了一个无失真的中文文本水印系统该系统将上述的两种水印方法融合到了一个实验系统上。在开发工具下采用和标准模板库以及自然语言处理技术实现了文章中提出的两种算法。下一步工作展望本文针对中文文本水印技术进行的研究在一定程度上可以为相关理论研究提供一些可借鉴的参考依据但是所提出的技术和方法还不成熟还不足以满足实际的需求。未来还有很多工作要做主要有以下几个方面本文提出的基于编码映射的中文文本水印方法主要是在哈工大改编的同硕士学位论文义词词林的基础上进行的同义词词林越完善包含的词越齐全可以结合知网构建一个更大的同义词词库当水印信息较长的时候生成的注册码的空间比较大这样不便于第三方的存储所以可以采用压缩编码方法以降低存储空间。本文提出的基于句子多特征融合的中文文本零水印方法中可以考虑更多的特征进行句子的选取同时在计算句子的相关度的时候计算复杂度较大需要寻找一种简单有效的计算句子相关度的方法。在获取重要句子后对于句子的重要成分不能仅仅从词性角度出发应该结合句子的深层语义和句法分析来确定句子的重要成分。采用一种更好的方式来获取句子的重要成分也是今后的研究重点。在数字水印中存在一个检测的过程现有的检测算法一般都需要一个可信任的第三方权威机构的参与这样就不可避免会造成信息泄露使得攻击者通过泄露的信息进行修改、伪造甚至将水印信息移去。因此未来的工作重点在于研究一种安全的检测协议在实现水印检测的过程中不存在信息的交互任何人都可以作为水印信息存在的检测人员而不再需要可信任的权威机构。针对纯文本的中文文本水印技术依赖于中文自然语言处理技术的发展分词、词性标注、句法分析以及语义分析的准确率在很大程度上影响文本水印算法的性能。因此在以后的研究中应该多关注中文自然语言处理技术的研究进展充分利用该领域的研究成果进行中文文本水印技术的研究从而推动中文文本水印技术的发展。

无失真的中文文本水印技术研究句子的长度特征句子的长度也是句子的一个重要特征这个长度可以是字符的长度字的个数或者词的个数。通常我们对句子的理解都是以词为单位的所以本文从词级别出发。首先采用分词系统分词得到词语集合为了提高算法的鲁棒性本章过滤掉句子中的停用词将剩下的有意义的实词的个数作为句

阅读剩余内容

句子长度特征无失中文

无失真的中文文本水印技术研究句子的长度特征句子的长度也是句子的一个重要特征这个

NLP中的文本分析和特征工程

如何对非结构化文本数据进行特征工程操作？这里有妙招！

如何对非结构化文本数据进行特征工程操作？这里有妙招！

转：SnowNLP中文文本分析器基本用法

全面解读用于文本特征提取的神经网络技术：从神经概率语言模型到GloVe

有一个好妈妈真的很重要