句子大全

句子大全 > 句子大全

无失真的中文文本水印技术研究句子的长度特征句子的长度也是句子的一个重要特征 这个

句子大全 2020-09-04 13:07:01
相关推荐

无失真的中文文本水印技术研究句子的长度特征句子的长度也是句子的一个重要特征 这个长度可以是字符的长度、字的个数或者词的个数。通常我们对句子的理解都是以词为单位的 所以本文从词级别出发。首先采用分词系统分词 得到词语集合 为了提高算法的鲁棒性 本章过滤掉句子中的停用词 将剩下的有意义的实词的个数作为句子的长度特征。 句子权重的计算上述提取的三个句子特征需要进行有机的结合 常见的方法有机器学习、线性加权等方法。本章采用较为简单的线性加权的方式将三者结合。在使用权值公式计算之前 有必要将三个特征的特征值进行归一化。本章采用极值归一化方法。其计算公式如下所示 其中誓。一分别表示第 个原始数据的最小值与最大值。采用权重公式计算句子的总的权重 公式如下所示 其中为每一个特征的权重参数 并且 。对于文本来说 句子之间的百语义相关度特征反映了文本内容的全局整体信息 而从句子中提取的特征则反映了文本内容的局部细节信息。因此 句子相关度特征权值应该较大 而句子信息熵特征的权值及句子长度特征权值相对较小。在实验中将句子相关度特征权值设置为 句子信息熵特征分量的权值设置为 句子长度特征设置为 水印信息的构造文本零水印的核心思想就是希望找出文本重要的特征作为文本的水印信息。它的一个重要的性能就是鲁棒性在文本中最难改变的就是文本的语义信息。所以从句子层面出发 结合句子的多特征找出句子中语义信息较强、与全文相关性较大 实词个数相对较多的句子 在获取重要句子以后 我们并不需要将句子集合作为水印信息 而是选取句子的重要信息作为水印信息。在文本挖掘领域研究中 有学者提出在所有词性中 名词和动词是语义信息相对强并且比较稳定的陆 。因为名词是实体的一种描述 并且在句子中主语和宾语通常是名词 谓语动词通常是动词 在一个句子中主谓宾又是相对比较稳定的成分。所以在获取重要句子集合以后我们通过标注获取句子集合的名词和动词作为水印信息 为了能够抵抗同义词攻击 通过语义消歧获取词语的第一个语义代表作为水印信息 这样即使遭受了同义词攻击 本章所提算法仍能够抵抗。水印的构造流程如图 所示。硕士学位论文水印构造算法如下 原始文本丁 密钥 注册码 对文本进行预处理 包括将句子分旬得到 并采用哈工大的语义消歧词性标注模块将所有句子中的此进行语义标注以及词性标注 采用 中的相对熵方法计算每一个句子的信息熵 其中五为每一个语义的频率为除去语义标注为“一 ”的语义的个数 采用相关度计算公式 得出每个句子与全文其它句子的相关度 并且采用 的方法统计句子长度得到句子的长度特征 将所得的三个特征值用公式 进行归一化 运用句子的权值计算公式 得出句子的权重 重复 处理完文本中的所有句子 选出高权重的句子并获取这些句子的名词以及动词的语义代表 将所得的词语作为文本的水印信息 将得到的水印信息 通过 进行混沌加密 将经过加密后的最终水印信息在认证中心 进行注册 水印构造流程文本水印的检测当发生版权纠纷时 需要对待测文本进行水印检测 将检测到的水印与原来注册的水印进行相似度比较来确定版权的归属。水印检测的基本流程如图 所示。其算法主要分为两部分 第一部分同水印的提取算法的步骤 相同即水印信息的生成 第二部分就是将争议的文本提取出来的水印信息与之前注册的水印信息进行相似度比较。若计算所得的相似度无失真的中文文本水印技术研究在阈值范围内 则认为这两个文本来源一致 否则说明两个文本来源不一样。图 水印检测流程 汉字字符串相似度计算字符串与数值型变量是不同的 数值型变量可以通过数值的大小来比较的 字符串是由一组含义不相同的字符组成 所以在计算字符串的相似度的时候需要采用一些特定的方法。常用的数据分析类型有 区间标度遍历、二元变量、标称型变量、序数型变量、比例标度型变量、混合类型变量等。综合考虑 本文采用文献 中所采用的汉字字符串相似度计算方法。该方法的表达式为 其中为相似度 为字符串 和字符串 中相同单词的个数 是在字符串 但不在字符串中的词的个数 是在字符串 但是不在字符串中的词的个数。 个变量的权重参数。本文实验中设置为 。分别设置为 水印的检测算法待测文本丁’ 注册码 密钥 版权的确定 对文本进行预处理 包括将句子分句得到 并采用哈工大的语义消歧词性标注模块将所有句子中的此进行语义标注以及词性标注 采用 中的相对熵方法计算待检测文本的句子信息熵 其中‘为每一个语义的频率为除去语义标注为“一 语义的个数采用相关度计算公式 得出每个句子与全文其它句子的相关度 并且采用 的方法统计句子长度得到句子的长度特征 将所得的三个特征值用公式 进行归一化 运用句子的权值计算公式 得出句子的权重 硕士学位论文 重复 处理完文本中的所有句子 选出高权重的句子并获取这些句子的名词以及动词的语义代表 将所得的词语作为文本的水印信息 将得到的水印信息 ’通过 进行混沌加密。 采用 所提出的字符串相似度计算公式 将字符序列 ’进行相似度比较从而进行版权的确定 实验结果及分析为了验证所提出的算法的有效性 进行了相关实验 实验中采用的样本是从互联网上的。在实验中 相关阈值确定句子选取阈值确定采用本章第三节提出的特征选择算法 得到句子信息熵、句子相关度、句子的长度这三个特征 通过归一化处理后三个特征值都会在 这个区间 采用 公式计算句子的权重后 所得句子的权重也在区间 但是每个文本的句子权重的分布会存在较大的差异为了使其在区间内的分布相对较均匀 将其权重进行了一些处理 将每个句子的权重与所有句子的权重最大值相比 得到新的值作为该句子权重的最终值。本文通过实验来确定句子权重阈值的选取 通常文本中重要的句子不会很多 本文的实验阈值从 开始 依次递增至 实验结果如图 所示 图中横坐标是阈值的选取 纵坐标是攻击后的水印相似度。图 不同阈值下水印的相似度由上图的曲线可以看出 在不同的攻击下 句子的权重阈值的选取对水印相似度有一定的影响 尤其是对于剪切攻击 在阈值取 的时候水印的相似度值较大 从而本章算法将句子的权值的阈值选取为 。无失真的中文文本水印技术研究 相似度阂值确定为了验证算法的有效性 通过随机选取 份测试文本 用本章提出的零水印算法进行水印的相似度测试 结果如图 所示。图 不同文本 司的水印相似度通过图 可以看出 不同文本的水印相似度最大没有超过 为了尽可能降低误检率 我们将文本水印相似度的阈值选取为 如果相似度大于 即认为这两个文本来源一致 否则认为两个文本是不一样的。 鲁棒性实验随机抽取 篇测试文本 对其进行不同比例的同义词替换、句式变换和增删攻击 然后从攻击后得到的文本中提取出水印与原始的没有进行修改的文本提取出来的水印进行相似度计算 通过计算平均值得到的结果如图 所示。每篇文本的内容都分别进行了 的不同程度的修改由实验结果可以看出 本章提出的算法具有较强的鲁棒性。图 不同攻击比例下的水印相似度硕士学位论文 对比实验 句式变换攻击为了验证本章算法的有效性 将该算法与文献 中提出的算法进行比较。首先是将文本进行句式变换攻击 主要包括主动句被动句变换、状语的前置等常见的句式变换。实验所得的结果如下图 所示。图 旬式变换攻击对比图由实验结果可以看出 本章提出的算法在抗句式变换攻击的能力高于文献 提出的算法。本算法是结合了句子的多个特征信息熵是一个对称的函数 句子的语序改变不会改变句子信息熵值 而句子的相关度特征只与句子中包含的语义有关。所以本章提出的算法具有较强的抗旬式变换攻击的能力。 同义词替换攻击在自然语言处理技术基础上进行同义词攻击时非常常见的一种攻击方法 本章采用实验室整理的一个较好的同义词词库对文本进行同义词替换攻击 同时与文献 中的算法进行比较结果如下图 所示。图 同义词攻击对比图无失真的中文文本水印技术研究实验结果表明同义词替换攻击对文本的水印信息的提取影响较小 进行同义词替换后 整个文本的语义编码的概率分布基本没有改变 同时对文本中的句子的相关度的影响也不会很大 对于句子的长度特征而言 本文是获取的有用词汇的个数 综合分析句子的这三个特征基本没有太大的改变。而对于最后构成的水印信息而言 本文是获取句子中语义相对比较强的名词和动词 这些词汇一般不容易被修改 即使被修改本章提出的算法也得到了一定的保证 最后是获取名词和动词的语义代表来表征提取出来的词汇 所以本章提出的算法抗同义词攻击能力较强。 增删攻击敌手在通常情况下会对文本进行一些增加和删除操作以达到破坏水印信息的目的 所以本章也进行了一些增删攻击来验证算法的有效性并进行了对比试验。增删攻击对比实验结果如下图 所示。图 增删攻击对比图对于增删攻击而言 本章采取的是随机增加或者删除句子的攻击方法 本章提出的水印算法抗此类攻击的能力相对比较弱 但是与文献 中的算法基本相当 在攻击比例大于 的时候有些优势 而比文献 中的算法要好。本章提取的算法是通过句子的语义特征结合 然后选取重要的句子中的关键信息构建水印 对句子的随机增删会影响水印信息 但是有时候影响并不是很明显。上述这几种算法抗随机增删攻击的能力都不是很理想 所以这也是今后需要研究的一个内容。 本章小结针对现有的文本零水印方法主要停留在词汇表层 没有深入到词汇的深层次 本章从句子层面着手 将文本看成是句子的集合 利用自然语言处理技术 并根据文本自身特点 在重要的句子中获取重要的词汇构建水印 将句子的语义信息硕士学位论文熵、句子的相关度、句子长度这三个特征结合 利用线性权重公式得到所有句子的权重 然后通过获取高权重句子中语义信息较强的动词和名词构建水印信息 通过实验验证了算法的有效性 并且与已有文本零水印算法进行了对比。无失真的中文文本水印技术研究结论随着计算机和互联网技术的飞速发展 信息的传播变得更加迅速、存储也变得更为方便 人们获取信息变得更加容易 从而引发了一系列的信息安全问题。数字水印技术在版权保护、数字产品完整性验证以及来源跟踪等领域得到了很好的应用。数字水印技术在图像、视频、音频等载体中的研究比较成熟 但是文本含有的冗余空间较小 使得文本水印技术的研究相对滞后。传统的嵌入型文本数字水印技术大都是通过修改载体文本的格式信息或者文本内容以实现信息的嵌入 不可避免地会对文本进行修改 并且现有的文本数字水印方法存在鲁棒性不强 容量较小等问题。 本文工作总结 提出了一种基于编码映射的中文文本水印方法。该方法通过将文本进行分词得到所有词汇 采用同义词词林将分词所得的词汇分成若干语义集合 并且统计每个语义集合的频数 采用 编码将水印信息映射到高频的语义集合 并且获得高频集合在词林中的位置作为权重 在进行映射的同时需要记录行号信息作为最后的注册码 版权认证时 需要将待检测文本进行语义分类 进行编码映射 通过第三方提供的注册码即可提取出水印信息。为了提高算法的安全性 本文先将水印信息采用混沌加密算法进行加密 提取水印后再进行解密。实验验证了该算法的有效性。 提出了一种基于句子多特征融合的中文文本零水印方法。立足于文本的语义 从全文的角度出发 该方法通过提取句子信息熵 句子相关度 句子长度三个特征 并利用线性权重公式计算所有句子权重 选取阈值范围内的重要句子中的名词和动词构建水印信息 最后采用混沌加密方法将所得的水印信息进行加密。该方法不仅仅从词汇或者句子出发 而是结合句子和词汇 并通过实验验证了算法具有更强的鲁棒性。 编程实现了一个无失真的中文文本水印系统 该系统将上述的两种水印方法融合到了一个实验系统上。在 开发工具下 采用 和标准模板库以及自然语言处理技术实现了文章中提出的两种算法。 下一步工作展望本文针对中文文本水印技术进行的研究 在一定程度上可以为相关理论研究提供一些可借鉴的参考依据 但是所提出的技术和方法还不成熟 还不足以满足实际的需求。未来还有很多工作要做 主要有以下几个方面 本文提出的基于编码映射的中文文本水印方法主要是在哈工大改编的同硕士学位论文义词词林的基础上进行的 同义词词林越完善包含的词越齐全 可以结合知网构建一个更大的同义词词库 当水印信息较长的时候 生成的注册码的空间比较大 这样不便于第三方的存储 所以可以采用压缩编码方法以降低存储空间。 本文提出的基于句子多特征融合的中文文本零水印方法中可以考虑更多的特征进行句子的选取 同时在计算句子的相关度的时候计算复杂度较大 需要寻找一种简单有效的计算句子相关度的方法。在获取重要句子后 对于句子的重要成分不能仅仅从词性角度出发 应该结合句子的深层语义和句法分析来确定句子的重要成分。采用一种更好的方式来获取句子的重要成分也是今后的研究重点。 在数字水印中存在一个检测的过程 现有的检测算法一般都需要一个可信任的第三方权威机构的参与 这样就不可避免会造成信息泄露 使得攻击者通过泄露的信息进行修改、伪造甚至将水印信息移去。因此未来的工作重点在于研究一种安全的检测协议 在实现水印检测的过程中不存在信息的交互 任何人都可以作为水印信息存在的检测人员而不再需要可信任的权威机构。 针对纯文本的中文文本水印技术依赖于中文自然语言处理技术的发展 分词、词性标注、句法分析以及语义分析的准确率在很大程度上影响文本水印算法的性能。因此 在以后的研究中 应该多关注中文自然语言处理技术的研究进展 充分利用该领域的研究成果进行中文文本水印技术的研究 从而推动中文文本水印技术的发展。

无失真的中文文本水印技术研究句子的长度特征句子的长度也是句子的一个重要特征 这个长度可以是字符的长度 字的个数或者词的个数。通常我们对句子的理解都是以词为单位的 所以本文从词级别出发。首先采用分词系统分词 得到词语集合 为了提高算法的鲁棒性 本章过滤掉句子中的停用词 将剩下的有意义的实词的个数作为句

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新