句子大全

句子大全 > 句子大全

Stanford Parser中文句法分析器的使用

句子大全 2020-06-29 11:49:01
相关推荐

句子

2 ??词性标注 和 生成 依存关系

3 ??图形工具界面

三、句法分析树标注集

一、使用时注意两点:

1。 中文内存大小设置:在运行 运行配置 自变量 vm参数中 加入: Xmx1024m

2。 Tokenize指的是是否分词。一定选Tokenized并且文件是utf 8格式,并以空格分隔每个词。

??

二、stanford parser 命令行使用

Stanford Parser

Stanford parser基本上是一个词汇化的概率上下文无关语法分析器,同时也使用了依存分析。根据不同的语法观点可以输出不同的的分析结果。所以,可以认为是一个使用混合分析方法的剖析器。

需要用到的jar包:

stanford parser.jar

stanford parser 3.5.2 models.jar

stanford posttagger 3.5.2.jar

1 ?? ?? ?? ?? 处理一个中文的句子

例如:一些盗版制品经营者为了应付和躲避打击,经营手法更为隐蔽。

首先, 使用Chinese segment ??进行词语的切分。

调用的命令:

G:chinesesegmenter segment.bat pk input.txt gb18030 out.txt

其中 pk 是词典 还有一个词典是ctb (没有比较过两个词典的优劣)

input.txt 是输入文件.里面包含该句子

gb18030 是文件编码 还支持GB utf 8

out.txt 是输出的文件

结果:一些 盗版 制品 经营者 为了 应付 和 躲避 打击 , 经营 手法 更为 隐蔽 。

2 ?? ?? ?? ?? 词性标注 和 生成 依存关系

这里为方便生成一个批处理文件:lexparserCh.bat

文件内容:

@echo off

:: Runs the Chinese PCFG parser on one or more files, printing trees only

:: usage: lexparser fileToparse

java server mx800m cp "stanford parser.jar;" edu.stanford.nlp.parser.lexparser.LexicalizedParser outputFormat "penn,typedDependenciesCollapsed" chineseFactored.ser.gz %1

调用的命令:

G:stanfordparser lexparserCh.bat input.txt outputch.txt

Loading parser from serialized file chineseFactored.ser.gz ... done [30.2 sec].

Parsing file: input.txt with 1 sentences.

Parsing [sent. 1 len. 15]: 一些 盗版 制品 经营者 为了 应付 和 躲避 打击 , 经营

手法 更为 隐蔽 。

Parsed file: input.txt [1 sentences].

Parsed 15 words in 1 sentences 3.35 wds/sec; 0.22 sents/sec.

其中,chineseFactored.ser.gz 是用于中文的parser。

??

结果:outputch.txt 文件

ROOT

?? IP

?? ?? NP

?? ?? ?? NP

?? ?? ?? ?? QP CD 一些

?? ?? ?? ?? NP NN 盗版 NN 制品

?? ?? ?? NP NN 经营者

?? ?? PP P 为了

?? ?? ?? IP

?? ?? ?? ?? VP

?? ?? ?? ?? ?? VP VV 应付

?? ?? ?? ?? ?? CC 和

?? ?? ?? ?? ?? VP VV 躲避

?? ?? ?? ?? ?? ?? NP NN 打击

?? ?? PU ,

?? ?? NP NN 经营 NN 手法

?? ?? VP

?? ?? ?? ADVP AD 更为

?? ?? ?? VP VV 隐蔽

?? ?? PU 。

??

numod制品 3, 一些 1

nmod制品 3, 盗版 2

nmod经营者 4, 制品 3

nsubj隐蔽 14, 经营者 4

prep隐蔽 14, 为了 5

clmpd为了 5, 应付 6

cc应付 6, 和 7

ccomp应付 6, 躲避 8

dobj躲避 8, 打击 9

nmod手法 12, 经营 11

nsubj隐蔽 14, 手法 12

advmod隐蔽 14, 更为 13

3、图形工具界面

运行命令:lexparser gui.bat

首先load parser

然后选择文件,必须是utf 8编码的,而且是分词过后的。

Language 选择中文。

最后 parser 得到结果的树形表示。

三、句法分析树标注集

ROOT:要处理文本的语句

IP:简单从句

NP:名词短语

VP:动词短语

PU:断句符,通常是句号、问号、感叹号等标点符号

LCP:方位词短语

PP:介词短语

CP:由‘的’构成的表示修饰性关系的短语

DNP:由‘的’构成的表示所属关系的短语

ADVP:副词短语

ADJP:形容词短语

DP:限定词短语

QP:量词短语

??

NN:常用名词

NR:固有名词

NT:时间名词

PN:代词

VV:动词

VC:是

CC:不是(应该是吧!!不太确定)

VE:有

VA:表语形容词

AS:内容标记(如:了)

VRD:动补复合词

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新