越南语名词短语结构类型表
编号
名称
标记
例子
1
名词短语
NP
dự án;kế hoạch
2
动词短语
VP
Học tập;thiết kế
3
形容词短语
AP
To lắm;rẻ lắm
4
副词短语
AdvP
Cực kỳ; hết sức; khôn cùng
5
代词短语
PrP
Anh êm;bố tôi
6
数词短语
MP
Một trăm
7
数量限定词短语
LP
Một trong những
8
介词短语
PP
Trong phòng;trên WEB
9
时间短语
TP
Năm ngoái;ngày trước
10
关系小句
RC
mà tôi thích;mà hai bên chấp nhận
序号
词类标记
名称
例子
1
N
名词(Danh từ)
tiếng, nước, thủ đô, nhân dân, đồ đạc, cây cối, chim muông
2
Np
专有名词(Danh từ riêng)
Nguyễn Du, Việt Nam, Hải Phòng, Trường Đại học Bách khoa Hà Nội, Mộc tinh, Hoả tinh, Phật, Đạo Phật
3
Nc
类词(Danh từ chỉ loại)
con, cái, đứa, bức
4
Nu
量词(Danh từ đơn vị)
mét, cân, giờ, nắm, nhúm, hào, xu, đồng
5
Ni
标记成分(Danh từ ký hiệu)
A1, A4, 60A, 60B, 20a, 20b, ABC, ABCD
6
V
动词(Động từ)
ngủ, ngồi, cười; đọc, viết, đá, đặt; thích, yêu, ghét, giống, muốn
7
A
形容词(Tính từ)
tốt, xấu, đẹp; cao, thấp, rộng
8
P
代词(Đại từ)
tôi, chúng tôi, hắn, nó, y, đại nhân, đại ca, huynh, đệ
9
L
限定词(Định từ)
mỗi, từng, mọi, cái; các, những, mấy
10
M
数词(Số từ)
một, mười, mười ba; dăm, vài, mươi; nửa, rưỡi
11
R
副词(Phó từ)
đã, sẽ, đang, vừa, mới, từng, xong, rồi; rất, hơi, khí, quá
12
E
介词(Giới từ)
trên, dưới, trong, ngoài; của, trừ, ngoài, khỏi, ở
13
C
关系连词(Liên từ chính phụ)
vì vậy, tuy nhiên, ngược lại
14
Cc
并列连词(Liên từ đẳng lập)
và, hoặc, với, cùng
15
I
感叹词(Thán từ)
ôi, chao, a ha
16
Pd
指示代词(Đại từ chỉ định)
này,đó,kia
17
T
助词和形态词(Trợ từ, tình thái từ (tiểu từ))
à, a, á, ạ, ấy, chắc, chăng, cho, chứ
18
B
外来词(Từ tiếng nước ngoài)对于外来词的标记一般情况下是一个辅助标记。例如:“chat”被标记为 Vb, “video”被标记为Nb. 常见的标记有:Ab、Cb、Eb、Mb、Nb、Pb和Vb.
Internet, email, video, chat
19
Y
缩略语(Từ viết tắt)。与外来词一样,缩略语的的标记也是辅助标记,例如:WTO被标记为Ny。常见的标记有Ny、Vy和Xy.
OPEC, WTO, HIV
20
X
未归类词(Các từ không phân loại được)
20
Z
构词语素(Yếu tố cấu tạo từ)
bất, vô, phi
21
CH
标点符号(Nhãn dành cho các loại dấu)
. ! ? , ; :
postag表
说明:黄色填充的都是规则、红色的代表我不确定已经不知道怎么表述的动词,规则中间的是相应的说明文字
规则:
NP->NP+NP
NP->N(包含所有名词词类,如Nc、Nu等)
NP->NP+VP
这条转写规则可以识别NP+VP这样组合形式的名词短语。但需要说明的是,这里的VP是一个受约束的VP,它只能是一个光杆动词或者几个光杆动词组成的连谓成分,而不能像一般的动词短语那样可以包含有副词或介词成分,如果包含了这些成分VP就不能作为中心名词的修饰语,而是作为名词的述语出现。所以,这里要添加两条限制型的转写规则:VP->V,VP->VP+VP,这样VP中就不能包含动词以外的其他成分了。
NP->NP+AP
AP->AP+AP
AP->AdvP+AP
AP-> AP + AdvP
AdvP->R
NP->
NP-><đại>A+NP
这条转写规则说明的是名词短语可以由一个名词短语加一个形容词或形容词短语组成。这条转写规则可以识别NP+AP这样组合形式的名词短语。AP可以是由多个连续的形容词组成,这样就有规则AP->AP+AP,只要不断套用这条规则理论上就能识别一个任意长度的形容词串,AP还可以由AdvP+AP组成,按照分析,AdvP可以位于AP的前面也可以位于AP的后面,这样就有规则AP->AdvP+AP和AP-> AP + AdvP。这条规则中的AdvP的组合类型是受限的,AdvP只能包含副词和形容词,否则就有可能改变名词短语的性质,所以就有规则AdvP->R。按照2.3.2的分析,AP还可能出现在NP的前面,但是经过对现有语料库的观察,这样的情况十分少见,因此认为用局部规则来进行描述会更为恰当,所以就有以下局部规则:NP->
NP->LP+NP
LP->L
NP->
NP->
NP->
这条转写规则说明的是名词短语可以由一个数量限定词短语加一个名词短语组成。这条转写规则可以识别LP+NP这样组合形式的名词短语。按照第二章关于冠词和数量限定词语言学角度的描写,它们应该分属不同的词类,但是由于目前计算机在进行词性标记时无法很好地将这两类词区分开来,所以在规则描写阶段,暂时将它们的词性都标记为L,但因为这两类词都属于有限集合,所以就可以通过加入局部规则的方式对它们加以区分。LP只能由属于L的词类组成,所以就有规则。而在2.2.6中说明了数量限定词可以连用,但是最多只能两个词一起连用,所以就有规则LP->L+L。下面就从描述冠词和数量限定词各自组合特点的局部规则中找一些有代表性的例子。体现冠词特点的局部规则:NP->
NP->MP+NP
MP->MP+MP
MP->M
NP->MP+Nc+NP
NP->MP+
这条转写规则说明的是名词短语可以由一个数词短语加一个名词短语组成。这条转写规则可以用来识别MP+NP这样的搭配规则。其中MP可以是多个数词组成的数词短语或者是一个单一的数词,用规则表示就是MP->MP+MP和MP->M。按照2.3.5的分析,MP和NP搭配时中间常常需要出现一个量词,所以就有规则NP->MP+Nc+NP,这条规则可以视为是NP->MP+NP规则的变体,因为有NP->Nc+NP的规则。按照2.3.5分析的cái和数词的关系,就有局部规则NP->MP+
NP->NP+PP
PP->E+NP
NP->NP+AP+PP
NP->NP+NP+PP
NP->NP+PP+PP
依据2.3.3的分析,这条转写规则是用于识别NP+PP这样的搭配规则的,其中PP的转写规则为PP->E+NP,表示介词短语可以有一个介词和一个NP构成。按照2.3.3中分析的介词短语的分布情况,可以有如下规则:NP->NP+AP+PP、NP->NP+NP+PP、NP->NP+PP+PP,这三条规则就说明了介词短语的分布往往是位于形容词、附属名词和介词的后面。
NP->NP+Pd
这条规则是用于识别NP+Pd的搭配规则的,依据2.3.5的分析,Pd通常都位于名词短语的右边界,这就为一些复杂结构名词短语的识别,增添了一种可能的右边界标记。当然也存在Pd不是名词短语右边界的情况,这些情况可以用其他其他规则加以补充,如领属短语就可能位于Pd的右侧,但是这样的情况并不常见。
NP->Nc+NP
NP->Nc+AP
NP->Nc+Pd
NP->
NP->
NP->
这条规则是用于识别Nc+NP的搭配规则的,依据2.2.1的分析,当形容词、指示代词等出现时,中心名词可以被省略,而只留下类词。所以就有以下转写规则:NP->Nc+AP、NP->Nc+Pd。同时,2.2.1还说明了作为类词的cái、con、和người需要特定的生命值,这样就有了下面这样的局部规则:NP->
>>>if NP->Nc+NP(W1^N)
>>>stop search,tag Nc NP-B[footnoteRef:3] 随便弄的,您根据您的理解来 [3: 这是一段伪代码,这里只是为了说明,才以这样的形式书写]
上面这条规则要表现的是当与Nc搭配的词不是名词时就停止匹配,并在Nc后面加上名词短语的起始标签(NP-B),并将Nc作为名词短语的唯一成分。与之相似的类词不能共现的规则可以制定为:
>>>if NP->Nc+NP(W1=Nc)
>>>stop search,tag Nc NP-B
同时,因为类词不能共现,所以还应将Nc+Nc(不能包含这样的组合)作为一条排除和划界的规则。
NP->Nu+NP
NP->Nu+AP+NP
NP->Nu+Pd+NP
这条转写规则是用于识别Nu+NP的搭配规则的,依据2.2.2的分析,与类词不同,量词可以被修饰语修饰,因此Nu和Np之间就可以插入其他成分。所以就可以有这样的转写规则:NP->Nu+AP+NP、NP->Nu+Pd+NP。
NP->NP+RC
这条转写规则是用于识别NP+RC的搭配规则,依据2.3.6的分析,RC通常位于其他修饰成分的后面,但是对于RC边界的划分是一个比较复杂的问题,因为它涉及到了短句甚至是句子。针对这样的情况,本文采取的是基于语料库来总结转写规则,通过对语料库的观察发现,名词短语中的关系小句也经常出现在名词短语的右边界,并且其最后一个成分一般为动词,这样就可以划定RC的左右边界,其左边界就为mà,右边界就为RC中出现的第一个动词(意思就是把mà和mà后面的第一个动词分别作为RC的左右边界)。这样一个规则的概括能力是很有限的,所以我们又加入了一些局部规则进行补充,例如:在对RC匹配的过程中,当匹配到Pd时,就将Pd作为名词短语的右边界而停止匹配(意思是Pd在大部分情况下都是名词短语的右边界)。
NP->NP+Cc+NP
这条转写规则描写的是名词短语可以通过名词短语+并列连词的形式组成,这里对NP内部的组合结构并没有限制,所以这里的NP理论上可以是任意成分组成的NP。
NP->NP+<,>CH+NP
NP-> NP+<,>CH+NP+Cc+NP
这条转写规则描写的是多个名词短语可以通过逗号“,”进行连接,共同组成一个名词成分。本条转写规则可以与上一条转写规则搭配,形成如下转写规则:NP-> NP+<,>CH+NP+Cc+NP,这里需要注意的是最后一个NP是一个受约束的NP,它不能在继续套用如何一条并列短语的转写规则,否则就不符合语法规范。
NP->NP+
NP->NP+PP+
NP->NP+AP+
领属结构的越南语名词短语就只存在一种情况,其转写式为:NP->NP+