语料库知多少?
语料库知多少?
语料库知多少?
语料库自然是存放语言材料的仓库。我们现在所说的语料库,就是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本的汇集。因此,语料库中的语料,一定是是实际使用中真实出现过的语言材料;一定是以计算机为必要载体的语言材料;一定是经过分析加工后才有用的语言材料。
百度图库
语料库种类很多,划分的依据、目的和用途不同,划分的类型也不同。
分类之一:
按照语料采集的原则和方式,可以把语料库划分为如下四种:
分类之二:
按照语料的语种,可以把语料库划分为如下三种:
分类之三:
平行/对应语料库是由原文文本及其平行对应的译语文本构成的双语/多语语料库,按照其对齐程度可划分为词级、句级、段级和篇级几种;按照翻译方向的不同可划分为单向平行语料库、双向平行语料库和多向平行语料库等三种形式。
分类之四:
对比/类比语料库是由不同语言的文本或同一种语言不同变体的文本所构成的两个或两个以上的语料库。 类比语料库也可再细分出单语类比库和双语/多语类比库。前者收集一种语言类似环境下的类似内容的文本,而后者收集的是在内容、语域、交际环境等方面相近的不同语言文本,多用于对比语言学。
分类之五:
按照语料的采集单位,可以把语料库划分为如下三种:
21个国内知名语料库:
18个国外知名语料库:
标签: