首页  >  检测标准  >  正文

GB/T 13715-1992《信息处理用现代汉语分词规范》

GB/T 13715-1992 更新时间: 2024-07-14

标准详情

GB/T 13715-1992《信息处理用现代汉语分词规范》基本信息

标准号:GB/T 13715-1992

中文名称:《信息处理用现代汉语分词规范》

发布日期:1992-10-04

实施日期:1993-06-01

发布部门:国家标准化管理委员会

归口单位:全国信息技术标准化技术委员会

起草单位:北京航空航天大学

中国标准分类号:L70信息处理技术综合

国际标准分类号:35.020信息技术(IT)综合

GB/T 13715-1992《信息处理用现代汉语分词规范》介绍

国家标准化管理委员会于1992年发布了《信息处理用现代汉语分词规范》(GB/T 13715-1992)。该标准于1992年10月4日发布,并于1993年6月1日正式实施。

一、标准的主要内容

1、术语和定义:对分词、词、词语等关键术语进行了明确的定义,为分词操作提供了标准化的语言基础。

2、分词原则:规定了分词应遵循的原则,如最小词长原则、歧义排除原则等,以确保分词结果的准确性和一致性。

3、分词方法:介绍了基于统计、规则和机器学习等多种分词方法,为不同应用场景提供了灵活的选择。

4、分词流程:详细描述了分词的整个流程,包括文本预处理、词识别、词性标注等关键步骤。

5、性能评估:提出了分词效果的评估标准,包括召回率、准确率等指标,为分词技术的研究和应用提供了量化的参考。

二、分词原则

1、最小词长原则:优先识别最短的词,以减少分词错误。

2、歧义排除原则:在遇到可能产生歧义的文本时,应根据上下文选择最合适的分词方案。

3、词频优先原则:在多个分词方案中,优先选择词频较高的词作为分词结果。

三、分词方法

1、基于统计的分词方法:通过统计语言材料中的词频,构建词表,实现自动分词。

2、基于规则的分词方法:利用语言学规则,如词性、构词法等,进行分词。

3、基于机器学习的分词方法:通过训练机器学习模型,如隐马尔可夫模型、条件随机场等,实现自动分词。

四、分词流程

1、文本预处理:包括文本清洗、分句等操作,为分词提供干净的输入。

2、词识别:根据分词原则和方法,识别文本中的词。

3、词性标注:对识别出的词进行词性标注,如名词、动词等。

4、结果输出:将分词结果以一定的格式输出,供后续处理使用。

五、性能评估

1、召回率:衡量分词结果中正确识别的词的比例。

2、准确率:衡量分词结果中所有词的正确性。

3、F1值:结合召回率和准确率,综合评估分词效果。

阅读剩余 50%