GB/T 13715-1992《信息处理用现代汉语分词规范》-企来检

标准详情

GB/T 13715-1992《信息处理用现代汉语分词规范》基本信息

标准号：GB/T 13715-1992

中文名称：《信息处理用现代汉语分词规范》

发布日期：1992-10-04

实施日期：1993-06-01

发布部门：国家标准化管理委员会

归口单位：全国信息技术标准化技术委员会

起草单位：北京航空航天大学

中国标准分类号：L70信息处理技术综合

国际标准分类号：35.020信息技术(IT)综合

GB/T 13715-1992《信息处理用现代汉语分词规范》介绍

国家标准化管理委员会于1992年发布了《信息处理用现代汉语分词规范》(GB/T 13715-1992)。该标准于1992年10月4日发布，并于1993年6月1日正式实施。

一、标准的主要内容

1、术语和定义：对分词、词、词语等关键术语进行了明确的定义，为分词操作提供了标准化的语言基础。

2、分词原则：规定了分词应遵循的原则，如最小词长原则、歧义排除原则等，以确保分词结果的准确性和一致性。

3、分词方法：介绍了基于统计、规则和机器学习等多种分词方法，为不同应用场景提供了灵活的选择。

4、分词流程：详细描述了分词的整个流程，包括文本预处理、词识别、词性标注等关键步骤。

5、性能评估：提出了分词效果的评估标准，包括召回率、准确率等指标，为分词技术的研究和应用提供了量化的参考。

二、分词原则

1、最小词长原则：优先识别最短的词，以减少分词错误。

2、歧义排除原则：在遇到可能产生歧义的文本时，应根据上下文选择最合适的分词方案。

3、词频优先原则：在多个分词方案中，优先选择词频较高的词作为分词结果。

三、分词方法

1、基于统计的分词方法：通过统计语言材料中的词频，构建词表，实现自动分词。

2、基于规则的分词方法：利用语言学规则，如词性、构词法等，进行分词。

3、基于机器学习的分词方法：通过训练机器学习模型，如隐马尔可夫模型、条件随机场等，实现自动分词。

四、分词流程

1、文本预处理：包括文本清洗、分句等操作，为分词提供干净的输入。

2、词识别：根据分词原则和方法，识别文本中的词。

3、词性标注：对识别出的词进行词性标注，如名词、动词等。

4、结果输出：将分词结果以一定的格式输出，供后续处理使用。

五、性能评估

1、召回率：衡量分词结果中正确识别的词的比例。

2、准确率：衡量分词结果中所有词的正确性。

3、F1值：结合召回率和准确率，综合评估分词效果。

阅读剩余 50%