标准详情
GB/T 13715-1992《信息处理用现代汉语分词规范》基本信息
标准号:GB/T 13715-1992
中文名称:《信息处理用现代汉语分词规范》
发布日期:1992-10-04
实施日期:1993-06-01
发布部门:国家标准化管理委员会
归口单位:全国信息技术标准化技术委员会
起草单位:北京航空航天大学
中国标准分类号:L70信息处理技术综合
国际标准分类号:35.020信息技术(IT)综合
GB/T 13715-1992《信息处理用现代汉语分词规范》介绍
国家标准化管理委员会于1992年发布了《信息处理用现代汉语分词规范》(GB/T 13715-1992)。该标准于1992年10月4日发布,并于1993年6月1日正式实施。
一、标准的主要内容
1、术语和定义:对分词、词、词语等关键术语进行了明确的定义,为分词操作提供了标准化的语言基础。
2、分词原则:规定了分词应遵循的原则,如最小词长原则、歧义排除原则等,以确保分词结果的准确性和一致性。
3、分词方法:介绍了基于统计、规则和机器学习等多种分词方法,为不同应用场景提供了灵活的选择。
4、分词流程:详细描述了分词的整个流程,包括文本预处理、词识别、词性标注等关键步骤。
5、性能评估:提出了分词效果的评估标准,包括召回率、准确率等指标,为分词技术的研究和应用提供了量化的参考。
二、分词原则
1、最小词长原则:优先识别最短的词,以减少分词错误。
2、歧义排除原则:在遇到可能产生歧义的文本时,应根据上下文选择最合适的分词方案。
3、词频优先原则:在多个分词方案中,优先选择词频较高的词作为分词结果。
三、分词方法
1、基于统计的分词方法:通过统计语言材料中的词频,构建词表,实现自动分词。
2、基于规则的分词方法:利用语言学规则,如词性、构词法等,进行分词。
3、基于机器学习的分词方法:通过训练机器学习模型,如隐马尔可夫模型、条件随机场等,实现自动分词。
四、分词流程
1、文本预处理:包括文本清洗、分句等操作,为分词提供干净的输入。
2、词识别:根据分词原则和方法,识别文本中的词。
3、词性标注:对识别出的词进行词性标注,如名词、动词等。
4、结果输出:将分词结果以一定的格式输出,供后续处理使用。
五、性能评估
1、召回率:衡量分词结果中正确识别的词的比例。
2、准确率:衡量分词结果中所有词的正确性。
3、F1值:结合召回率和准确率,综合评估分词效果。