词法分析
分词、词性标注、基于大数据和用户行为的命名实体识别可以定位基本语言元素,消除歧义,支持对自然语言的准确理解
功能介绍
百度词法分析为用户提供了三个功能:分词、词性标注和命名实体识别。该服务可以识别文本字符串中的基本单词(分词),对组合词的词性进行重组和标注,并进一步识别命名实体。百度词法分析的算法效果明显领先于主流的中文词法分析模式
1、中文分词
汉语分词是将连续的自然语言文本分割成具有语义合理性和完整性的词汇序列的过程
2、词性标注
词性标注(POS tagging)是指将词性赋予自然语言文本中的每个词的过程
3、专有名词
命名实体识别是指对自然语言文本中具有特定意义的实体的识别,包括人名、地名、组织名称、时间和日期等
应用场景
1、语音指令分析
本文在分词和词性标注的基础上,对语音命令中的关键名词、动词、数量、时间等进行分析,以便准确理解命令的含义,提高用户体验
合作案例:杜米
2、多轮交互式搜索
通过在多轮对话中识别和定位核心实体,可以自动确定后续对话中对该实体的进一步信息需求
合作案例:百度语音搜索
3、实体数据库的构建
通过挖掘实体、实体和关键字之间的关联,构建实体信息(如人、机构)数据库
合作案例:百度搜索
技术特点
1、更灵活的粒度
该模型不仅保证了基本词汇的原子性,而且保证了大粒度的词汇,特别是对于新词和专有名词的识别
2、海量数据建模
大量的训练样本和100亿级的点击反馈提高了算法在复杂多变的应用场景中的稳定性和适应性
3、免费定制
根据独立干预和自定义切分效果的需要,自由定制专有名词的实体类别,创建个性化切分和专有名识别系统