分词与命名实体识别API

目录

1. 接口描述

域名:wenzhi.api.qcloud.com
接口名: LexicalAnalysis
提供智能分词(基本词和短语)、词性标注、命名实体识别功能。专业的团队对数据、模型、程序进行迭代更新以保证效果的不断提升。用户只需简单的调用相关API接口即可获取到所需结果,无需担心诸如新词发现、歧义消除、调用性能等词法分析难题。词法分析已经为应用宝搜索、微信公共账号搜索等业务提供支持,均取得了良好的效果。

2. 输入参数

参数名称 必选 类型 描述
text String 待词法分析的文本
code Int text的编码(0x00200000=utf-8) 目前文智统一输入为utf-8
type Int 取值0或1,默认为0。 0为基础粒度版分词,倾向于将句子切分的更细,在搜索场景使用为佳。 1为混合粒度版分词,倾向于保留更多基本短语不被切分开。

3. 输出参数

参数名称 类型 描述
code Int 错误码。0: 成功,其他值: 失败
message String 错误信息
tokens Array 分词结果 其中Array元素包含以下字段
word String 切分出来的基础词
pos UInt32 该基础词在文本中的起始位置
wtype String 基础词的词性
wlen Uint64 该基础词的长度
combtokens Array 命名实体识别结果 其中Array元素包含以下字段
word String 实体词
pos UInt3 该实体在文本中的起始位置
wlen UInt64 该实体词的长度基础词的词性
cls Int32 人名 100000010/100000011
地名 100000012
机构名 100000013

4. 示例

输入
https://wenzhi.api.qcloud.com/v2/index.php?

   Action=LexicalAnalysis
&Nonce=345122
&Region=sz
&SecretId=AKIDz8krbsJ5yKBZQpn74WFkmLPx3gnPhESA
&Timestamp=1408704141
&Signature=HgIYOPcx5lN6gz8JsCFBNAWp2oQ
&text=我爱洗澡
&code=2097152

输出

 {
        "code": 0,
        "message": "",
        "combtokens": [
            {
                "cls": "短语",
                "pos": 0,
                "wlen": "8",
                "word": "我爱洗澡"
            }
        ],
        "tokens": [
            {
                "pos": 0,
                "wlen": "2",
                "word": "我",
                "wtype": "代词",
                "wtype_pos": 27
            },
            {
                "pos": 2,
                "wlen": "2",
                "word": "爱",
                "wtype": "动词",
                "wtype_pos": 31
            },
            {
                "pos": 4,
                "wlen": "4",
                "word": "洗澡",
                "wtype": "动词",
                "wtype_pos": 31
            }
        ]
    }

以上信息是否解决您的问题?

Copyright © 1998 - 2017 Tencent. All Rights Reserved.

腾讯公司 版权所有

有问必答 返回顶部