文本分类API

目录

1. 接口描述

域名:wenzhi.api.qcloud.com
接口名: TextClassify
为用户提供自动文本分类服务,平台已对文本分类的模型算法进行了封装,用户只需提供待分类的文本数据,而不必关注具体的实现,通过平台就能得到提供文本的所属类别。目前平台能识别类别囊括了求职招聘、影视、音乐、健康养生、财经、广告推广、犯罪、政治等40多个类别,且算法支持快速迭代更新已有类别及增加新类别。

2. 输入参数

参数名称 必选 类型 描述
title String 文章标题,编码格式utf8
content String 正文内容,编码格式utf8
secd_nav String 二级导航,编码格式utf8
url String 文章对应的url

3. 输出参数

参数名称 类型 描述
code Int 错误码,0:成功,其他值:失败
message String 错误信息
classes Array 文本分类结果,其中Array元素包含以下字段(一般取conf最大的为分类结果)
class String 类别
class_num UInt32 类别编号
conf Double 分类置信度


文本分类API支持的类别列表如下:

分类代码 说明
E_PTC_CATEGORY_UNKNOWN 0X00000000 未知分类
E_PTC_CATEGORY_TRAVEL 0X00000001 旅游 旅游攻略,景点介绍等
E_PTC_CATEGORY_GAMES X00000002 游戏 游戏下载,攻略,介绍,新闻等
E_PTC_CATEGORY_CHARACTERS 0X00000003 人物 主要是人物介绍、人物访谈类页面
E_PTC_CATEGORY_SPORTS 0X00000004 体育 体育赛事,运动等
E_PTC_CATEGORY_MUSIC 0X00000005 音乐 音乐相关,乐器等
E_PTC_CATEGORY_MOVIE 0X00000006 影视 电影,电视剧,电视节目
E_PTC_CATEGORY_SOFTWARE 0X00000007 软件 软件介绍,下载
E_PTC_CATEGORY_LITERATURE 0X00000008 文学 小说,文言文,散文等相关页面
E_PTC_CATEGORY_FOOD 0X00000009 美食 菜谱,食品制作,介绍等
E_PTC_CATEGORY_INTERACTION_HEALTH 0X0000000A 健康 医疗、保健、健身等
E_PTC_CATEGORY_INTERACTION_MEDICINE 0X0000000B 医药 药品介绍,药方等,其他是健康类别
E_PTC_CATEGORY_RETAILSHOP 0X0000000C 商铺 公司黄页、店铺首页等
E_PTC_CATEGORY_FINANCE 0X0000000D 财经 股票证券、理财、银行
E_PTC_CATEGORY_CAR 0X0000000E 汽车 汽车,租车等
E_PTC_CATEGORY_HOUSE 0X0000000F 房产 房地产,租房,装修等
E_PTC_CATEGORY_COMIC 0X00000010 动漫 动画,漫画
E_PTC_CATEGORY_INTERACTION_EDUCATION 0X00000011 教育 学校、学科、考试,培训等
E_PTC_CATEGORY_TECHNOLOGY 0X00000012 科技 手机、电子数码、互联网技术等
E_PTC_CATEGORY_MILITARY 0X00000013 军事 国防,军队,战争等
E_PTC_CATEGORY_WEATHER 0X00000014 天气 天气预报,气候等
E_PTC_CATEGORY_INTERACTION_ADVERTISE 0X00000016 广告
E_PTC_CATEGORY_SOCIAL_ASSEMBLE 0X00000017 群体聚集
E_PTC_CATEGORY_SOCIAL_DISASTER 0X00000018 自然灾害
E_PTC_CATEGORY_SOCIAL_ACCIDENT 0X00000019 交通事故
E_PTC_CATEGORY_SOCIAL_OFFENSE 0X0000001A 刑事犯罪
E_PTC_CATEGORY_SOCIAL_FORCE 0X0000001B 暴力执法
E_PTC_CATEGORY_INTERACTION_JOB 0X0000001C 求职招聘
E_PTC_CATEGORY_SOCIAL_FOODSAFETY 0X0000001D 食品安全
E_PTC_CATEGORY_SOCIAL_POLLUTION 0X0000001E 环境污染
E_PTC_CATEGORY_SOCIAL_EPIDEMIC 0X0000001F 疾病疫情
E_PTC_CATEGORY_SOCIAL_FINANCE 0X00000020 金融安全
E_PTC_CATEGORY_POLITICAL_SENSITIVE 0X00000021 敏感 政治
E_PTC_CATEGORY_POLITICAL_CORRUPTION 0X00000022 贪腐
E_PTC_CATEGORY_POLITICAL_CULT 0X00000023 非法组织
E_PTC_CATEGORY_POLITICAL_REACTION 0X00000024 反动言论
E_PTC_CATEGORY_POLITICAL_MODEL 0X00000025 先进事迹
E_PTC_CATEGORY_INTERACTION_INSPIRATION 0X00000028 心灵鸡汤
E_PTC_CATEGORY_POLITICAL_OTHER 0X0000002A 其它政治类
E_PTC_CATEGORY_OTHER 0X0000FFFF 其他

4. 示例

https://wenzhi.api.qcloud.com/v2/index.php?
    Action=TextClassify
    &Nonce=345122
    &Region=sz
    &SecretId=AKIDz8krbsJ5yKBZQpn74WFkmLPx3gnPhESA
    &Timestamp=1408704141
    &Signature=HgIYOPcx5lN6gz8JsCFBNAWp2oQ
    &content=腾讯入股京东


输出

    {
        "code": 0,
        "message": "",
        "classes": [
            {
                "class": "未分类",
                "class_num": 0,
                "conf": 0.291
            },
            {
                "class": "旅游",
                "class_num": 1,
                "conf": 0.291
            },
            {
                "class": "科技",
                "class_num": 18,
                "conf": 0.419
            }
        ]
    }

以上信息是否解决您的问题?

Copyright © 1998 - 2017 Tencent. All Rights Reserved.

腾讯公司 版权所有

有问必答 返回顶部