Pytext实战-构建一个文本分类器有多快

栏目: Python · 发布时间: 7年前

内容简介：，内容是从网上搜集的情感文本数据，简单地经过分词后用空格拼接起来。训练集和测试集各有10000条数据Pytext框架包括了Task, Trainer, Model, DataHandler, Exporter 组件，分别对应了任务切换、模型训练、模型结构、数据处理、模型导出的作用，它们都继承自名Component的类(图片来自:

数据集包括两个文件： train.tsv 和 test.tsv

，内容是从网上搜集的情感文本数据，简单地经过分词后用空格拼接起来。训练集和测试集各有10000条数据

2 构建文本分类器

Pytext框架包括了Task, Trainer, Model, DataHandler, Exporter 组件，分别对应了任务切换、模型训练、模型结构、数据处理、模型导出的作用，它们都继承自名Component的类

(图片来自: pytext-pytext.readthedocs-hosted.com/en/latest/o…

Component可以读取JSON类型的配置文件，配置文件可以设置训练过程中使用的输入和学习率等参数。按照官方文本分类教程，我们几乎可以不需要实现模型，输入，输出等代码，只需要准备好数据集即可。

docnn.json的内容如下：

{
  "task": {
    "DocClassificationTask": {
      "data_handler": {
        "train_path": "train.tsv",
        "eval_path": "test.tsv",
        "test_path": "test.tsv"
      }
    }
  }
}
复制代码

步骤1 训练模型：

pytext train < docnn.json 
复制代码

经过3-4分钟后，10 epoch训练完毕，在没有使用词向量以及直接使用默认设置，在测试集的预测效果如下，

步骤2 导出模型

CONFIG=docnn.json 
pytext export --output-path model.c2 < "$CONFIG"
复制代码

在桌面上我们可以看到导出的模型 model.c2

步骤3 模型预测参考意图识别的例子，我写了下面的测试代码

# !/usr/bin/env python3
# -*- coding:utf-8 _*-
"""
@Author:yanqiang
@File: demo.py
@Time: 2018/12/21 19:06
@Software: PyCharm
@Description:
"""
import sys
import pytext
import jieba

config_file = sys.argv[1]
model_file = sys.argv[2]
text = sys.argv[3]
text = " ".join([word for word in jieba.cut(text)])
config = pytext.load_config(config_file)
predictor = pytext.create_predictor(config, model_file)
# Pass the inputs to PyText's prediction API
result = predictor({"raw_text": text})

# Results is a list of output blob names and their scores.
# The blob names are different for joint models vs doc models
# Since this tutorial is for both, let's check which one we should look at.
doc_label_scores_prefix = (
    'scores:' if any(r.startswith('scores:') for r in result)
    else 'doc_scores:'
)

# For now let's just output the top document label!
best_doc_label = max(
    (label for label in result if label.startswith(doc_label_scores_prefix)),
    key=lambda label: result[label][0],
    # Strip the doc label prefix here
)[len(doc_label_scores_prefix):]
print("输入句子的情感为：%s" % best_doc_label)

复制代码

我们看看效果：

python main.py "$CONFIG" model.c2 "超级喜欢蒙牛这个味 道"
复制代码

python main.py "$CONFIG" model.c2 "这是什么商品啊！太 差了吧？"
复制代码

3 总结

我们上面过程可以看到，pytext加速了模型从训练到落地的速度，省去了很多繁琐的工程。不过，我们上面的例子模型需要有待提高，需要研究下自定义模型和词向量使用，提高分类效果。

以上所述就是小编给大家介绍的《Pytext实战-构建一个文本分类器有多快》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Web应用安全权威指南

德丸浩 / 赵文、刘斌 / 人民邮电出版社 / 2014-10 / 79

《web应用安全权威指南》系日本web安全第一人德丸浩所创，是作者从业多年的经验总结。作者首先简要介绍了web应用的安全隐患以及产生原因，然后详细介绍了web安全的基础，如http、会话管理、同源策略等。此外还重点介绍了web应用的各种安全隐患，对其产生原理及对策进行了详尽的讲解。最后对如何提高web网站的安全性和开发安全的web应用所需要的管理进行了深入的探讨。本书可操作性强，读者可以通过下载已......一起来看看《Web应用安全权威指南》这本书的介绍吧!

码农工具

Pytext实战-构建一个文本分类器有多快

2 构建文本分类器

3 总结

Web应用安全权威指南

在线进制转换器

图片转BASE64编码

HEX CMYK 转换工具