内容简介:CoolNLTK 文本分类工具集 特点 多模型,相对统一的数据输入,方便效果对比 可直接用于生产 使用相对简单 已实现模型 TextCNN TextRNN CLstm 模型训练 1.train file 使用和fastText一样的数据输入 测试数据可以从fas...
CoolNLTK
文本分类 工具 集
特点
多模型,相对统一的数据输入,方便效果对比
可直接用于生产
使用相对简单
已实现模型
模型训练
1.train file
使用和fastText一样的数据输入
测试数据可以从fastText的代码中下载然后copy到./datasets/dbpedia目录下 具体方法, 参照fatText的文档,运行其中的classification-example.sh就能得到dbpedia.train 和dbpedia.test
注意:类别标签是从1开始的,因为在后面训练的时候需要做pad 0 的操作,为了避免混淆。
一个例子如下:
__label__7 , joseph purdy homestead __label__13 , forever young ( 1992 film ) __label__11 , nepenthes ' boca rose __label__6 , mv eilean bhearnaraigh
在train/main.sh指定相关的训练样本路径
TRAIN_FILE=./datasets/dbpedia/dbpedia.train TEST_FILE=./datasets/dbpedia/dbpedia.test # 使用的模型 可选cnn, bilstm, clstm MODEL=cnn # 中间文件输出路径 DATA_OUT_DIR=./datasets/dbpedia/ # 模型输出路径 MODEL_OUT_DIR=./results/dbpedia/
2.embedding
生成word2vec的训练数据
./main.sh pre
训练词向量
./main.sh vec
3.map file
这一步产生需要的映射文件
./main.sh map
4.tfrecord
产生tfrecord 文件
./main.sh data
5.train
模型训练
./main.sh train
6.模型导出
导出成pb文件,可用Java,Go语言读取
./main export
模型使用
在predict.py中有例子,读取上面训练好导出的模型,和产生的vocab.json文件
TextRNN、TextCNN,CLstm 模型能共用这个模块
todo
根据最新的tensorflow重构代码
修改tfrecord 文件的格式,产生多分而不是一份
添加tensorboard
计划实现更多模型,包括但不限于下面这些
【声明】文章转载自:开源中国社区 [http://www.oschina.net]
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 深度文本表征与深度文本聚类在小样本场景中的探索与实践
- 深度文本分类综述
- 文本分类和序列标注“深度”实践
- 深度学习在金融文本情感分类中的应用
- 腾讯AI Lab深度解读文本生成技术相关论文
- 基于深度学习的短文本相似度学习与行业测评
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Python深度学习
[美] 弗朗索瓦•肖莱 / 张亮 / 人民邮电出版社 / 2018-8 / 119.00元
本书由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱(François Chollet)执笔,详尽介绍了用Python和Keras进行深度学习的探索实践,涉及计算机视觉、自然语言处理、生成式模型等应用。书中包含30多个代码示例,步骤讲解详细透彻。由于本书立足于人工智能的可达性和大众化,读者无须具备机器学习相关背景知识即可展开阅读。在学习完本书后,读者将具备搭建自己的深度学习环境、建......一起来看看 《Python深度学习》 这本书的介绍吧!