- 授权协议: MIT
- 开发语言: JavaScript
- 操作系统: 跨平台
- 软件首页: https://github.com/aszxqw/nodejieba
- 软件文档: http://yanyiwu.com/work/2014/02/22/nodejs-cpp-addon-nodejieba.html
软件介绍
NodeJieba "结巴"分词的Node.js版本
Introduction
NodeJieba只是CppJieba简单包装而成的node扩展,用来进行中文分词。
Install
npm install nodejieba
因为npm速度很慢而且经常因为墙的原因出现莫名其妙的问题,在此强烈建议使用cnpm,命令如下:
npm --registry=http://r.cnpmjs.org install nodejieba
Usage
默认分词算法
初始化
var segment = require("nodejieba");
segment.loadDict("./node_modules/nodejieba/dict/jieba.dict.utf8", "./node_modules/nodejieba/dict/hmm_model.utf8");阻塞式调用
var wordList = segment.cutSync("阻塞模式分词"); if (wordList.constructor == Array) // just for tutorial, this is always be true {
wordList.forEach(function(word) { console.log(word);
});
}非阻塞式调用
segment.cut("非阻塞模式分词", function(wordList) {
wordList.forEach(function(word) { console.log(word);
});
});搜索引擎分词算法
初始化
var segment = require("nodejieba");
segment.queryLoadDict("./node_modules/nodejieba/dict/jieba.dict.utf8", "./node_modules/nodejieba/dict/hmm_model.utf8");阻塞式调用
var wordList = segment.queryCutSync("阻塞模式分词"); if (wordList.constructor == Array) // just for tutorial, this is always be true {
wordList.forEach(function(word) { console.log(word);
});
}非阻塞式调用
segment.queryCut("非阻塞模式分词", function(wordList) {
wordList.forEach(function(word) { console.log(word);
});
});具体用法可以参考 test/segment.js test/query_segment.js
Testing
在node v0.10.2下测试通过
Demo
http://cppjieba-webdemo.herokuapp.com/ (chrome is suggested)
Thanks
统计自然语言处理
宗成庆 / 清华大学出版社 / 2008-5 / 66.00元
内容简介 本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详......一起来看看 《统计自然语言处理》 这本书的介绍吧!
