在本章中, 我们将介绍以下食谱:
使用标记化预处理数据
停止文本数据
将文本转换为基本格式,使用缩小
使用分块分割文本
建立一个袋子模型
构建文本分类器
识别性别
分析一句话的情绪
使用主题建模识别文本中的模式
介绍
文本分析和自然语言处理(NLP)是现代人工智能系统的组成部分. 计算机善于理解有限品种的严格结构化数据. 然而, 当我们处理非结构化的自由格式的文本时, 事情开始变得困难. 开发NLP应用程序具有挑战性, 因为计算机难以理解基本概念. 我们沟通的方式也有许多微妙的变化. 这些可以是方言, 语境, 俚语等的形式.
为了解决这个问题, NLP应用程序是基于机器学习而开发的.这些算法检测文本数据中的模式, 以便我们从中提取洞察. 人工智能公司大量使用NLP和文本分析来提供相关的结果. NLP的一些最常见的应用包括搜索引擎, 情感分析, 主题建模, 词性标注, 实体识别等. NLP的目标是开发一组算法, 以便我们能够以简单的英语与计算机交互. 如果我们可以实现这一点, 那么我们不需要编程语言来指导计算机应该做什么. 在本章中, 我们将介绍一些专注于文本分析的食谱, 以及如何从文本数据中提取有意义的信息. 本章将大量使用一个名为Natural Language Toolkit(NLTK)的Python包. 在您继续之前, 请确保安装. 您可以在http://www.nltk.org/install.html找到安装步骤. 您还需要安装包含许多语料库和训练模型的NLTK数据. 这是文本分析的一个组成部分! 您可以在http://www.nltk.org/data.html上找到安装步骤.