【自然语言处理介绍】

自然语言处理(natural language processing 简称NLP)

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。

自然语言处理要解决的主要问题有: 

(1)垃圾邮件识别 

(2)中文输入法 

(3)机器翻译 

(4)自动问答、客服机器人 

这里简单罗列了一些NLP的常见领域:分词,词性标注,命名实体识别,句法分析,语义识别,垃圾邮件识别,拼写纠错,词义消歧,语音识别,音字转换,机器翻译,自动问答……

二、语料库知识  

语料库作为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料的集合。    

语料库划分:① 时间划分② 加工深度划分:标注语料库和非标注语料库③ 结构划分⑤ 语种划分⑥ 动态更新程度划分

语料库构建原则:①代表性  ②结构性   ③平衡性   ④规模性   ⑤元数据:元数据对       

语料标注的优缺点

①优点: 研究方便。可重用、功能多样性、分析清晰。

②缺点: 语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差)、标注不一致、准确率低

三、机器学习降维

主要特征选取、随机森林、主成分分析、线性降维

四、朴素贝叶斯原理  

-->训练文本预处理,构造分类器。

-->构造预测分类函数  

-->对测试数据预处理  

-->使用分类器分类    

五、LIBSVM -- A Library for Support Vector Machines

SVMs (Support Vector Machines) are a useful technique for data classification. Although

SVM is considered easier to use than Neural Networks, users not familiar with

it often get unsatisfactory results at first. Here we outline a “cookbook” approach

which usually gives reasonable results.

Note that this guide is not for SVM researchers nor do we guarantee you will

achieve the highest accuracy. Also, we do not intend to solve challenging or diffi-

cult problems. Our purpose is to give SVM novices a recipe for rapidly obtaining

acceptable results.

Although users do not need to understand the underlying theory behind SVM, we

briefly introduce the basics necessary for explaining our procedure. A classification

task usually involves separating data into training and testing sets. Each instance

in the training set contains one “target value” (i.e. the class labels) and several

“attributes” (i.e. the features or observed variables). The goal of SVM is to produce

a model (based on the training data) which predicts the target values of the test data

given only the test data attributes.

六、文本词频算法思想:

1 对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理。     

2对清洗后的单词进行去重和词频统计,通过Map统计词频,实体存储:单词-词频。(数组也可以,只是面对特别大的数据,数组存在越界问题)。排序:根据词频或者字母

3 提取核心词汇,大于5的和小于25次的数据,可以自己制定阈值。遍历list<实体>列表时候,通过获取实体的词频属性控制选取词汇表尺寸。        

原创不易,欢迎打赏,请认准正确地址,谨防假冒


【自然语言处理介绍】
 

【自然语言处理介绍】       

相关推荐