08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

cqulun

2020-02-10

直接上代码：

import jieba
import pandas as pd
import re
from collections import Counter

if __name__==‘__main__‘:
    filehandle = open("news.txt", "r",encoding=‘utf-8‘);
    mystr = filehandle.read()
    seg_list = jieba.cut(mystr)  # 默认是精确模式
    print(seg_list)
    #all_words = cut_words.split()
    #print(all_words)
    stopwords = {}.fromkeys([line.rstrip() for line in open(r‘stopwords.txt‘)])
    c = Counter()
    for x in seg_list:
            if x not in stopwords:
                if len(x) > 1 and x != ‘\r\n‘:
                    c[x] += 1

    print(‘\n词频统计结果：‘)
    for (k, v) in c.most_common(100):  # 输出词频最高的前两个词
        print("%s:%d" % (k, v))

    #print(mystr)
    filehandle.close();
# seg2 = jieba.cut("好好学学python，有用。", cut_all=False)
# print("精确模式（也是默认模式）：", ‘ ‘.join(seg2))

运行截图：

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

总结：第一步先爬取的大量数据，再根据爬取的数据进行分词，分词中去除多余的单词，用stop.txt。

然后就可以得到上述数据。

stop.txt部分截图：

08 信息化领域热词分类分析及解释第二步将爬取的数据使用jieba分词处理并清洗

jieba 分词分类数据

cqulun

0 关注 0 粉丝 0 动态

相关推荐

Python常用功能函数系列总结（二）

return ‘ ‘.join([i for i in jieba.cut(sentence) if. i.strip() and i not in self.stopwords and len > 1 and i in self.word_list

kikaylee 2020-07-05

jieba.lcut方法

cut_all参数为真表示采用全模式分词，为假表示采用精确模式分词，默认值为假；

ustbclearwang 2020-07-05

Python之酒店评论分词、词性标注、TF-IDF、词频统计、词云

利用pandas读取csv文件中的酒店客户评论，并创建3个新列用来存放分词结果、词性标注结果、分词+词性标注结果。columns_name=[‘mysql_id‘,‘hotelname‘,‘customername‘,‘reviewtime‘,‘check

zooozx 2020-06-27

jieba分词

学英语啊，学英语。中文分词是中文NLP的第一步，一个优秀的分词系统取决于足够的语料和完善的模型，很多机构和公司也都会开发和维护自己的分词系统，虽然jieba分词的性能并不是最优秀的，但它开源免费、使用简单、功能丰富，并且支持多种编程语言实现。jieba.d

xiaocao0 2020-06-25

jieba库的使用

jieba是python的第三方库，使用jieba库需要先安装。jieba是一个中文分词库，可以根据所给的中文句子，提取出可能的词组。利用中文词库，确定汉字之间的关联概率。概率大的组成词组，形成分词效果。除了分词，用户还可以添加自定义的词组。搜索引擎模式，

fkyyly 2020-05-31

基于Python实现词云制作

精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。HMM 参数用来控制是否使用 HMM 模型。

chongtianfeiyu 2020-04-10

jieba库

counts[word] = counts.get + 1 # 遍历所有词语，每出现一次其对应的值加 1. items.sort # 根据词语出现的次数进行从大到小排序。统计了次数对多前十五个名词，曹操不愧是一代枭雄，第一名当之无愧，但是我们会

fkyyly 2020-04-07

Python jieba 库的使用说明

counts[word] = counts.get + 1 # 遍历所有词语，每出现一次其对应的值加 1. items.sort # 根据词语出现的次数进行从大到小排序。统计了次数对多前十五个名词，曹操不愧是一代枭雄，第一名当之无愧，但是我们会

chouliqingke 2020-04-07

jieba库

jieba库：利用一个中文词库，确定中文字符之间的关联概率中文字符间概率大的组成词组，形成分词结果jieba库分词的三种模式：精确模式、全模式、搜索引擎模式精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎

fkyyly 2020-01-28

python同义词替换的实现（jieba分词）

年休假年假年休。回家场景我回来了。# 1读取同义词表，并生成一个字典。# synonymWords.txt是同义词表，每行是一系列同义词，用空格分割。# 2提升某些词的词频，使其能够被jieba识别出来。# 3将语句切分成单词。# 4返回同义词替换后

tmaczt 2020-01-21

用QQ聊天记录生成一个词云

QQ的聊天记录可以通过消息管理器，选中联系人，右键导出为.txt格式。由于是中文，需要分词，本文的分词工具采用的是jieba分词。不知道这个“福”能不能扫出来。假设你已经导出与某人的聊天记录，接下来需要先过滤再分词生成词云。在此之前需要准备一张背景图和一份

ustbclearwang 2020-01-18

用python给女朋友做一个歌曲词云图

今天咋们来看看网易云赵雷的歌曲歌词，并做一个词云图。这篇文章可以学习到什么是词云，爬虫的基本流程，简单的可视化操作。可视化有很多种，好的数据可视化，可以使得数据分析的结果更加通俗易通。"词云"属于可视化的一种，它会根据关键词的出现频率生

wyqwilliam 2020-01-12

NLP系列1：NER

　　NER即命名实体识别是信息提取的一个子任务，但究其本质就是序列标注任务。　　NER是一个基础问题，不会不行，但是也是一个非常重要的问题，下面将按照实现过程中碰到的问题依次进行阐述。首先的明白NER是一个分类任务，也叫序列标注，其实就是对文本的不同实体标

xiaocao0 2019-12-06

python新手学习使用库

Python相当于一个手机，第三方库相当于手机里各种各样的APP。当我们想搭建网站时，可以选择功能全面的Django、轻量的Flask等web框架；当我们想做一个爬虫时，可以使用Scrapy框架；当我们想做数据分析时，可以选择Pandas数据框架等，这些都

pySVNA 2020-06-14

Python——jieba库初使用

——《请回答1988》。jieba库是一款优秀的 Python 第三方中文分词库，jieba 支持三种分词模式：精确模式、全模式和搜索引擎模式，下面是三种模式的特点。

ustbclearwang 2020-05-09

jieba库的使用和好玩的词云

　　jieba库分词的三种模式：　　1、精准模式：把文本精准地分开，不存在冗余　　2、全模式：把文中所有可能的词语都扫描出来，存在冗余　　3、搜索引擎模式：在精准模式的基础上，再次对长词进行切分。　　>>> jieba.lcut　　[‘中

cqulun 2020-04-19

jieba

import jieba. words=jieba.lcut(txt.read()). counts={}. for word in words:. if len(word)==1:. continue. else:. counts[word]=count

xiaocao0 2020-04-09

运用jieba库统计词频及制作词云

二、根据词频制作词云

ustbclearwang 2020-04-08

jieba库的使用及实例

　　cmd模式下输入。　　　Jieba分词依靠中文词库。　　　　-汉字间概率大的组成词组，形成分词结果。　　　　-除了分词，用户还可以添加自定义的词组。jieba库的三种模式：。　　-精确模式：把文本精确的切分开，不存在冗余单词。#output:[‘中国‘

fkyyly 2020-03-28

Serverless 的资源评估与成本探索

Serverless 布道师在讲解 Serverless 架构和云主机等区别的时候，总会有类似的描述：。传统业务开发完成想要上线，需要评估资源使用。根据评估结果，购买云主机，并且需要根据业务的发展不断对主机等资源进行升级维。而 Serverless 架构，

cqulun 2020-02-13

cqulun

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号