C语言Linix服务器网络爬虫项目（一）项目初衷和网络爬虫概述

日本留学生

2018-03-29

一、项目初衷和爬虫概述
1.项目初衷
本人的大学毕设就是linux上用c写的一个爬虫，现在我想把它完善起来，让他像一个企业级别的项目。为了重复发明轮子来学习轮子的原理，我们不使用第三方框架（这里是说的是指通常的linux系统编程教材以外的库和接口-0-，当初我也是在虚拟机上跑的ubuntu+putty+vim来开发）来实现。
然而我们造轮子不能闭门造车，苦心孤诣，而是要站在巨人的肩膀上，这样我们才能够更好更快地把握轮子的原理，进而造出更快更结实的轮子。下面是两位前辈的博客，本项目是在这两个博客来提供的思路和部分代码上实现的，下面是这两个博客的网址，阅读这两个博客将对我们接下来的学习有很大的帮助。
缱绻的西格玛：（http://blog.csdn.net/l979951191/article/details/48650657）//大神在大二大三的时候有已经做到这种项目了，还有傅里叶变换的信号相关的文章，先膜拜一下。
尹成：（http://blog.csdn.net/itcastcpp/article/details/38883047）//清华大神就不多说了。

在做项目之前先要了解项目相关的内容：
（1）该爬虫就功能来说比较单一，但是作为一个个人的学习项目来说又是相对完整的。
（2）该爬虫可优化的地方太多，很多的方案不一定是最好的，所以该爬虫仅仅适合于新手的学习
（3）这个算是一个完整的项目，基于linux的，是纯C的。
（4）因为我也以此项目来学习的，我觉得作为学习项目还是具有一定的学习价值：
通过此项目，我们将学会几种思想：软件框架思想，代码复用思想，迭代开发思想，增量开发思想
通过此项目，我们将会掌握并巩固以下技术要点：
1、Linux进程及调度 2、Linux服务 3、信号 4、Socket编程 5、Linux多任务 6、文件系统 7、正则表达式 8、shell脚本 9、动态库
另外我们还会学到一些额外的的知识：
1、如何使用HTTP协议
2、如何设计一个系统
3、如何选择和使用开源项目
4、如何选择I/O模型
5、如何进行系统分析
6、如何进行容错处理
7、如何进行系统测试
8、如何对源代码进行管理
星辰大海已横于前，云帆挂起，让我们开始一起开始学习的征程吧！
2.爬虫概述
网络爬虫是搜索引擎的一个重要基本功能。由于互联网上的信息非常庞大，我们借助搜索引擎很容易得到自己需要的信息。搜索引擎首先需要一个信息采集系统，即网络爬虫，将互联网上的网页或其它信息收集到本地，然后对这些信息创建索引。当用户输入查询请求的时，先对用户的查询请求进行分析，然后在索引库中进行匹配，最后对结果进行处理，返回结果。
网络爬虫不仅是搜索引擎的重要组成部分，在信息采集、舆情分析、情报收集等一些需要进行数据采集的业务系统中也应用广泛。对数据的采集是对大数据进行分析的重要前提条件。
网络爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。
网络爬虫从一个初始的URL集合出发，将这些URL全部放入到一个有序的待提取URL队列里；然后从这个队列里按顺序取出URL，通过Web上的协议，获取URL所指向的页面，从这些已获取的页面中分析提取出新的URL，并将它们继续放入到待提取URL队列里，一直重复上述过程，获取更多的页面。

下一篇我们对爬虫项目进行简单的设计并通过一个简单的http请求实现对一个网页抓取。

c语言

安科网

C语言Linix服务器网络爬虫项目（一）项目初衷和网络爬虫概述

日本留学生

日本留学生

相关推荐

编程语言TOP10！该如何选择适合自己的？

看完这篇你还能不懂C语言/C++内存管理？

Web安全：文件解析漏洞

常见的C语言内存错误及对策

什么是状态机？用C语言实现进程5状态模型

C语言有了\"链表\"还用\"数组\"干嘛?被问懵了......

C语言操作时间函数，实现定时执行某个任务小程序

C语言未来会如何发展，你怎么看？

OS开发爱好者福利：树莓派上编译C语言，顺便掌握一波硬件知识

十分钟带你理解C语言中的链表

学c++需要先学c语言吗？

为什么Unix不用功能更强大的C++而是用C编写

python与c语言的语法有哪些不一样的

如何用C语言做贪吃蛇小游戏？

【揭秘】C语言类型转换时发生了什么？

C语言初学——注释

9. C语言判断素数（求素数）（两种方法）

用C语言从头开始实现一个神经网络

学C语言好还是Python好？

C语言实现：键盘输入三个数字，输出最大值

日本留学生