强烈建议你试试无所不能的chatGPT，快点击我

爬虫入门到精通-开始爬虫之旅

阅读量：6084 次

发布时间：2019-06-20

本文共 557 字，大约阅读时间需要 1 分钟。

开始爬虫之旅

本文章属于第一讲

引言

我经常会看到有人在知乎上提问、、等这一些问题，我写这一系列的文章的目的就是把我的经验告诉大家。

什么是爬虫?

引用自维基百科

网络蜘蛛（Web spider）也叫网络爬虫（Web crawler），蚂蚁（ant），自动检索工具（automatic indexer），或者（在FOAF软件概念中）网络疾走（WEB scutter），是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。

我的理解就是可以自动的抓取数据

爬虫能做什么？

可以创建搜索引擎（Google，百度）

可以用来抢火车票

带逛

简单来讲只要浏览器能打开的，都可以用爬虫实现

可以参考以下链接，还有很多好玩的~

爬虫的本质是什么？

简单来讲就是模仿浏览器来打开网页

那我们应该如何模仿浏览器呢？

我们首先应该要知道"浏览器是怎么打开网页？"

一旦我们知道浏览器是怎么打开网页的，那么我们可以通过同样的手段来模拟浏览器

大家有兴趣的话可以看看如下文章

最后的最后，收藏的大哥们，能帮忙点个赞么~

转载地址：http://ohkwa.baihongyu.com/

你可能感兴趣的文章

HP DL380G5安装Win2012后开启Hyper-V

信息系统项目管理师系统集成项目管理工程师相关法律法规

标准io和管道

微会动平台免费开放多种活动场景现场抽奖功能产品助力企业市场活动

Project：如何分析项目中的资源分配情况

IT男的悲惨命运（自己写的连载中）2

SQL server网络数据库的简单应用

OpenBSD忘记root密码恢复

jdbc报java.lang.ClassNotFoundException: com.mysql.jdbc.Drive

从地址栏输入url到页面显示的步骤

iOS快速集成支付宝

深入理解编译注解（五）RetentionPolicy.SOURCE 和 RetentionPolicy.CLASS区别讨论

nosql数据库：mongodb,redis,memcached,其优缺点和使用应用场景

移动端输入框如果类型是number，用户也可以输入汉字和字母

【排序算法】基于交换的排序算法（冒泡排序和快速排序）

iOS 地图定位定位

Matplotlib 画廊

Node.js 服务器

Redis 高级主题之HyperLogLog

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-04 12:24:49 当前IP: 18.118.24.176 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我