PHP抓取网页、解析HTML常用的方法总结

6年以前 | 阅读数：1244 次 | 编程语言：PHP

概述

爬虫是我们在做程序时经常会遇到的一种功能。PHP有许多开源的爬虫工具，如snoopy，这些开源的爬虫工具，通常能帮我们完成大部分功能，但是在某种情况下，我们需要自己实现一个爬虫，本篇文章对PHP实现爬虫的方式做个总结。

PHP实现爬虫主要方法

1.file()函数
2.file_get_contents()函数
3.fopen()->fread()->fclose()方式
4.curl方式
5.fsockopen()函数，socket方式
6.使用开源工具，如:snoopy

PHP解析XML或HTML主要方式

1.正则表达式
2.PHP DOMDocument对象
3.插件，如:PHP Simple HTML DOM Parser

总结

这里对PHP实现爬虫的方式做个简单得总结，本篇设计到得内容还有很多，稍后会对PHP解析HTML和XML的方式做个总结。

PHP分页显示制作详细讲解

PHP · 发表于 6年以前 · 阅读量：10233

发送邮件

Shell · 发表于 2年以前 · 阅读量：4042

SSH 登录失败：Host key verification failed

Shell · 发表于 6年以前 · 阅读量：4038

获取IMSI

JAVA · 发表于 6年以前 · 阅读量：3773

双位运算符

JavaScript · 发表于 5年以前 · 阅读量：3746

文件下载

JAVA · 发表于 6年以前 · 阅读量：3733

年的日历图

Python · 发表于 5年以前 · 阅读量：3720

将二进制数据转为16进制以便显示

JAVA · 发表于 6年以前 · 阅读量：3709

提取后缀名

Python · 发表于 5年以前 · 阅读量：3695

贪吃蛇

JAVA · 发表于 6年以前 · 阅读量：3693

PHP自定义函数获取搜索引擎来源关键字的方法

PHP · 发表于 6年以前 · 阅读量：3488

获取IMEI

JAVA · 发表于 6年以前 · 阅读量：3479

Java生成UUID

JAVA · 发表于 6年以前 · 阅读量：3394

让你成为最历害的git提交人

Shell · 发表于 6年以前 · 阅读量：3186

在Zeus Web Server中安装PHP语言支持

PHP · 发表于 6年以前 · 阅读量：3184

Yii2汉字转拼音类的实例代码

PHP · 发表于 6年以前 · 阅读量：3151

再谈PHP中单双引号的区别详解

PHP · 发表于 6年以前 · 阅读量：3108

Python 2与Python 3版本和编码的对比

Python · 发表于 6年以前 · 阅读量：3092

指定应用ID以获取对应的应用名称

JAVA · 发表于 6年以前 · 阅读量：3072

Android执行Shell

JAVA · 发表于 5年以前 · 阅读量：3070