php 采集书并合成txt格式的实现代码

5年以前  |  阅读数:868 次  |  编程语言:PHP 

<?php
/**

  • @name 采集书.php
  • @date Sun Mar 01 22:48:02 CST 2009
  • @copyright 马永占(MyZ)
  • @author 马永占(MyZ)
  • @link http://blog.csdn.net/mayongzhan/
    /
    //header('Content-Type:text/html;charset=utf8');
    header('Content-Type:text/html;charset=gb2312');
    error_reporting(E_ALL);
    date_default_timezone_set('Asia/Shanghai');
    set_time_limit(0);
    function writer($content,$url)
    {
    $fp = fopen($url, 'ab');
    fwrite($fp, $content);
    fclose($fp);
    }
    $folder = '2'; //文件夹
    $book_base_url = 'xxxxxxxxxxxxxxxxxxxxx';
    $book_url = 'yyyyyyyyyyyyy.html';
    $main = file_get_contents($book_base_url.$book_url);
    preg_matchall('/chapter.
    ?\.html/', $main, $pages);
    $pages = array_unique($pages[0]);
    foreach ($pages as $value) {
    writer(file_get_contents($book_base_url.$value), './'.$folder.'/'.$value.'.txt');
    $str = file_get_contents('./'.$folder.'/'.$value.'.txt');
    //print_r($str);
    preg_match("/(

    )(.?)(<\/h1>)(.?)(<div id=\"contTxt\" class=\"contTxt1\">)(.?)(<\/div>)/s",$str,$arr);
    //print_r($arr);die();
    $arr[6] = preg_replace("/(<span[^>]+>.
    ?<a[^>]+>)(.*?)(<\/a><\/span>)/s","$2",preg_replace("/

    |<\/p>/","\r\n",$arr[6]));
    $result = "\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n----------------".$arr[2]."\r\n------------------------------------------------\r\n------------------------------------------------\r\n------------------------------------------------\r\n".$arr[6];
    writer($result, './'.$folder.'/new.txt');
    }
    ?>

 相关文章:
PHP分页显示制作详细讲解
SSH 登录失败:Host key verification failed
获取IMSI
将二进制数据转为16进制以便显示
获取IMEI
文件下载
贪吃蛇
双位运算符
PHP自定义函数获取搜索引擎来源关键字的方法
Java生成UUID
发送邮件
年的日历图
提取后缀名
在Zeus Web Server中安装PHP语言支持
让你成为最历害的git提交人
Yii2汉字转拼音类的实例代码
再谈PHP中单双引号的区别详解
指定应用ID以获取对应的应用名称
Python 2与Python 3版本和编码的对比
php封装的page分页类完整实例