使用koa写一个漫画下载的爬虫 - CNode技术社区

项目说明

使用koa2.x，nodejs>=7.6,
使用async await解决异步，
使用request-promise配合async await解决请求异步
使用cheerio处理选择img标签

核心代码，spider.js

const fs = require('fs');
const request = require("request-promise");
const cheerio = require("cheerio");
const mkdirp = require('mkdirp');
const config = require('../config');

exports.download = async function(ctx, next) {
    const dir = 'images';
    // 图片链接地址
    let links = [];
    // 创建目录
    mkdirp(dir);
    var urls = [];
    let tasks = [];
    let downloadTask = [];
    let url = config.url;
    for (var i = 1; i <= config.size; i++) {
        let link = url + '_' + i + '.html';
        if (i == 1) {
            link = url + '.html';
        }
        tasks.push(getResLink(i, link))
    }
    links = await Promise.all(tasks)
    console.log('links==========', links.length);

    for (var i = 0; i < links.length; i++) {
        let item = links[i];
        let index = item.split('___')[0];
        let src = item.split('___')[1];
        downloadTask.push(downloadImg(src, dir, index + links[i].substr(-4, 4)));
    }
    await Promise.all(downloadTask);
}
async function downloadImg(url, dir, filename) {
    console.log('download begin---', url);
    request.get(url).pipe(fs.createWriteStream(dir + "/" + filename)).on('close', function() {
        console.log('download success', url);
    });
}
async function getResLink(index, url) {
    const body = await request(url);
    let urls = [];
    var $ = cheerio.load(body);
    $(config.rule).each(function() {
        var src = $(this).attr('src');
        urls.push(src);
    });
    return index + '___' + urls[0];
}

代码地址，有需要可以看看

koa-spider代码地址

代码运行效果

GQ)PW}B)7UYH6LZ_SFE~AG7.png

下载美女图片的效果

maochunguang 1楼•1 年前作者

欢迎拍砖，我会虚心接受！

Alexis374 2楼•1 年前

用koa是干嘛的

nasaplayer 3楼•1 年前

我去这图片~

hellojukay 4楼•1 年前

要爬就爬 meizitu.com

maochunguang 5楼•1 年前作者

@Alexis374 用express也可以，都只是启动个server而已，我用koa只是想用async await

maochunguang 6楼•1 年前作者

@hellojukay 稍微改一下就可以爬这个网站

Equim-chan 7楼•10 个月前

没有必要用Koa吧，完全可以做成一个CLI应用啊……

maochunguang 8楼•10 个月前作者

@Equim-chan 用啥都行，看喜好呗，用koa是想继续扩展，做成一个通用的爬虫模型

nullcc 9楼•10 个月前

可以爬1024 哈哈

Equim-chan 10楼•10 个月前

@maochunguang 其实我也做过类似的东西（爬的E站，比较简单），用了promise-map-limit来控制并发。

maochunguang 11楼•10 个月前作者

@Equim-chan 可以把连接发一下，我放在一起，做个比较

Equim-chan 12楼•10 个月前

@maochunguang 因为这个用途有点羞耻(?，所以我还没有发布到什么地方，只是自己拿来用

maochunguang 13楼•10 个月前作者

@Equim-chan 这没啥，说不定别人也有这个需求，关键是分享

Equim-chan 14楼•10 个月前

@maochunguang 我可以先私发一个给你看看

Yuki-Minakami 15楼•10 个月前

我爬过pixiv.net，主要搞一些二次元的同人作品厚脸皮贴个链接： PHelper

一点建议 1.爬取链接和下载图片完全分离，两者的流量和耗时不是一个级别的 2.用多进程来爬，控制好并发 3.就算做通用模型也必要用koa，除非你想山寨一个一样的网站

maochunguang 16楼•10 个月前作者

@Yuki-Minakami 建议很好，我试着改改看

semicoyoung 17楼•10 个月前

整天扒图片，还不如多扒小黄片的磁力链接然后分享出来，哈哈哈

maochunguang 18楼•10 个月前作者

@semicoyoung 没写过下载视频的，下载视频的网络是很大问题，程序难度不大。

回到顶部