采集Toomics玩漫流程:火车头+反向代理+Referer伪造破解防盗链。

Toomics是一家韩国漫画公司,其内容也有中文版。

至于怎么进去,不便多说。

 

第一步:弄个VIP账号,不然内容有访问限制。

获取一下Cookies信息。

 

 

第二步,网址采集规则。

这里我们需要用到高级模式。因为漫画,列表页之后并不是内容页。而是该漫画的列表页。

所以我们需要一级列表页和二级列表页。

 

从排行榜页面可以获得所有漫画列表。

起始网址:https://global.toomics.com/sc/all/webtoon/ranking

发现其漫画列表页的URL规则为“/sc/webtoon/episode/toon/[参数:ID]”

那一级列表页就好办了,直接自动获取链接地址,内容必须包含“/sc/webtoon/episode/toon/”

 

二级列表页也好办。

选择  手动设置规则

提取规则 :

1
<a href="javascript:;" onclick="location.href='[参数]'" onkeypress="this.onclick" >

拼接地址:

1
https://global.toomics.com[参数1]

 

严谨一点的话,二级列表页链接过滤,必须包含“/sc/webtoon/detail/code/”

测试一下

OK齐活,下一步

内容采集规则太简单了,就没有说的必要了吧,最后我把规则奉上就好。

 

然后我发现啊,采集过来的图片,直接访问的话,返回403。

 

应该是开启了防盗链。

那么我就伪造Referer试了一下。

 

好家伙,图片正常显示了。

 

然后思路就来了。

画个拓扑图

 

大概就是这样,用yousite.com(你的域名)的服务器作为反代中转。

(中转服务器需要为境外,境内的无法访问该域名)

然后采集内容的时候,批量把“toon-g.toomics.com” 替换成 “yousite.com”

在这里以bt控制面板的nginx环境为例。

新建一个站点,设置反向代理。

 

 

然后修改配置文件,去伪造Referer。

找到相应的位置添加如下代码。

1
proxy_set_header referer https://global.toomics.com;

访问试试。。

 

OK,完美破解防盗链

 

基本是没问题了。接下来

 

 

 

 

 

评论3

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #1
    我缺的是采集吗 我缺的是漫画cms
    春卷2019-02-21 9:34:53回复
    • 刘大志
      liudazhi2019-02-21 19:45:10回复
      • 欢迎来加入我们,小涴熊漫画cms
        咸鱼翻身2019-03-07 19:54:25回复
来了死鬼
登入/注册
卧槽~你还有脸回来
没有账号? 忘记密码?