似乎出了些问题,可能是服务器繁忙,请稍后再试!

如果报错不属实,请联系管理员:ADMIN@WSGOWYF.ICU可查看 常见问题  或 加入群聊 反馈!

常见问题 - 常见问题 - 在线扒站工具-网页源码打包下载_手机扒站_仿站工具_在线扒站官网

平台介绍

本站提供的工具永久免费使用!

顾名思义。本平台提供的工具可将指定网页的资源下载并打包在线下载。

注意,这里指的网页资源为前端网页资源,即为javascript,css,html,图片,媒体文件。如php等属于服务端语言,本工具无法实现下载其代码!

本站不会对目标网站的稳定性造成影响。本工具限制相同网址每请求一次需要三分钟后才可请求一次!每个用户每使用一次需要间隔一分钟才可再次使用本工具!

本平台提供的工具暂不支持下载由javascript或其他脚本异步动态生成和插入的资源,只支持同步静态加载的网页资源。

本平台提供爬取并存储在服务器上的资源的预览页面,不得使用本工具爬取违法违规钓鱼诈骗的内容,不得将本站提供的预览页面用于不法用途。

用户可开放下载爬取成功的压缩包。可查看任何历史记录的详细请求消息。可在历史列表公开查看缓存的资源。

出于平台服务器性能的考虑,本工具只允许爬取单个页面。不支持遍历网页中的a标签,且iframe向下最大5层。网页中的资源最大20MB,超过直接跳过!

常见问题

如您在使用本平台时可能会碰到一些问题,将会在下面为您解释各种问题或提供解决方案!

信息:SOCKET读写错误

因为部分国内服务商为防止境外攻击,就将所有境外流量进行拦截,而本平台服务器位于境外。导致本平台服务器无法访问。

也可以是当前服务器socket满了。您可以稍后重试。如果第二次不行基本上就是第一个原因!

SOCKET读写错误

信息:网页存在违规词/拦截域名

该网页存在违规词

为何要拦截?为何需要违规词?让我给你看看一天内,后台拦截关键词的记录

该网页存在违规词后台记录

如果我不拦截这类网页。本站历史列表和预览页面将会乌烟瘴气。而且涉及法律问题。

永远不要认为各种拦截是有害的。不仅是法律问题。做为一个站长,不会愿意自己的网站被违法违规的内容搞得乌烟瘴气

如果网站没有任何在中国大陆是违规违法的内容的话。可以联系管理员邮箱或进入交流群寻找站长添加白名单。

以下网站【找快照】就是最好的例子:

找快照被违法违规内容爆破

信息:不支持的网页类型/请求爬取的网页类型非HTML

不支持的网页类型/请求爬取的网页类型非HTML

原因:请求爬取的页面的类型并不是html(通过头部Content-Type判断)。可尝试自行下载。

极小部分情况,主机商禁止了国外流量,返回一个空白的网页,并且设置Content-Type为非html

信息:错误的网页状态码

错误的网页状态码

原因:网页返回了非200的状态码。自动默认为无法打开。但是排除返回以下状态码:404,403,400

信息:禁止请求内网地址/该域名指向(解析)到内网地址

该域名指向(解析)到内网地址

第一个问题一眼能看出。你请求扒内网的地址(127.x.x.x,192.168.x.x,10.x.x.x,172.x.x.x)。

第二个问题也许你很疑惑。我明明可以打开,可为什么他解析内网地址?我来给你几个例子。

如果你在国内。使用国内的dns解析域名。获得正确的ip

使用国内的dns解析域名

如果你在国外。使用国外的dns解析域名。获得错误的ip

使用国外的dns解析域名

这是因为部分主机商。为了防止来自国外的攻击。将境外解析为本地地址。而本平台服务器就在境外,所以会解析到错误的IP!

提示:无法解析域名[ENOTFOUND]/解析域名超时

无法解析域名

这种情况是因为平台服务器无法正确解析您输入的网站的域名记录。一般都是因为网址输错了,或者输入的域名根本就没解析。

在您输入网址后不妨试一下自己能不能打开。

chrome无法解析域名

提示:浏览器不支持COOKIE或者不正常访问

如果网页链接存在/?rand=类似字符。或者显示:浏览器不支持COOKIE或者不正常访问!。以下提供的方法可能可以解决该问题:

首先清空你的浏览器Cookie,并访问一次该网页。首次在地址栏中会出现/?rand=xxx,将他完整复制下来。

浏览器不支持COOKIE或者不正常访问!

打开审查元素(或开发者工具),点击network,并刷新一次网页。点击第一个资源,找到Request headers中的Cookie,完整复制,如图所示

提示:浏览器不支持COOKIE或者不正常访问

提示:浏览器不支持COOKIE或者不正常访问

信息:该网页似乎使用了防攻击机制

这种页面大部分都出现在代刷,秒赞等网站。本站会及时更新上线新功能。

防CC机制

目前支持绕过的防CC机制特征:

  • sec_defend(存在大量fuckjs混淆的代码)

    目前支持绕过的防CC机制特征

  • window.location=cbk_defender

    目前支持绕过的防CC机制特征

  • window.location=caihong_defender

    目前支持绕过的防CC机制特征

成功绕过将会在详细信息中加入备注:

详细信息

压缩包文件说明

在下载的压缩包中我们会加入[result.json],[resource.json]和[readme.txt]文件,您可以直接将它们删除。

压缩包文件说明

压缩包中的.original.xxx是因为开启了格式化选项,该文件为未压缩的原始文件

[readme.txt] 文件中存储了推广信息和捐赠我们的方式。

[result.json] 文件中存储了该次请求的详细信息,包括但不限于网址、Cookie。

[resource.json] 文件中我们存储了该次请求爬取的网页的资源树信息。

以下为 [result.json] 中的数据的说明:

  • directory [爬取缓存别名]<String>
  • options [请求参数] [key: String]: any }
    • url [请求的非原始网址 (301跳转过或处理过的URL)]<String>
    • domain [请求的URL解析出的域名]<String>
    • originURL [请求的原始网址,未经过处理的URL]<String>
    • request [请求信息] {headers: { [key: String]: String } }
      • headers [头部信息] { [key: String]: String }
    • response [返回信息] {headers: { [key: String]: String } }
      • headers [头部信息] { [key: String]: String }
  • formatter [请求格式化代码选项,包含HTML CSS JS 选项] { [key: String]: Boolean }
    • css [是否格式化CSS]<Boolean>
    • html [是否格式化HTML]<Boolean>
    • javascript [是否格式化JS]<Boolean>
    • save-original [是否保存未格式化的原始文件]<Boolean>
  • user [用户信息: 部分隐藏] { [key: String]: Boolean }
    • isWhite [是否白名单用户。白名单用户可无限制,不限频率使用,可以联系管理员添加!]<Boolean>
  • time [时间记录] { [key: String]: Number | String }
    • start [开始爬取时间戳]<Number>
    • end [爬取结束时间戳]<Number>
    • spend [爬取总用时/s]<String>

以下为 [resource.json] 中的数据的说明:

  • success [下载成功资源] { [key: String]: any }
    • url [资源网址]<String>
    • path [资源存储在本地的路径]<String>
    • children [资源的子资源,标准树结构]<Array>
  • failures [下载失败或跳过的资源]<Array<String>>