--------------------------------------------------
20211105:
Lofter修改了Tag的显示,不能看50页之后的内容了,因此本工具正式宣告报废(……)
--------------------------------------------------
20200722:
新增整理辅助工具,见最下
--------------------------------------------------
20200713:
更新1.0.7版
- 新增存文模式可以每个作者单独分文件夹
--------------------------------------------------
20200711:
更新1.0.6版
- TAG模式下输入【过滤关键词】会过滤TAG(但不会过滤标题和内容),非TAG模式下不会过滤TAG,只会过滤标题和内容
--------------------------------------------------
20200710:
更新1.0.5版
- 新增暂停按钮,TAG模式无效,点击之后会暂停,然后会多出一个【保存未下载完成的链接】的按钮,点击后会在选择的目录下生成一个叫“__UrlNotComplete”的txt文件,之后可以选择这个文件从暂停的进度继续开始
注意:暂停之后再按开始,【会从头开始!】
- 修正了存图卡住的问题
--------------------------------------------------
20200709:
更新1.0.4版
- 日志里可以看到url记录了。我意识到防Jubao没啥意义,反正也没Lof屏蔽的快
--------------------------------------------------
20200707:
更新1.0.2版
--------------------------------------------------
20200704:
更新1.0.1版
--------------------------------------------------
感谢LOFTER TAG下&同作者下 图文批量下载方法的启发,写了个爬虫(?)软件
长这样:
使用效果这样:
文会按照网页标题存储(网页标题是文章标题-作者名这么个格式)成txt。
图会按照作者名创建文件夹单独存储,图片名第一个数字本身无意义,但如果相同,代表图片是同一篇日志中抓取的,第二个是图片在该日志中的编号
使用方法:
很重要的点:文和图的读取不一样!不管用哪种模式,都需要分别运行!(就算用的是看起来混在一起的红心模式或者作者模式!)一定要注意选存文or存图的选框!
【--- 20200704更新部分开始 ---】
【存TAG】
选择存储路径
选择TAG搜索模式,输入想要存的TAG名。
- 选存文还是存图不影响这一步
- 这一步关键词过滤只会过滤完全匹配的TAG
- 如果有过滤热度的需求建议在这一步做
完成后,会在存储位置生成两个txt文件:ArticalUrlFile.txt和PicUrlFile.txt
选择地址模式,点击选择文件,想要存文选择ArticalUrlFile,想要存图选择PicUrlFile
选择需要存的类型(勾选框的存文or存图),选择需要的设置,点击开始
完成后,会在存储路径下建立一个名为“__Log.txt”的日志文件
【存点过的红心】
使用Chrome或者其他可以复制网页源码的浏览器
在红心页面下拉到最底端(可以看到选择页数)
在页面的空白处右键 - 检查(Ctrl+Shift+I)
在最顶端的html标签处右键,选择Edit as HTML
Ctrl+A全选,复制到新建的文档中,保存为txt
(在软件中)选择喜欢模式,选择↑保存的文件,点击开始
(在lofter网页中)翻到下一页,重复以上步骤
因为会重复多次,建议建两个文件夹,存完一次清空一次之前的,因为图片不会自动重命名,只会跳过
红心页面不能和tag那样可以改地址翻页,只能手动一页一页存源码,麻烦了点
【--- 20200704更新部分结束 ---】
【--- 20200707更新部分开始 ---】
【作者模式】
在作者归档页面拖到底后保存源码(具体见红心模式)
选择作者模式,选择文件,点击开始
【--- 20200707更新部分结束 ---】
【应该没啥用了姑且还是列出来的小图模式】
能想到的用处只有拿来存总榜
TAG页面小图模式,滚轮滚到拉不动(或者到你需要的位置)
右键检查 - Edit as HTML - 保存为新的txt
(在软件中)选择地址模式,选择↑文件,配置,开始
设置介绍:
列表逆序: 主要是为了重命名同名文件服务的,如果所存的url是按照章节顺序列的(比如从推文号/整理号获取的)就不要选,如果是用TAG页面扒的就需要勾选。默认勾选。
重命名同名文件:字面意思。有些太太发连载不会在标题写章节数,导致存储的时候会和之前的章节同名。不勾选的话会直接跳过后面的同名文件
过滤热度:字面意思,过滤热度在所填数目以下的作品。设置了可能会慢一点,因为会对热度进行一次正则匹配
过滤关键词:只对文有效。过滤标题及正文中含有所填关键词的文章。使用【英文】的分号(;)对多个关键词进行分割。
eg.【阅读体;占tag致歉;宣群】代表过滤含有【阅读体】或者【占tag致歉】或者【宣群】的文
检查日志:
推荐下载Notepad++来查看日志(EmEditor也行,但这个只有30天免费试用期)
第一部分配置,长这样
特别说明:读取到x个链接代表的是文件中含有x个链接,实际下载的数目会因为过滤而减少
第二部分
需要关注的内容会在最开始有个标签
【ERROR】类:代表存储途中出现错误。除了获取热度失败以外,其他都是没有成功存储内容。
【ERROR】(链接) : 错误说明(英文):一般是网络类错误
【ERROR】存在匹配失败的数据!:urlTxt文件中存在无法提取链接的数据,一般是出BUG了,碰到请告诉我
【ERROR】【文章url】获取热度失败:在开了热度过滤之后才会出现,没有匹配到热度数据,可以手动检查
【ERROR】文章url : 网页内容不存在或读取错误: 一般是这篇文章被删了,碰到过一次网页存在但报错了,没能重现出来。为了防止这种情况,可以提取相关行(见下)重新存储一遍
【ERROR】【文章url】【文章标题】错误 :存储时出错
【IMG】:代表这篇文章中包含图片。依旧会存储网页的文字部分,同时会在创建的needCheckImg文件夹中保存一个内容部分的网页源码文件,方便确认图片地址(但直接从日志中打开原网页更快)
【IGNORE】【文章url】【文章标题】已过滤关键词 : 触发过滤的关键词 :因为存在过滤关键词而被筛选掉的文章,可以提取相关行检查是否有误伤
【SAMENAME】打开重名自动改名后出现。代表有重名文件并且已经自动改名
提取日志行的方法:
Notepad++部分:
1. 点击搜索 - 标记...,在查找目标中填入需要提取的关键词(如【ERROR】),勾选“标记所在行”,点击标记全部。
2. 点击搜索 - 书签(倒数第二个) - 复制书签行
3. 新建文档(可以直接在tab栏双击)黏贴
Emeditor部分:
1. 点击搜索 - 查找(Ctrl+F),输入关键词,点击全部设为书签
2. 点击编辑 - 书签 - 提取书签行至新文件中
然后见↓,有BUG或者想要的需求可以在评论里告诉我
对了它可以在后台运行,不用一直看着哈
保存的文包的整理辅助工具:
按照作者分类,可能会有没分类成功的。
是根据-分割标题来拆分文章-作者名的,如果作者的名字里有“-”就可能拆出来不太对(但保证同一个作者都在一个文件夹里),如果作者名以“-”结尾,就会拆不出来,这时候手动分一下哈,不在作者文件夹里的这软件会识别不出来
以及这个也可以分非txt的,有些太太发图片的话我会重命名成文档的名字放在外层,然后用分类就会分去每个作者的文件夹了
作者那条的打开是打开作者的归档页,删除是删除这个作者的所有txt(删文件夹)