mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4mobile wallpaper 5mobile wallpaper 6
3290 字
9 分钟
安娜的档案完成中文发布

安娜的博客:中文版本正式发布#

发布于annas-archive.li博客,2025年11月28日

内容提要:历时两年筹备的中文版本终于正式上线,本文将对相关工作内容进行概述。

我们欣喜地宣布,始于两年前本月的中文版本筹备工作已圆满完成。在一众中文志愿者的不懈努力下,我们成功整合并发布了读秀及其他多个中文文献馆藏资源。下文将对各子馆藏资源及相关工作情况进行简要介绍。

华艺电子书#

由志愿者j爬取自华艺电子书平台(网址:airitibooks.com)。

大学数字图书馆国际合作计划(CADAL)#

这是一个古籍文献馆藏库。志愿者bpb9v介绍道:“1. 该馆藏库的建设分为两个阶段,第一阶段为2001至2006年,完成了100万册图书的数字化;第二阶段为2007至2012年,新增了150万册数字化图书。此前志愿者woz9ts分享下载链接的馆藏资源,均来自第一建设阶段。2. 这批馆藏资源由一位名为h的人士在2016年前下载获取,其利用了平台的部分技术漏洞完成下载。我查到的关于该馆藏库的最早分享链接发布于2015年4月。3. 该馆藏库包含超过60万个文件,其中约半数为图书或期刊,剩余半数为论文,目前暂无法通过文件编号对两类资源进行区分。4. 据我所知,h曾在2021年分享过部分第二阶段的下载资源,但未找到其他相关信息来源。此外,我在自己的云盘里发现了一个文件夹,里面存放着大量读秀的图书资源,但暂时不清楚这些资源的具体来源。“

cgiym 馆藏#

由志愿者cgiym整理提供,文献内容来源于多个渠道(在馆藏中以子目录形式区分),其中包括机械工业出版社(中国大型出版社之一)的出版物。

中国建筑文献馆藏#

由志愿者cm爬取的中国建筑类书籍资源。cm表示:“我是利用某出版社的网络漏洞获取到这批资源的,不过该漏洞目前已被修复。“

得到馆藏#

由志愿者qp爬取自得到平台的电子书资源。

读秀馆藏#

读秀是由超星数字图书馆集团打造的大型扫描图书数据库,馆藏以学术类书籍为主,数字化后主要面向高校及图书馆提供服务。对于我们的英文读者,普林斯顿大学华盛顿大学的相关资料中对读秀有较为详尽的介绍。此外,《数字化中国书籍:超星读秀学者搜索引擎案例研究》一文也提供了丰富的背景信息。

长期以来,读秀平台的图书资源一直在中国互联网上被非法传播,倒卖者往往以不足1美元的低价对外售卖。这些盗版资源通常通过中国版的谷歌云端硬盘类平台进行分发,而这类平台又常常被黑客攻击以扩充存储空间。相关技术细节可参考此处此处

尽管这些图书资源已处于半公开传播状态,但要实现批量获取仍存在不小难度。我们曾将批量获取读秀资源列为高优先级待办事项,并计划投入数月的全职工作时间推进此事。然而,2023年末,一位能力出众、令人赞叹的志愿者主动联系我们,表示其已独立完成了所有相关工作——并且为此付出了巨大的代价。该志愿者无偿向我们分享了完整的馆藏资源,仅希望这些资源能够得到长期妥善保存。这种无私奉献的精神令人钦佩。

读秀资源的种子文件文件路径清单中包含的PDF文件,均由原始ZIP格式文件转换而来。部分格式转换工作借助我们的PDG格式转换工具完成,该工具由志愿者基于相关代码改编优化而成。对于已为PDF、EPUB、DJVU等通用格式的文件,则被归入不同的”上传版”种子子馆藏数据集说明文档文件路径清单中。

读秀EPUB馆藏#

由志愿者w直接从读秀平台收集的EPUB格式电子书。由于只有近年出版的读秀图书才会提供电子书版本,因此该馆藏中的资源大多为较新的出版物。

读秀TS格式馆藏#

由志愿者w爬取的更多读秀资源,文件为”TS*“格式(较新版本的文件格式)。

国学大师EPUB馆藏#

志愿者woz9ts介绍道:“国学大师资源库的网址为 https://www.guoxuedashi.net/ 。该网站收录了丰富的古籍资源,曾推出过多个版本的本地阅读器(阅读器内置加密元数据及全文数据库)。我已找到提取密钥并解密数据库的方法,本次整理的’gxds’馆藏,覆盖了国学大师资源库的软件资源文件夹内容。“

华服志馆藏#

由志愿者w爬取自华服志网站(huafuzhi.com)的资源,馆藏图书主要由中国纺织出版社出版。

台湾华文电子书库馆藏#

由志愿者bl爬取自台湾华文电子书库的资源。志愿者bpb9v补充道:“我了解到国学大师的内部社群此前也曾爬取过该平台的资源,我还在某售书网站上见过相关的资源合集。“

龙泉司法档案馆藏#

由志愿者c提供的龙泉司法档案精选资源。该馆藏的部分元数据可查阅《龙泉司法档案索引表.xls》,详细说明信息可参考《使用说明文档.txt》。

人民邮电出版社馆藏#

由志愿者w爬取自人民邮电出版社的图书资源。

科学文库馆藏#

由志愿者qp、w及ma联合爬取自科学文库的资源。qp介绍说:“2024年8月,该网站出现了一个前所未有的技术漏洞,我们组织了约30人的团队开展爬取工作。“

上海图书馆古籍馆藏#

来自上海图书馆的古籍资源。

ZJJD馆藏#

由志愿者w爬取自ZJJD.cn网站的资源,更多相关信息可参考文献1。该馆藏中的不少图书仅为预览版本,因此仅收录了这类图书的元数据信息。w使用AES加密密码”xSeZw1dY2HKAj3yk”,将后缀为.zjjd的文件解密转换为PDF格式文件。

书格馆藏#

由志愿者cgiym和woz9ts联合整理的书格网站(shuge.org)资源合集。

书魁网中国数字图书馆馆藏#

爬取自书魁网的资源,该网站是一个中文影子图书馆,其文件分发及加密方式十分特殊。我们推测解密网站jyjl.org与书魁网的运营者为同一人,采用分开运营的模式是为了规避法律风险。本次我们成功获取了该网站的”二级馆藏”(即中国数字图书馆,由中国国家图书馆下属企业建设)。其”一级馆藏”的爬取工作目前尚未开展,不过该馆藏资源与我们已有的读秀馆藏存在较高重合度。 志愿者bpb9v解释道:“该平台从未提及这个馆藏的完整名称,只以’中数’代称。我猜测’中数’指的就是’中国数字图书馆’。该馆藏由中国国家图书馆下属的一家公司负责建设,有时也被称为’中数书屋’。“

中国社会科学文库馆藏#

由志愿者w爬取的中国社会科学文库元数据资源。目前该文库的实体文件爬取工作仍有待推进。

超星期刊馆藏#

超星公司是读秀平台的运营方。志愿者bpb9v介绍道:“超星期刊的阅读链接格式示例为 https://epubf.5read.com/qikan/ZYJC/ZYJC202201/index.html ,对应的原版PDF文件下载链接格式为 https://epubf.5read.com/qikan/ZYJC/ZYJC202201/files/extfile/ebook.pdf 。其中’ZYJC’是《中国中医基础医学杂志》的拼音缩写,‘220101’代表2022年第1期。“

台湾图书馆馆藏#

由志愿者woz9ts爬取自影子图书馆 “台湾图书馆馆藏书籍(2T)“的资源。该馆藏资源的来源似乎是台湾地区的一些官方网站(参考链接1链接2)。我们整合了《台湾特藏预览.zip》与《【新】台湾特藏目录.xlsx》中的元数据信息。在资源处理过程中,我们将相关文件转换为PDF格式,同时也保留了原始ZIP格式文件(因部分文件转换后存在异常)。

文曲馆藏#

文曲经典图书馆的资源。志愿者bpb9v介绍道:“该网站目前已无法访问,原因是部分人士(很可能是倒卖资源的书商)在短期内对网站进行了大规模爬取。该网站原有约8万份PDF文件、4000份EPUB文件(以及少量MOBI文件)。所有PDF文件原存储于网站官方服务器,因此现在已无法获取;而EPUB文件存储于阿里云服务器,目前已全部完成上传。“

woz9ts 个人贡献馆藏#

由志愿者woz9ts整理提供的多个馆藏资源,包括:编程随想博客资源好读网资源(附带补充元数据及相关代码,参考链接1链接2链接3)、迪志藏书资源(由台湾地区的迪志公司出品,资源来源参考链接1链接2)、我的小书屋资源(网址:mebook.cc)。woz9ts介绍说:“该网站专注于分享高品质电子书资源,其中部分图书由站长亲自排版制作。站长已于2019年被捕,目前这个馆藏是由他人整理的站长生前分享的资源合集。“

万方新方志45616馆藏#

志愿者woz9ts介绍道:“万方新方志45616是一个极具价值的馆藏。‘方志’即地方志,是由地方政府每隔数十年编撰一次的文献,内容涵盖当地的历史、经济、农业、地理、文化等多个方面。‘XFZ’是’新方志’的拼音缩写,‘万方’则是万方数据知识服务平台的简称。“该馆藏的数据由多个小型PDF文件拼接而成(拼接操作可参考文件”./江苏省/XFZ20651.《南京市志》第一册(总述、大事专记、地理、人口、环保)/combin.bat”),所有PDF文件的创建工具均显示为”pdftk”,文件的生成时间似乎都在2020年8月11日前后。读秀主馆藏2目录下”万方新方志45616”文件夹内的文件名,均已与万方数据的图书标题完成匹配。

国学大师资源库/古籍馆藏#

相关参考链接(链接1链接2链接3链接4链接5)。

更多详细信息可查阅以下页面:读秀数据集详情页读秀种子文件下载页上传版数据集详情页上传版种子文件下载页其他元数据数据集详情页其他元数据种子文件下载页

在此,向所有辛勤付出的志愿者致以最诚挚的谢意。当然,新的资源整合工作永远在路上,我们的步履从未停歇。

——安娜及团队 敬上([Reddit社区入口](https://www.reddit.com/r/Annas_Archive/))
分享

如果这篇文章对你有帮助,欢迎分享给更多人!

安娜的档案完成中文发布
https://luminouk.maremagnum.dpdns.org/posts/duxiu/
作者
路易斯小石
发布于
2025-11-28
许可协议
CC BY-NC-SA 4.0
封面
Sample Song
Sample Artist
封面
Sample Song
Sample Artist
0:00 / 0:00