电脑版
首页

搜索 繁体

第74章 生也有涯,知也无涯

热门小说推荐

最近更新小说

物资采购结束后,苟岂又开始为信息发愁。

作为一个有收藏癖好的仓鼠党,苟岂很久以前就在自己的12T硬盘里堆满了各种电影、小说、纪录片、游戏……而工作相关的专业书籍,更是收藏了几百本电子书,涵盖了编程语言、算法思想、系统架构、技术手册等各方面。因为他觉得只有下载到自己硬盘的资源才是属于自己的,哪怕是存到云盘,也有可能被和谐。

事实证明,这种做法还是有先见之明的,至少如今短短的一个月里,不用再费心收集、就能轻松带走了。

然而,在浏览过库存后,他却还是觉得不够,中国有1979种职业,每个行业都有劳动人民深耕多年的智慧,保不齐什么时候就能用上?可是这一趟走后,别说各行各业的书籍,就连百度都没法用了,今后想查个化学实验、数学公式或是物理定律什么的,可都没处查询了,谁知道以后还有没有再穿越回来的机会?

一番考虑后,苟岂想到一个能用最少时间获取最多知识的办法——把“百度百科”和“维基百科”一起带过去。

迄今为止,百度百科有22555013个词条,看似很多,但大多数内容只是纯文本,占不了多少硬盘空间。苟岂在Github上找到现成的爬虫源码,测试发现,一台64G内存的顶配电脑,在100M网络带宽下,一天只能抓取大概50万个词条,全部抓取需要足足45天……好在爬虫可以分布式部署,苟岂组装了十台顶配电脑,花了几天几夜才终于完成。

Loading...

未加载完,尝试【刷新网页】or【关闭小说模式】or【关闭广告屏蔽】。

使用【Firefox浏览器】or【Chrome谷歌浏览器】打开并收藏!

移动流量偶尔打不开,可以切换电信、联通网络。

收藏网址:www.dingdian007.com

(>人<;)