读书笔记

#我的读书笔记#2018年度

1、中国古代科学家祖冲之利用算筹，耗费15年计算圆周率小数点后7位；英国人香克斯用毕生精力计算，算到小数点后707位；而第一台计算机ENIAC用40秒就达到了707这个记录。而且还发现在香克斯的计算中，第528位是错误的。《架构解密：从分布式到微服务》【2018年7月16日10:19:52】
2、阿坦那索夫是真正的现代计算机发明人。《架构解密：从分布式到微服务》【2018年7月16日14:18:12】
3、冯·诺依曼体系：计算机硬件由运算器、控制器、存储器、输入设备和输出设备五大部分组成。《架构解密：从分布式到微服务》【2018年7月16日14:19:00】
4、42岁的阿兰·图灵吃了一口含有氯化钾的苹果后去世。被苹果公司采用为logo纪念。《架构解密：从分布式到微服务》【2018年7月16日14:19:52】
5、Intel历史上第一个处理器——4位处理器4004。《架构解密：从分布式到微服务》【2018年7月16日14:20:56】
6、机房耗电的总功耗中，服务器所占的总功耗为40%左右，空调系统的功耗约占数据中心机房所需总功耗的37%左右。《架构解密：从分布式到微服务》【2018年7月16日14:21:55】
7、Telnet协议，实现了两台计算机的点对点控制访问；邮件协议，实现了人与人的网络通信；文件传输协议，解决了两台计算机之间批量获取文件的通信要求。《架构解密：从分布式到微服务》【2018年7月16日14:24:30】
8、理论和思想的提出，永远高于其实现。《架构解密：从分布式到微服务》【2018年7月16日14:24:49】
9、互联网之父——提姆·博纳斯·李。
10、中国互联网骨干网互联单位有7家：4家非经营性互联单位——教育网、经贸网、长城网和科技网；3家经营性互联单位——中国电信、中国联通和中国移动。《架构解密：从分布式到微服务》【2018年7月16日14:27:56】
11、全国共有北京、上海和广州三个国家级交换中心。《架构解密：从分布式到微服务》【2018年7月16日14:28:19】

12、搜索可以分为通用搜索和垂直搜索，百度、google等搜索引擎属于通用搜索，京东、淘宝、携程等的搜索属于垂直搜索。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】13、搜索发展经历了：导航时代、文本检索一代、链接分析一代、和用户中心一代。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
14、搜索引擎的三个目标：更全、更快、更准。索引缓存等技术是为了更快、更全；排序、链接分析等技术为了实现更准。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
15、搜索引擎的3个核心问题：用户真正的需求是什么？哪些信息是和用户需求真正相关的？哪些信息是用户可以信赖的？《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
16、网络爬虫分为三种：批量型爬虫、增量型爬虫、垂直型爬虫。批量型爬虫有明确的抓取范围和目标，抓取完成后立即停止。增量型爬虫会不断抓取，其实不是在抓取新网页，而是在更新已有网页。垂直型爬虫则关注特定主题内容或者特定行业的网页。一般垂直类型网站或者垂直行业网站需要此类型的爬虫。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
17、优秀爬虫的特点：高性能（受到数据结构的影响比较大）、可扩展性、健壮性、友好性。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
18、目前禁止爬虫抓取有两种方法：爬虫禁抓取协议和网页抓取标记。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】

User-agent： GoogleBot

Disallow： /tmp/

Disallow： /cgi-bin/

Disallow： /users/paranoid/

Robot.txt放在根目录下

//不要检索该页面内容

<meta name="robots" content="noindex">



//不要抓取页面所包含的链接

<meta name="robots" content="nofollow">

19、衡量爬虫好坏的标准：抓取网页覆盖率、抓取网页时新性、抓取网页重要性。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
20、爬虫抓取策略：宽度优先遍历策略、非完全PageRank策略、OPIC策略（在线页面重要性计算）、大站优先策略。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
21、网页更新策略：历史参考策略（过去频繁更新的网页未来也将会频繁更新）、用户体验策略、聚类抽样策略。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
22、暗网：是指目前搜索引擎爬虫按照常规方式很难抓取到的互联网页面。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
23、富含信息查询模板：对于某个固定的查询模板，给每个属性赋值，所有返回页面，如果互相之间内容差异较大，则认为这个查询模板是富含信息查询模板。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
24、单词——文档矩阵：每列代表文档包含了哪些单词，每行代表了那些文档包含了某个单词。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
25、文档（Document）：代表以文本形式存在的存储对象，表征文本信息。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
26、文档集合（Document Collection）：由若干文档构成的集合。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
27、文档编号（Document ID）：每个文档的内部编号。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
28、单词编号（Word ID）：与文档编号类似，某个单词的唯一表征。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
29、倒排索引（inverted Index）：实现单词——文档矩阵的一种具体存储形式，由两个部分组成，单词辞典和倒排文件。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
30、单词词典（Lexicon）：文档集合中出现过的所有单词的字符串集合。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
31、到排列表（PostingList）：记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】
32、倒排文件（inverted File）：所有单词的到排列表顺序地存储在磁盘的某个文件里，这个文件就是倒排文件。是倒排索引的物理文件。《这就是搜索引擎：核心技术详解》【2018年8月2日20:44:51】

0

2018-07-16

0 个评论

要回复文章请先登录或注册

#我的读书笔记#2018年度

0 个评论

发起人