N22-北京-追求极境之人-RSYNC差分编码同步原理

584641574 • 2016-08-22 09:29 • Linux干货

1客户端发送自己的filelist，filelist包含文件hashindexid（alert32）和关联的文件chunkChecksum（MD5）和hashindexID以便进行快速查找，chunksize根据文件大小进行等分，不足均值部分直接发送不进行MD5校验值生成

发送进程一次从生成器读取一个文件索引号和关联的块校验集合

2对于生成器发送的每个文件ID，它会存储数据块校验和并生成它们的哈希索引，以进行快速查找。

然后会读取本地文件，并为以本地文件的第一个字节开头的数据块生成校验和。此数据块校验和在由生成器发送的集中查找，如果未找到匹配，则会将非匹配字节附加到非匹配数据，并且会比较以下一字节开头的数据块。这称为“rolling checksum”

如果找到数据块校验和匹配，则会将它视为匹配块，所有累积的非匹配数据将被加上在接收端的文件中的匹配数据块的偏移量和长度之后发送到接收端，并且数据块校验和生成器将提前到匹配块之后的下一字节。

3可以以这种方式标识匹配块，即使重新排列数据块的顺序或数据块的偏移量不同。此过程是 rsync 算法的核心。

4将数据从基础文件复制到临时文件会使receiver在所有rsync进程中最耗磁盘。小文件可以仍处于缓解此作用的磁盘缓存中，但对于大型文件，由于生成器已移动到其他文件，并且存在sender引起的进一步延迟，缓存可能会"抖动"(thrash)。数据可能从一个文件随机读取，写入另一文件，如果工作集大于磁盘缓存，则会发生"寻道风暴"(seek storm),进一步影响性能。

原创文章，作者：584641574，如若转载，请注明出处：http://www.178linux.com/35994

赞 (1)

0

基于CentOS7实现LAMP（上）

上一篇 2016-08-22

rpm包及rmp命令详解

下一篇 2016-08-22

马哥教育网络20期+第四周课程练习

1、复制/etc/skel目录为/home/tuser1，要求/home/tuser1及其内部文件的属组和其它用户均没有任何访问权限。 ~]# cp -r /etc/skel /home/tuser1 ~]# chmod -R go-r /home/tuser1 2、编辑/etc…

Linux干货 2016-07-04
Python函数式编程指南（四）：生成器

生成器是迭代器，同时也并不仅仅是迭代器，不过迭代器之外的用途实在是不多，所以我们可以大声地说：生成器提供了非常方便的自定义迭代器的途径。这是函数式编程指南的最后一篇，似乎拖了一个星期才写好，嗯…… 转载请注明原作者和原文地址：） 4. 生成器(generator) 4.1. 生成器简介首先请确信，生成器就是一种迭代器。生成器拥有next方法并且行为与迭代…

Linux干货 2015-03-11
计算机和linux基础

计算机的组成及其功能计算机硬件主要由5部分组成：运算器、控制器、存储器、input、output。但是这和我们平时见到的计算机不一样?我们平时见到的计算机有CPU，内存，硬盘，显示器，鼠标键盘，显卡、主板等。这些东西也都归在以上五类设备中。下面我们简单介绍一下计算机这五个组成部分。运算器：运算器是计算机中做运算的部分，可以执行各种指令，加减乘除，与…

Linux干货 2016-09-16
Centos6.5基于SSL密码认证部署ELK(Elasticsearch+Logstash+kibana)

1 简介本章我们来介绍Centos6.5基于SSL密码认证部署ELK(Elasticsearch 1.4.4+Logstash 1.4.2+kibana3),同时为大家介绍如何集合如上组件来收集日志,本章的日志收集主要为大家介绍SYSTEM日志收集. 集中化日志收集主要应用场景是在同一…

Linux干货 2015-06-18
sed的基本用法详解

在Linux的世界中，有着一个文本三剑客的称呼，它们分别代表grep(文本过滤）,sed（流编辑器）,awk(gawk)（报告生成器）。它们是强大的文本处理工具，了解并掌握它们，可以让你对文本的处理更加从容和轻松。今天我们主要是围绕sed来进行分析。一、初识sed sed:Stream Editor 从名字上也可以直观的了解到它是一个流编辑工具。何为流…

Linux干货 2015-06-08
Linux 进程及作业管理

一进程、线程、程序概念 1、进程(Process) 什么是进程，简单的说，进程是程序的执行实例，即运行中的程序，同时也是程序的一个副本；程序是放置于磁盘的，而运行中的程序是位于内存中的。 2、线程(Thread) 一个进程至少包括一个线程，通常将该线程称为主线程，所以线程是比进程更小的单位，是系统分配处理器时间资源的基本单元。一个进程要想同时在多颗CPU上…

Linux干货 2016-03-15