FastDFS分布式文件系统

一、概述

FastDFS是一款由国人余庆开发的轻量级开源分布式文件系统，它对文件进行管理，功能包括：文件存储、文件同步、文件访问（文件上传、文件下载）等，主要解决大容量文件存储和高并发访问问题，通过纯C语言实现并支持多种UNIX系统。特别适合以文件为载体的在线服务，如相册网站、视频网站等等。它采用专有API进行文件存取，不支持POSIX接口和挂载使用，属于应用级分布式文件存储服务。

fastDFS为互联网量身定制，充分考虑了冗余备份、负载均衡、线性扩容等机制，并注重高可用、高性能等指标，使用FastDFS很容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。

什么是分布式文件系统

文件系统

文件系统是操作系统用于明确存储设备（如硬盘、闪存或CD/DVD）或分区上的文件的方法和数据结构。它负责为用户和操作系统提供文件和目录的层次结构视图，并管理数据的存储、检索和更新。常见的文件系统类型包括FAT（FAT12、FAT16、FAT32）、exFAT、NTFS（Windows系统常用）、HFS+（Mac OS X系统常用）、ext系列（Linux系统常用，如ext2、ext3、ext4）、XFS、Btrfs、ZFS等。每种文件系统都有其特定的设计目标和优势，适用于不同的应用场景。

分布式文件系统

分布式文件系统（Distributed File System，DFS）是指文件系统管理的物理存储资源不直接连接在本地节点上，而是通过计算机网络与节点（可理解为计算机或服务器）相连，或者是将多个不同的逻辑磁盘分区或卷标组合在一起，形成一个完整、有层次的文件系统。一些常见的分布式文件系统包括Google的GFS、Hadoop的HDFS、FastDFS等。这些系统通常用于处理大规模的数据存储和访问需求，如云计算、大数据分析、图像和视频存储等领域。

主流的分布式文件系统

NFS:

NFS（Network File System，网络文件系统）是一种分布式文件系统协议，它允许计算机客户端将远程NFS服务器上的共享目录挂载（mount）到自己的文件系统中，从而在本地对远程共享目录中的文件和目录进行访问，就像访问本地文件系统中的文件和目录一样。通常应用在数据中心、云计算、高性能计算等领域。

gooleFs:

GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。

(1）GFS采用主从结构，一个GFS集群由一个master和大量的chunkserver组成。

(2）master存储了数据文件的元数据，一个文件被分成了若干块存储在多个chunkserver中。

(3）用户从master中获取数据元信息，从chunkserver存储数据。

HDFS:

HDFS（Hadoop Distributed FileSystem，Hadoop分布式文件系统）是Hadoop项目中的一个核心组件，用于存储和管理Hadoop集群中的大量数据。HDFS是一个高度容错性的系统，设计用于部署在低廉的硬件上，并且能够提供高吞吐量来访问应用程序的数据。HDFS适用于存储和分析大规模数据集，如日志文件、图像、视频等。

二、fastDFS

fastDSF架构

FastDFS架构包括 Tracker server和Storageserver。客户端请求Tracker server进行文件上传、下载，通过Tracker server调度最终由Storage server完成文件上传和下载。

Tracker:

Tracker Server作为中心结点，管理拓扑集群结构，作用是负载均衡和调度。Tracker server在内存中记录分组和Storage server的状态等信息，但不记录文件索引信息。客户端和Storage server访问Tracker server时，Tracker server扫描内存中的分组和Storage server信息，然后给出应答。

FastDFS集群中的Tracker server可以有多台，Tracker server之间是相互平等关系同时提供服务，Tracker server 不存在单点故障。客户端请求Tracker server采用轮询方式，如果请求的tracker无法提供服务则换另一个tracker。

Storage：

Storage Server作用是文件存储，客户端上传的文件最终存储在Storage服务器上，Storage server没有实现自己的文件系统而是使用操作系统的文件系统来管理文件。可以将storage称为存储服务器。

Storage集群通过实施分组存储架构，极大地提升了系统的灵活性和可控性。该集群由若干个独立的组构成，其总存储容量即为集群内所有组存储容量之和。每个组内部包含一台或多台存储服务器，这些服务器之间保持平等关系，并通过相互连接实现文件同步，以确保组内各服务器上存储的文件完全一致。值得注意的是，一个组的存储容量受限于其内部存储服务器中容量最小的那一台，因此建议组内各服务器的软硬件配置保持一致性。

分组存储策略的优势在于其高度的灵活性和可扩展性。在文件上传过程中，客户端可以直接指定目标组，或者由集群的调度器（tracker）进行智能选择。当某个组的存储服务器面临较大的访问压力时，可以通过向该组添加更多的存储服务器来实现服务能力的纵向扩展。而面对系统整体存储容量不足的情况，则可以通过增加新的组来横向扩展存储容量，从而满足不断增长的存储需求。这种设计策略为Storage集群提供了强大的扩展性和灵活性，使其能够适应各种复杂的存储场景。

Storage状态收集：

Storage server会与集群内的所有Tracker servers建立连接，并定期向它们报告其当前状态，这些状态信息详尽地涵盖了磁盘剩余空间、文件同步的最新状况以及文件上传和下载次数的统计数据等。

文件上传流程

文件上传：

客户端会先向Tracker server询问存储地址。
Tracker server查询到存储地址后返回给客户端。
客户端拿着地址直接和对应的Storage server通讯，将文件上传至该Storage server。

文件下载流程

文件下载：

客户端会向Tracker server询问地址，并带上要查询的文件名和组名。
Tracker server查询后会将地址返回给客户端。
客户端拿着地址和指定Storage server通讯并下载文件。

fastDFS优缺点

优点：
1.高性能：

文件不分块存储，文件和系统中的文件一一对应，减少了分块合并的开销。
网络通信采用libevent（V2.0版本），支持高并发访问，整体性能更好。

2.高可用性：

支持在线扩容，动态添加卷，方便进行存储容量的扩展。
支持文件冗余备份和负载均衡，提高了系统的容错能力和稳定性。

3.灵活性：

采用分组存储方式，提供了灵活的扩展策略，可以根据需要进行纵向或横向扩容。
客户端可以直接指定上传到的组，也可以由tracker进行调度选择，提供了灵活的存储管理方式。

4.文件管理：

对文件内容做hash处理，避免了重复文件的存储，节约了磁盘空间。
存储服务器上可以保存文件属性（meta-data），方便进行文件管理和查询。

5.下载支持：

下载文件支持HTTP协议，可基于内置Web Server或外部Web Server，提供了灵活的访问方式。

缺点：

1.管理复杂性：

分布式存储管理相对复杂，需要进行服务器集群的搭建和管理，对于非专业人员来说可能较为困难。

2.依赖库需求：

在Java项目中使用FastDFS需要引入相应的客户端SDK，增加了项目的依赖复杂性。

3.上传速度限制：

由于采用了分块传输和多副本备份策略，文件上传速度可能受到一定程度的限制，特别是当文件较大时。

4.安全性：

直接按文件存储，可直接查看文件内容，缺乏文件安全性。

5.数据同步问题：

数据同步无校验，存在静默IO问题，可能降低系统可用性。

6.备份策略限制：

备份数根据存储分卷（分组）决定，缺乏文件备份数设置的灵活性。

fastDFS与HDFS对比：

设计：fastDFS是专为中小文件在线服务设计的高性能、高扩展性分布式文件系统，而HDFS则是Hadoop生态中针对大规模数据集提供高吞吐量访问的分布式文件系统。
架构：fastDFS通过Tracker和Storage服务器实现文件的分布式存储和管理，而HDFS则采用主从结构，通过NameNode和DataNode来管理大规模数据集。
扩展性：fastDFS通过增加新的逻辑存储组来实现存储容量的线性扩容。而HDFS通过添加更多的数据节点来扩展存储容量和吞吐量。