(undone) 阅读 Google File System 论文笔记

url: https://pdos.csail.mit.edu/6.824/papers/gfs.pdf


Abstract

我们设计并实现了Google文件系统(GFS)——一个面向大规模分布式数据密集型应用的可扩展分布式文件系统。该系统在廉价的商用硬件上运行,既能提供容错功能,又能为大量客户端提供高聚合性能。

虽然与先前分布式文件系统有着诸多共同目标,但我们的设计源自对应用负载特性和技术环境的观察,这些既包含现状也涵盖预期变化,显著区别于早期文件系统的某些假设。这促使我们重新审视传统设计方案,探索根本不同的设计路径。

该文件系统已成功满足我们的存储需求。作为数据生成与处理的存储平台,GFS在谷歌内部被广泛部署:既支撑着服务运营所需的数据处理,也支持需要海量数据集的研发工作。迄今最大的集群包含上千台机器,通过数千块磁盘提供数百TB存储空间,可同时响应数百个客户端的并发访问。

本文中,我们将阐述为支持分布式应用而设计的文件系统接口扩展方案,深入讨论系统设计的多个关键方面,并通过微观基准测试和实际应用场景的数据进行性能评估。
总结:我们设计了一个谷歌内部使用的分布式文件系统,它和传统分布式文件系统有些不同


1. INTRODUCTION

我们设计并实现了Google文件系统(GFS),以满足谷歌数据处理需求快速增长的要求。GFS与以往分布式文件系统有许多共同目标,如性能、可扩展性、可靠性和可用性。但我们的设计受到了对当前及预期应用负载与技术环境的关键观察所驱动,这些观察反映出与早期文件系统设计假设的显著差异。我们重新审视了传统选择,在系统设计空间探索了截然不同的方向。

首先,组件故障是常态而非例外。该系统由数百甚至数千台采用廉价商用部件的存储机器组成,被数量相当的客户端机器访问。组件的数量和质量决定了在任意给定时间总有部分组件无法正常工作,有些甚至无法从当前故障中恢复。我们遇到过应用程序错误、操作系统漏洞、人为失误、磁盘/内存/连接器/网络/电源故障等问题。因此,持续监控、错误检测、容错和自动恢复必须成为系统的核心功能。
挑战1:节点故障常常出现

其次,按传统标准衡量文件体积巨大。多GB文件十分常见,单个文件通常包含网页文档等众多应用对象。当我们日常处理由数十亿对象组成、快速增长的TB级数据集时,即便文件系统支持,管理数十亿个约KB大小的文件也极为不便。这要求我们必须重新审视I/O操作和块大小等设计假设与参数。
挑战2:文件体积大、文件数量多是分布式文件系统的挑战,我们需要重新设计 I/O 操作和块大小

第三,多数文件通过追加新数据而非覆盖现有数据来修改。文件内的随机写入几乎不存在。文件一旦写入就只进行读取操作(且多为顺序读取)。各类数据都具有这些特征:有些是分析程序扫描的大型资料库;有些是运行应用持续产生的数据流;有些是归档数据;有些是在某台机器生成、在另一台处理(同步或异步)的中间结果。针对大文件的这种访问模式,追加操作成为性能优化与原子性保证的重点,而客户端缓存数据块则失去意义。
挑战3:根据实践中的观察,大多数文件操作是追加新数据和读取数据,文件内随机写入相对少见。因此,追加操作的性能优化是重点。相对的,在客户端缓存数据块就没有那么有吸引力了。

第四,应用程序与文件系统API的协同设计通过提升灵活性使整体系统受益。例如我们放宽了GFS的一致性模型,在避免给应用增加繁重负担的同时极大简化了文件系统。我们还引入了原子追加操作,允许多客户端无需额外同步即可并发追加文件。这些将在后文详细讨论。
挑战4:TODO

目前多个GFS集群服务于不同用途。最大集群包含逾1000个存储节点、超过300TB磁盘存储空间,持续承受来自数百台独立客户端机器的高频访问。

TODO: here

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40028.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何优化SQL查询以提高数据库性能?

你正在自助餐厅,所有的食物看起来都很美味。但你不是拿一个盘子,只取你需要的,而是开始从各个角落堆满食物,弄得一团糟,速度也慢了下来。结果是什么?你拿的东西很多并且效率低下。 这就像没有优化的SQL查询…

VS2022的第一个Qt程序——实战《加载并显示图像》

目录 一、UI设计 S1:双击Form Files下.ui文件,进入ui设计界面Qt Designer S2:然后拖动一个Push Button和Label控件到界面 S3:点击信号与槽,然后点击PushButton往外拉一下 S4:松开鼠标进入配置连接界面…

决策树算法详解:从西瓜分类到实战应用

目录 0. 引言 1. 决策树是什么? 1.1 生活中的决策树 1.2 专业版决策树 2. 如何构建决策树? 2.1 关键问题:选哪个特征先判断? 2.1.1 信息熵(数据混乱度) 2.1.2 信息增益(划分后的整洁度提…

Python 标准库与数据结构

Python的标准库提供了丰富的内置数据结构和函数,使用这些工具能为我们提供一套强有力的工具。 需要注意的是,相比C与Java,Python的一些特点: Python不需要显式声明变量类型Python没有模板(Template)的概念,因为Pytho…

VUE3 路由配置

1.下载 VueRouter 模块 在命令行中输入 yarn add vue-router 2.导⼊相关函数 在自己创建的router/index.js 文件中 import { createRouter, createWebHashHistory } from vue-router 3.创建路由实例 在自己创建的router/index.js 文件中 const theFirstRouter ()>{return…

算法训练营第二十三天 | 贪心算法(一)

文章目录 一、贪心算法理论基础二、Leetcode 455.分发饼干二、Leetcode 376. 摆动序列三、Leetcode 53. 最大子序和 一、贪心算法理论基础 贪心算法是一种在每一步选择中都采取当前状态下的最优决策,从而希望最终达到全局最优解的算法设计技术。 基本思想 贪心算…

Apifox下载安装

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 Apifox下载安装使用1. 下载2. 安装 &#x1…

如何区别在Spring Boot 2 和 Spring Boot 3 中使用 Knife4j:集成与配置指南

在现代的 Web 开发中,API 文档是不可或缺的一部分。Knife4j 是基于 Swagger 的增强工具,它不仅提供了更友好的 API 文档界面,还支持更多实用的功能,如离线文档导出、全局参数配置等。本文将详细介绍如何在 Spring Boot 2 和 Sprin…

超融合服务器与普通服务器的具体区别

超融合服务器与普通服务器的具体区别 超融合服务器(Hyper-Converged Infrastructure, HCI)与传统服务器在架构设计、功能整合、管理方式、性能表现及适用场景等方面存在显著差异。以下从多个维度进行详细对比分析: 一、硬件架构与资源整合 集…

(基本常识)C++中const与引用——面试常问

作者:求一个demo 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 内容通俗易懂,没有废话,文章最后是面试常问内容(建议通过标题目录学习) 废话不多…

数据库与表的操作

1. SQL 分类 SQL 根据功能分为以下几类: **DDL **: 定义数据库对象(库、表、列、索引等) 常用语句:CREATE, DROP, ALTER, RENAME, TRUNCATE示例:CREATE TABLE t_user (id INT PRIMARY KEY AUTO_INCREMENT,name VARCHA…

2025年渗透测试面试题总结-某shopee -红队-Singapore(题目+回答)

网络安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 shopee -红队-Singapore 一、Linux提权方式扩展分析 二、入侵痕迹清除技术 三、真实IP发现技术 四、…

GeoChat : Grounded Large Vision-Language Model for Remote Sensing论文精读

GeoChat : Grounded Large Vision-Language Model for Remote Sensing 是一个针对遥感场景的llm,提供支持多任务对话(对高分辨率遥感图像)。也造了个数据集。 一些思考: 文中提到的局限性:小物体和多框预测较难。小物…

基于STM32的PID算法控制电机调速

一、制作目标 以STM32F103C8T6单片机作为主控,使用PID控制算法,控制TB6612FNG电机驱动板模块驱动直流减速电机(带AB相编码器),实现任意设定转速的电机转速动态控制,类似于汽车的定速巡航功能,可…

系统思考—看见未来

感谢上海财经大学终身教育学院的持续邀请!每个月,都会带着不同的思维火花,走进财大与学员们一起探索系统思考的奥秘。 这次为宜宾市的干部们带来了一场深刻的学习体验。通过系统思考,帮助大家从整体视角去发现问题、分析问题、解…

qwindowkit 编译教程

1、Windows编译及示例 1.1 下载源码 https://github.com/stdware/qwindowkit 1.2 cmake编译 1.3 VS构建 1.4 编译成功

HashMap的位操作是什么?HashSet 的 contains 方法复杂度是多少?红黑树简单讲一下?

一、HashMap 的位操作设计 HashMap 使用位运算优化哈希计算与索引定位,核心场景如下: 哈希扰动函数 计算键的哈希值时,将高16位与低16位异或: static final int hash(Object key) {int h;return (key null) ? 0 : (h key.hash…

软件开发过程中常用的调试工具(gdb)

gdb 因为我们公司其中脚本中有rk的gdb调试工具脚本,内部只需要将其打开后进行编译即可: 需要将编译出来的cvr_app 第一种:使用gdb将app给跑起来:gdb cvr_app 然后在出现问题时: 输入bt,可以打印出当前…

S32K144外设实验(七):FTM输出多路互补带死区PWM

文章目录 1. 概述1.1 时钟系统1.2 实验目的2. 代码的配置2.1 时钟配置2.2 FTM模块配置2.3 输出引脚配置2.4 API函数调用1. 概述 互补对的PWM输出是很重要的外设功能,尤其应用再无刷电机的控制。 1.1 时钟系统 笔者再墨迹一遍时钟的设置,因为很重要。 FTM的CPU接口时钟为SY…

Qt6相对Qt5的主要提升(AI总结)

我: Qt 6 相对于5 有哪些新功能? Qt 6 相对于 Qt 5 有诸多新功能和改进,以下是主要的新增特性: 1. 架构和核心库的重构 模块化设计:Qt 6 采用了更加灵活的模块化设计,开发者可以按需引入必要的功能模块&a…