缓冲 IO
计算机中我们常听到这样的两种程序优化方式:
- 以时间换空间
- 以空间换时间
今天要来看的缓冲IO就是典型的以空间换时间,它的基本原理见上图。简单的解释就是:程序不再直接去读取底层的数据源,而是通过一个缓冲区来进行读取。即先把数据从底层数据源读取到缓冲区,然后再从缓冲区进行读取。这样一分析,似乎有点多此一举了,本来一次的数据读写变成了两次?其实,不是这样的,因为这里的两个读写的成本或者说代价不同。我们都知道存储器是分级的,硬盘读写速度和内存读写速度之间的差距是巨大的:内存读写 >> 硬盘读写或者网络读写。
所以缓冲区的真正作用是减少了硬盘或者网络读写的次数(读写的数据量没变)。
举一个例子:我有1024 个字节的数据,每次读取 32 个byte,那么需要访问硬盘或者网络 32次。如果一次读取 1024 个字节呢,最终只需要一次硬盘或者网络访问就够了(内存访问的次数增加,但是总的耗时是减少的)。不过,我们再扩展一点,既然内存读写这么快,我们直接把文件一次性读入内存不就好了?这样的想法是好的,但是对于大文件(GB级或者更大的),我想你是不会全部读取进内存的,因为内存资源也是有限的。
好了,前面是一些基本的概念的复习,简单回顾一下,有助于我们理解接下来的内容。今天来记录一下我阅读 golang 的 bufio 包的理解:
Package
bufio
implements buffered I/O. It wraps anio.Reader
orio.Writer
object, creating another object (Reader or Writer) that also implements the interface but provides buffering and some help for textual I/O.
这是 bufio
包自己的介绍,从它的名字来理解就是缓冲 IO。
缓冲读
因为这个 bufio.go
文件还是蛮大的,所以准备分成两个缓冲读和写部分进行阅读。接下来会介绍几个我认为比较重要的方法,会有一些自己的理解。
Buffered input 缓冲输入
const (defaultBufSize = 4096
)// Buffered input.// Reader implements buffering for an io.Reader object.
type Reader struct {buf []byterd io.Reader // reader provided by the clientr, w int // buf read and write positionserr errorlastByte int // last byte read for UnreadByte; -1 means invalidlastRuneSize int // size of last rune read for UnreadRune; -1 means invalid
}const minReadBufferSize = 16
const maxConsecutiveEmptyReads = 100
这就是缓冲输入 Reader
的结构体,它有一个 buf
字节切片(默认的长度是4096,即 4KB),并且依赖 io.Reader
实现的。这里可以看出来,所谓的缓冲区其实就是一个字节切片。
所以如果缓冲区是空的判断条件即是:r.b == r.w
。
fill 填充数据
fill()
是内部用来填充缓冲区的方法,可以说能实现缓冲就是依赖它来实现的。
// fill reads a new chunk into the buffer.
func (b *Reader) fill() {// Slide existing data to beginning.if b.r > 0 {copy(b.buf, b.buf[b.r:b.w])b.w -= b.rb.r = 0}if b.w >= len(b.buf) {panic("bufio: tried to fill full buffer")}// Read new data: try a limited number of times.for i := maxConsecutiveEmptyReads; i > 0; i-- {n, err := b.rd.Read(b.buf[b.w:])if n < 0 {panic(errNegativeRead)}b.w += nif err != nil {b.err = errreturn}if n > 0 {return}}b.err = io.ErrNoProgress
}
这里是我从源码中的理解:
-
如果
b.r > 0
,这说明缓冲区已经被读取了一些数据,所以要把后面未读取的数据搬到前面来,然后b.w
就要减少b.r
,同时b.r
需要置零(因为已经搬到前面了)。 -
如果
b.w >= len(b.buf)
,这种属于异常情况,会发生panic("bufio: tried to fill full buffer")
。也就是说,当你尝试向一个满的buf
切片填充数据时,这是不允许的。这是出于程序正确性的角度考虑的。 -
然后就可以尝试进行填充数据了。这里很有意思,填充数据本身是在一个循环中进行的,它最多会执行 100 次([1, 100])。
循环体内的内容:
-
从底层的 reader 中读取数据,把读取的数据存入缓冲区的切片中,b.w 开始。
-
如果读取的
n < 0
,那么会发生 panic。这种都是专门针对各种异常情况的处理,通常是不会发生的。 -
把数据写入缓冲区后,
b.w
同时向后移动到数据的最后面。 -
如果读取数据时发生了错误,那么就返回。
如果 n > 0
,那么就返回。这里很奇怪,为什么要单独 n > 0
时返回呢?因为,还有一种可能是 n == 0
,如果出现这种情况,说明没有读取到数据。那么,怎么办呢?这就是前面循环的作用了,它会再次尝试读取,如果尝试 100 次都失败了,那么就停止读取,并且返回错误。(这种情况通常是因为一个错误的 reader 实现导致的)
这里举一个例子:测试字符串 CrazyDragon
,假设初始缓冲区容量为10,现在开始第一次填充数据(r.b = r.w = 0
),假设它读取了Crazy
这 5 个数据(这里的读取是从底层数据源读取,对于缓冲区来说它是指写入)。因为还没有开始读取(这里的读取指的是对缓冲区的读取),所以 r.b
为 0,r.w
为 5(这里你可以思考一下,为什么不是 4 呢?)。
然后的操作的是:
- 用户读取了 3 个数据,那么现在
r.b
移动到 3 的位置,然后再次触发填充函数。 - 它会首先把从
r.b
到r.w
的数据搬到(或者说复制)缓冲切片的开头. - 然后从底层数据源读取
Dragon
这 6 个数据,并将其填充进缓冲区,r.w
向后移动 6。
Peak 查看但不读取数据
注:// Tip:
以这个开头的中文注释,是我添加的理解。
// Peek returns the next n bytes without advancing the reader. The bytes stop
// being valid at the next read call. If Peek returns fewer than n bytes, it
// also returns an error explaining why the read is short. The error is
// ErrBufferFull if n is larger than b's buffer size.
//
// Calling Peek prevents a UnreadByte or UnreadRune call from succeeding
// until the next read operation.
func (b *Reader) Peek(n int) ([]byte, error) {if n < 0 {return nil, ErrNegativeCount}b.lastByte = -1b.lastRuneSize = -1// Tip:如果 n 大于缓冲区剩余的数据且缓冲区未满,会调用 fill() 将其填满for b.w-b.r < n && b.w-b.r < len(b.buf) && b.err == nil {b.fill() // b.w-b.r < len(b.buf) => buffer is not full}// Tip:如果 n 大于缓冲区的长度,会报错 ErrBufferFullif n > len(b.buf) {return b.buf[b.r:b.w], ErrBufferFull}// 0 <= n <= len(b.buf)var err error// Tip:如果最终还是剩余数据小于需要读取的数据,那么就返回剩余数据和相应的错误if avail := b.w - b.r; avail < n {// not enough data in buffern = availerr = b.readErr()if err == nil {err = ErrBufferFull}}// Tip:这才是最关键的代码,只是返回缓冲区中数据的切片,其他的都错误处理相关的return b.buf[b.r : b.r+n], err
}
Peek 有偷看的意思,它的作用就是查看当前读取位置之后的 n 字节数据,但是不移动读取的下标。如果它返回的字节少于 n 个,它会返回一个错误来解释原因。如果 n 大于缓冲区的大小,那么会返回一个 ErrBufferFull
错误。通过调用 Peek()
可以阻止 UnreadByte
或者 UnreadRune
调用成功,直到下一次读取操作。
Discard 丢弃数据
// Discard skips the next n bytes, returning the number of bytes discarded.
//
// If Discard skips fewer than n bytes, it also returns an error.
// If 0 <= n <= b.Buffered(), Discard is guaranteed to succeed without
// reading from the underlying io.Reader.
func (b *Reader) Discard(n int) (discarded int, err error) {if n < 0 {return 0, ErrNegativeCount}if n == 0 {return}b.lastByte = -1b.lastRuneSize = -1// Tip:因为缓冲区里面不一定有足够的数据,所以它也是会在底层调用 fill 来填充数据的remain := nfor {skip := b.Buffered()if skip == 0 {b.fill()skip = b.Buffered()}if skip > remain {skip = remain}b.r += skipremain -= skipif remain == 0 {return n, nil}if b.err != nil {return n - remain, b.readErr()}}
}
discard 就是丢弃的意思,这个词在 IT 领域还是很常见的,特别是和网络相关的。它的作用就是丢弃指定的 n 个字节,返回实际丢弃的字节数和相应的错误。
Read 读取数据
这个方法使用起来和正常的 IO 的 Read 是一样的,主要区别在于是先从缓冲区取数据,可能会调用一次 fill 函数填充缓存区。ReadByte 它返回下一个字节,ReadRune,它返回下一个 Unicode 字符。
UnReadByte 和 UnrReadRune 往前读
这里我把它称为往前读,因为它的作用是把读取指针向前移动。这两个方法类似,不过一个是向前移动一个字节,另一个是向前移动一个字符。
这里可以看到向前移动一个字节后,读取指针又指向了 :
,本来这个字符已经被读取出来了,指针已经执行它后面的那个位置了。
package mainimport ("bufio""fmt""strings"
)func main() {reader := strings.NewReader("CrazyDragon: I love you yesterday and today.")bufReader := bufio.NewReaderSize(reader, 16)// 长度设置为 12,正好读取到 CrazyDragon:line := make([]byte, 12)n, err := bufReader.Read(line)if err != nil {fmt.Println(err)}fmt.Println(string(line[:n]))// 缓冲区大小是 16,读取 12,还剩下 4fmt.Println("剩余缓冲数据:", bufReader.Buffered())// 调用 UnreadByte,读取指针前移一位,此时缓冲区还剩下 5bufReader.UnreadByte()fmt.Println(bufReader.Buffered())n, err = bufReader.Read(line[:1])if err != nil {fmt.Println(err)}fmt.Println(string(line[:n]))
ReadSlice 读取一个切片
// ReadSlice reads until the first occurrence of delim in the input,
// returning a slice pointing at the bytes in the buffer.
// The bytes stop being valid at the next read.
// If ReadSlice encounters an error before finding a delimiter,
// it returns all the data in the buffer and the error itself (often io.EOF).
// ReadSlice fails with error ErrBufferFull if the buffer fills without a delim.
// Because the data returned from ReadSlice will be overwritten
// by the next I/O operation, most clients should use
// ReadBytes or ReadString instead.
// ReadSlice returns err != nil if and only if line does not end in delim.
func (b *Reader) ReadSlice(delim byte) (line []byte, err error) {s := 0 // search start indexfor {// Search buffer.if i := bytes.IndexByte(b.buf[b.r+s:b.w], delim); i >= 0 {i += sline = b.buf[b.r : b.r+i+1]b.r += i + 1break}// Pending error?if b.err != nil {line = b.buf[b.r:b.w]b.r = b.werr = b.readErr()break}// Buffer full?if b.Buffered() >= len(b.buf) {b.r = b.wline = b.buferr = ErrBufferFullbreak}s = b.w - b.r // do not rescan area we scanned beforeb.fill() // buffer is not full}// Handle last byte, if any.if i := len(line) - 1; i >= 0 {b.lastByte = int(line[i])b.lastRuneSize = -1}return
}
这个方法的作用是从缓冲区中读取数据,在第一次遇到指定的分隔符后停止,并返回一个指向缓冲区中这些字节的切片。ReadSlice
如果缓冲区填满数据但是没有一个分隔符,它会返回一个 ErrBufferFull
错误。
因为从 ReadSlice
返回的数据会被下一次的 IO 操作覆盖,所以大多数客户端应该使用 ReadBytes
或者 ReadString
来替代。
ReadSlice
只有在 line 没有结束在分隔符时,才会返回 err != nil
。
这里来做一个实验:测试数据为:CrazyDragon: I love you yesterday and today
,因为默认的缓冲区大小是 4096 字节,这个对于测试代码太大了。但是,它也是可以设置的,最小值是 16 字节,这里我就设置成最小值来测试。
package mainimport ("bufio""fmt""strings"
)func main() {reader := strings.NewReader("CrazyDragon: I love you yesterday and today.")bufReader := bufio.NewReaderSize(reader, 16)// 此时还没有开始填充,如果缓冲区是空的,输出是 0fmt.Println("Buffered: ", bufReader.Buffered())// 开始从缓冲区读取,底层会调用 fill() 函数进行填充的line, err := bufReader.ReadSlice(':')if err != nil {fmt.Println(err)}// 这时 r.b 已经移动到相应的位置了,此时缓冲区的长度为 4fmt.Println("Buffered: ", bufReader.Buffered())fmt.Println(string(line))// 再次尝试读取,因为找不到分隔符,所以报错了_, err = bufReader.ReadSlice(':')if err != nil {fmt.Println("Error: ", err)}// 查看此时整个缓冲区的数据line, err = bufReader.Peek(16)if err != nil {fmt.Println("Error: ", err)}fmt.Printf("len(line) = %d, line = %s", len(line), string(line))
}
所以,可见 Buffered()
输出结果是 4,r.w
为 16,r.b
为 12。不过,这种情况就是从头开始读取一个满的缓冲区,如果缓冲区本身是未满的,那么它会将缓冲区填满(不一定是一次填满,可能会多次执行 fill(),这里的情况还是很复杂的,对于网络流来说,每次你都不一定可以读取到数据),但是如果缓存区满了还是没有发现分隔符,那么就会报错。
ReadLine 读取一行
ReadLine
是一个低级的读取行方法。大多数调用者应该使用 ReadBytes('\n')
或者 ReadString('\n')
替代或者使用扫描器 Scanner
。实际上,它在内部是这样调用的:line, err = b.ReadSlice('\n')
。 不过也要注意它的不同点,它是不会返回行结束符字节的。也就是说: ReadSlice('\n')
返回的数据是包含 \n
,但是 ReadLine()
是不会包含的。
如果遇到了 ErrBufferFull
错误,说明整个缓存区都没有遇到 \n
。但是它还会考虑是否存在 \r\n
横跨缓冲区的情况,即 \r
是缓冲区的最后一个字节,然后 \n
还没有到来,不过这只能等待下一次调用取检查了,可以通过第二个返回值来判断是否是这种情况。
这里来测试一下:
func ReadLineTest(s string) {reader := strings.NewReader(s)bufReader := bufio.NewReaderSize(reader, 16)line, isPrefix, err := bufReader.ReadLine()if err != nil {fmt.Println(err)}fmt.Printf("line = %s, isPrefix = %v\n", string(line), isPrefix)
}ReadLineTest("CrazyDragonKing\r\n")
ReadLineTest("CrazyDragonKing\r")
ReadLineTest("CrazyDragonKing\n")
ReadLineTest("CrazyDragonKingCrazyDragonKingCrazyDragonKing")
这里来总结一下,各种可能的情况(注:缓冲区大小为 16,CrazyDragonKing 长度是 15)
"CrazyDragonKing\r\n" => "CrazyDragonKing", true, nil
"CrazyDragonKing\r" => "CrazyDragonKing", true, nil
"CrazyDragonKing\n" => "CrazyDragonKing", false, nil
"CrazyDragonKingCrazyDragonKingCrazyDragonKing" => CrazyDragonKingC, true, nil
ReadBytes
和 ReadString
读取字节切片和读取字符串
ReadSlice
是当遇到分隔符之后返回字节切片(包含分隔符本身),它会尝试填满缓冲区,如果没有遇到分隔符,会返回 ErrBufferFull
错误。
ReadLine
内部依赖 ReadSlice 实现,它返回的也是字节切片(不包含分隔符本身)。
ReadBytes
和 ReadString
它们两个一个返回字节切片,一个返回字符串。不同的地方在于,如果一个缓冲区没有找到,它们不会返回 ErrBufferFull 错误。而是继续读取底层的数据源,直到遇到分隔符或者文件结束。
这里来做一个实验:
func ReadStringTest(s string) {reader := strings.NewReader(s)bufReader := bufio.NewReaderSize(reader, 16)line, err := bufReader.ReadString('\n')if err != nil {fmt.Println(err)}fmt.Printf("line = %s\n", line)
}ReadLineTest("CrazyDragonKingCrazyDragonKingCrazyDragonKing")
ReadStringTest("CrazyDragonKingCrazyDragonKingCrazyDragonKing\nCrazyDragonKing\n")
collectFragments 收集片段
// collectFragments reads until the first occurrence of delim in the input. It
// returns (slice of full buffers, remaining bytes before delim, total number
// of bytes in the combined first two elements, error).
// The complete result is equal to
// `bytes.Join(append(fullBuffers, finalFragment), nil)`, which has a
// length of `totalLen`. The result is structured in this way to allow callers
// to minimize allocations and copies.
func (b *Reader) collectFragments(delim byte) (fullBuffers [][]byte, finalFragment []byte, totalLen int, err error) {var frag []byte// Use ReadSlice to look for delim, accumulating full buffers.for {var e errorfrag, e = b.ReadSlice(delim)if e == nil { // got final fragmentbreak}if e != ErrBufferFull { // unexpected errorerr = ebreak}// Make a copy of the buffer.buf := bytes.Clone(frag)fullBuffers = append(fullBuffers, buf)totalLen += len(buf)}totalLen += len(frag)return fullBuffers, frag, totalLen, err
}
这个方法初看起来还是蛮复杂的,特别是它返回值有 4 个,不过它这样的目的是为了调用者减少内存分配和拷贝。它的内部是依赖 ReadSlice
实现的,如果直接读取到了,那么就直接返回了。否则,下面就是不同的地方了。通常,如果返回 ErrBufferFull 是说明整个缓冲区没有遇到分隔符(如果不是,说明遇到了非预期错误,直接返回),它会保存已经读取的数据,然后再调用 ReadSlice,直到遇到分隔符或者其他错误。
对比上面这行代码的执行结果:
ReadStringTest("CrazyDragonKingCrazyDragonKingCrazyDragonKing\nCrazyDragonKing\n")
总结
好了,到这里就结束了。这里至少 Reader
相关的部分,后面还会继续 Writer
相关的部分。不过,目前还没有特别好的记录方式,只是大致挑几个代码贴出来,写一些自己的理解,然后配一些示意图,再加上一些测试代码。这篇博客不是为了说明这个包是怎么使用的,而是为什么要用它,以及它的一些实现的细节。现这样写吧,以后再探索是不是有更好的方式。