异步IO一定更好吗？

在长林的文章《nodejs异步IO的实现》中提到，NodeJS通过libeio来实现IO操作的异步化，而libeio采用多线程的方式来模拟异步操作。

这里我需要强调一个观点，异步IO虽然是NodeJS一个非常重要的特点，但异步IO并不总是最好的，其他语言也一样。我们来看这么一个例子：

在我的磁盘上有2个文件，我希望在一个程序里读取这2个文件，每次输出一个字符。请注意，我不要求一定要两个文件被交替着读取，也不要求一定要先读完一个再读另一个。

怎么样，貌似还没说到问题的实质。那么我们再分几种情况：

“磁盘”是指我的机器上只有一块机械式硬盘，或者有多个硬盘，但被读取的两个文件位于同一块硬盘上；

被读取的文件位于不同的两个机械式硬盘上；

被读取的两个文件位于同一块固态硬盘（SSD）上。

如果你熟悉机械式硬盘的原理，我想已经明白我要说什么了。否则，我们继续往下看。我们知道，传统的机械式硬盘要读取某一个文件，首先要将磁头移动到某个位置（fseek）。这个过程是一个物理运动，所花的时间跟磁盘转速、磁头移动的距离有关。读取一个字节后，磁头顺便移动到紧挨着的下一个字节。我写了一段通过异步方式读取文件的测试代码如下：

var fs  = require(‘fs’);



function test_stream_read(file, id) {

        var stream      = fs.createReadStream(file, {

                flags: 'r’,

                encoding: 'utf8’,

                mode: 0666,

                bufferSize: 1

        });



        var tag = "[ " + id + " ] ";

        stream.on('data’, function(chunk) {

                console.log(tag + "data: " + chunk.trim());

        });



        console.log(tag + “start”);

}



test_stream_read('/disk1/a.txt’, 1);

test_stream_read('/disk2/b.txt’, 2);

在上面的代码中，我用NodeJS的ReadStream来读取文件，设定的bufferSize为1，即每次读取一个字符。由于NodeJS异步IO的多线程方式，供测试的两个文件在程序逻辑上可以被并行读取。所以影响性能的关键就落在存储介质（磁盘）能否并行处理上了。

在第一个case中，由于两个文件位于同一块机械式磁盘上，一块磁盘的磁头只有一个，所以只能是顺序的。你会发现，这种情况下磁头在盘面上移来移去，大量时间花在物理运动上，性能不差才怪呢！在这个case里，你还不如让NodeJS阻塞着读文件呢！

而第二个case中，两个文件位于两块磁盘上，它们之间能互相独立的被操作，实际上落在单个磁盘上的读请求仍然是顺序读取，性能会较好。

第三个case你自己分析吧，我不多讲了。

总结一下：

哪种方式读文件，要根据你的硬件和应用特点来权衡，切忌盲从。我认为要考虑的几点包括：硬盘原理、多少个硬盘、文件放在几个文件上、一次读取多少个文件、文件的平均大小、读取的缓冲区大小。

NodeJS的fs.read方法实际上用的也是ReadStream，只不过bufferSize被写死了，为64K。如果你的文件大小都小于64K，那么你可以简单地忽略上面啰嗦的一大堆文字了。但是，这个原理你得清楚。

关于这个话题，我希望有更多的讨论和测试代码。欢迎拍砖给我。

yixuan 1楼•4年前

有道理，倒是可以测一下不同情况异步和同步读取多个数据文件的时间，做个比较。简单的处理方法可以在读取多个文件时对路径进行检查归类，然后分类异步读取

changlin 2楼•4年前

考虑磁盘因素确实有道理，但我觉得对io优化更有帮助的是研究下os中io调度的算法和原理，因为os已经根据不同磁盘介质进行了优化，应用程序只要用好os的api就行了。

fengmk2 3楼•4年前

一文惊醒梦中人，之前我还真没考虑过这个问题，只是都想着让服务器进程同时处理更多的客户端请求。

anonymous 4楼•4年前

pengchun 的例子挺特殊的，异步是应对阻塞的方法，有效利用系统CPU资源，并不是说异步一定比同步的效果更好，对于IO这种需要具体问题具体分析啊，此外，还有个问题，就是目前多核架构是主流，而且很长一段时间内都是，那异步架构如何来提高系统整体CPU的利用率而不仅仅是单核。

anonymous 5楼•4年前

关于测试代码的一点疑问：

为什么每次不从disk多读一些数据到buffer中呢，然后让另外一个打印线程去完成打印任务？而不是每次让aio去读一个字节，这样是对aio的一种浪费吧！

pengchun 6楼•4年前

为了说明这个问题，故意这样搞的。

anonymous 7楼•4年前

呵呵，写出来的程序还是尽量去迎合它的优势，毕竟它不是怎么用都是最好的。

anonymous 8楼•4年前

In future versions, Node will be able to fork new processes (using the Web Workers API )

anonymous 9楼•4年前

[…] 我之前的一篇文章《异步IO一定更好吗？》中举了一个很变态的例子，用以说明在单碟机械式硬盘上异步IO反而可能降低性能的问题，大家的讨论很热烈。前天的NodeParty杭州站分享会上，来自上海的@老赵随口带出了这个问题，大概说是多个异步IO请求会使得性能提高，因为磁头走到哪里就处理到哪里，很多请求在“路上”就可以被处理掉了。 […]

czbabl 10楼•1年前

一般应用都是读取数据库的，除非有些应用必须是读文件，那是要好好考虑了。