一个超级大的文件如何更快读

一个,超级,文件,如何,更快 · 浏览次数 : 3189

小编点评

**方案一：使用多线程读取TSV文件** **步骤：** 1. 创建一个生产者任务，读取TSV文件并将其写入数据库。 2. 创建4个消费者任务，从队列中读取数据并将其写入数据库。 3. 使用Task Parallel Library (TPL)实现多线程。 **代码示例：** ```csharp using System; using System.IO; using System.Threading.Tasks; using System.Data.SqlClient; static void Main() { string path = @"yourFile.tsv"; ConcurrentQueue<string[]> queue = new ConcurrentQueue<string[]>(); // 生产者任务 var producer = Task.Run(() => { using (var reader = new StreamReader(path)) { string line; while ((line = reader.ReadLine()) != null) { var fields = line.Split('\\t'); queue.Enqueue(fields); } } }); // 消费者任务 var consumers = new Task[4]; for (int i = 0; i < consumers.Length; i++) { consumers[i] = Task.Run(() => { string connString = "Your connection string"; using (var conn = new SqlConnection(connString)) { conn.Open(); while (true) { if (queue.TryDequeue(out string[] fields)) { using (var cmd = new SqlCommand("Your insert command", conn)) { // Update parameters in cmd using fields cmd.ExecuteNonQuery(); } } else if (producer.IsCompleted) { break; } } } }); } // 等待所有任务完成 Task.WaitAll(consumers); } ``` **讨论：** 1. **使用偏移值去分多个任务读：**可以利用偏移值来指定读取的起始位置和结束位置。但是，如果文件数据按每个换行符去分割数据，则偏移值可能不是每一行的开头。 2. **解决偏移值问题：**可以使用以下方法解决偏移值问题： - 将所有偏移值存储在数据库中，并按顺序读取文件。 - 在读取文件之前，使用偏移值从数据库中获取实际数据长度。 - 当读取到指定位置时，从队列中取出数据并将其写入数据库。 **其他建议：** - 使用缓存机制以减少读取文件中的重复数据。 - 使用异步操作以提高性能。 - 监控并优化应用程序性能。

正文

一个超级大的文件如何更快读

问题起因

一个有千万的数据的txt文件如何发挥IO的全部性能更快的读和写。

方案一

使用ChatGPT4的方案

在C#中，我们可以使用多线程来处理大量的数据并将其写入数据库。在处理大数据时，我们需要将任务分解为多个子任务，这样我们可以在不同的线程中并行执行它们以提高性能。

这里是一种可能的解决方案，使用了Task Parallel Library (TPL)来实现多线程。假设我们使用的是SQL Server数据库，并且我们正在处理的文件是TSV（Tab-Separated Values）文件。

using System;
using System.IO;
using System.Threading.Tasks;
using System.Data.SqlClient;
using System.Collections.Concurrent;

class Program
{
    static void Main()
    {
        string path = "yourFile.tsv";
        ConcurrentQueue<string[]> queue = new ConcurrentQueue<string[]>();

        var producer = Task.Run(() =>
        {
            using (var reader = new StreamReader(path))
            {
                string line;
                while ((line = reader.ReadLine()) != null)
                {
                    var fields = line.Split('\t');
                    queue.Enqueue(fields);
                }
            }
        });

        var consumers = new Task[4];
        for (int i = 0; i < consumers.Length; i++)
        {
            consumers[i] = Task.Run(() =>
            {
                string connString = "Your connection string";
                using (var conn = new SqlConnection(connString))
                {
                    conn.Open();
                    while (true)
                    {
                        if (queue.TryDequeue(out string[] fields))
                        {
                            using (var cmd = new SqlCommand("Your insert command", conn))
                            {
                                // Update parameters in cmd using fields
                                cmd.ExecuteNonQuery();
                            }
                        }
                        else if (producer.IsCompleted)
                        {
                            break;
                        }
                    }
                }
            });
        }

        Task.WaitAll(consumers);
    }
}
复制

在上面的代码中，我们首先创建了一个生产者任务，该任务从TSV文件中读取每一行，然后将每一行分割为字段，并将结果存入队列。然后我们创建了4个消费者任务，每个消费者任务都从队列中

题外话题

如果这个文件是按照行去分割数据如何利用多线程去发挥更高性能？

讨论采用偏移值去分多个任务读，并且需要解决偏移值不一定还在每一行中的位置，使用需要设计好如何解决偏移值的位置问题。

首先规定任务的偏移值提供案例：

[
	{
	"start":0,
	"end":10000
	},
	{
	"start":10001,
	"end":20000
	},
	{
	"start":20001,
	"end":30000
	},
	{
	"start":30000,
	"end":40000
	}
]
复制

在这里提供了四个任务，每一个任务的偏移值都是固定的，请注意，我们的文件的数据是按照每个换行符去分割数据，如果使用了偏移值，我们无法保证偏移值的位置一定是每一行的开头，这个时候需要注意如何处理偏移值的问题，下面我提供一个简单的解决方法，采用伪代码

var data = new object []{
   
	{
	"start":0,
	"end":10000
	},
	{
	"start":10001,
	"end":20000
	},
	{
	"start":20001,
	"end":30000
	},
	{
	"start":30000,
	"end":40000
	}
}

// 处理偏移值的方法

// 提供多个线程任务去并发执行读

复制

通过伪代码我们可以看到，解决偏移值的问题是由先提供一个方法，将每一个偏移值去先处理一边在去执行任务。这样就可以解决问题。

这个属于题外话题。如果大佬们有其他想法也可以讨论，话题不在意IO的瓶颈，如何更快的读