算法 - 合并若干有序文件

栏目: 编程工具 · 发布时间: 5年前

内容简介:问题描述:现在你有 10 个接口访问日志文件,每个日志文件大小约 300MB,每个文件里的日志都是按照时间戳从小到大排序的。你希望将这 10 个较小的日志文件,合并为 1 个日志文件,合并之后的日志仍然按照时间戳从小到大排列。如果处理上述排序任务的机器内存只有 1GB,你有什么好的解决思路,能“快速”地将这 10 个日志文件合并吗?思路:其实就是归并排序的里的归并步骤,只不过从归并两个数组变成了归并多个数组。PS. 看这类问题的时候一定仔细看看空间限制条件,不要被吓到也不要随意做判断。代码:

问题描述:现在你有 10 个接口访问日志文件,每个日志文件大小约 300MB,每个文件里的日志都是按照时间戳从小到大 排序 的。你希望将这 10 个较小的日志文件,合并为 1 个日志文件,合并之后的日志仍然按照时间戳从小到大排列。如果处理上述排序任务的机器内存只有 1GB,你有什么好的解决思路,能“快速”地将这 10 个日志文件合并吗?

思路:其实就是归并排序的里的归并步骤,只不过从归并两个数组变成了归并多个数组。PS. 看这类问题的时候一定仔细看看空间限制条件,不要被吓到也不要随意做判断。

代码:

public class MergeSortedFiles {
  public static void merge(List<FileIterator> fileIteratorList) {

    FileWriter fileWriter = null;

    // 记录还没有遍历结束的文件
    List<FileIterator> notEndingFileIterators = new ArrayList<>(fileIteratorList);

    while (!notEndingFileIterators.isEmpty()) {

      FileIterator min = getMin(notEndingFileIterators);
      fileWriter.writeLine(min.getLine());

      if (!min.nextLine()) {
        // 该文件已经遍历到尾了,将其移除
        notEndingFileIterators.remove(min);
      }

    }
  }

  private static FileIterator getMin(List<FileIterator> notEndingFileIterators) {

    FileIterator min = null;

    for (FileIterator fi : notEndingFileIterators) {
      if (min == null) {
        min = fi;
        continue;
      }

      if (fi.getLine().compareTo(min.getLine()) < 0) {
        min = fi;
      }
    }
    return min;
  }
}

/**
 * 这里不做实现,只表达意思
 */
interface FileIterator {
  /**
   * 返回当前行
   *
   * @return
   */
  String getLine();

  /**
   * 前进到下一行
   *
   * @return 如果已经是最后一行了,返回false。否则返回true。
   */
  boolean nextLine();
}

/**
 * 这里不做实现,只表达意思
 */
interface FileWriter {
  /**
   * 写一行到文件中
   *
   * @param line
   */
  void writeLine(String line);
}

算法复杂度分析:

  • 不存在最好最坏情况,因为遍历次数是固定的。
  • 总行数n、文件数k、每个文件行数m,如果数据特征正好能够达成每次把一个文件遍历完再遍历其余都,那么遍历次数是 m*k + m*(k-1) + m*(k-2) + ... + m*1 = m*(k*(k+1)/2) ,把 m=n/k 代入得到, n(k+1)/2 ,为O(n)。

以上所述就是小编给大家介绍的《算法 - 合并若干有序文件》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

产品经理全栈运营实战笔记

产品经理全栈运营实战笔记

林俊宇 / 化学工业出版社 / 49.8元

本书凝结作者多年的产品运营经验,读者会看到很多创业公司做运营的经验,书中列举了几十个互联网产品的运营案例去解析如何真正做好一个产品的冷启动到发展期再到平稳期。本书主要分为六篇:互联网运营的全面貌;我的运营生涯;后产品时代的运营之道;揭秘刷屏事件的背后运营;技能学习;深度思考。本书有很多关于产品运营的基础知识,会帮助你做好、做透。而且将理论和作者自己的案例以及其他人的运营案例结合起来,会让读者更容易......一起来看看 《产品经理全栈运营实战笔记》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

html转js在线工具
html转js在线工具

html转js在线工具