Merchandiser Data Placement on Heterogeneous Memory for TaskParallel HPC Applications with LoadBalance Awareness

Paper

发布日期: 2023-08-19

文章字数: 979

阅读时长: 3 分

1. 论文信息

文章来自ACM SIGPLAN Symposium on Principles & Practice of Parallel Programming, PPoPP, 2023
Merchandiser: Data Placement on Heterogeneous Memory for Task-Parallel HPC Applications with Load-Balance Awareness

所有作者及单位

Zhen Xie，University of California, Merced Argonne National Laboratory
Jie Liu，University of California, Merced
Jiajia Li，North Carolina State University
Dong Li，University of California, Merced

2. Background

图1.a给出了一个基于MPI的任务并行应用的例子。在DMRG中，一个哈密顿矩阵首先被分割成多个块，每个块被分配给一个MPI 进程(1-3行) 。然后每个MPI进程运行一个计算循环，作为输入(第5-7行)循环的一次迭代被认为是1个任务实例。因此，MPI进程中的任务是重复执行的。在每个迭代结束时，有一个全局的MPI进程之间的同步。

图1.b给出了1个基于OpenMP的任务并行应用的例子，一个主循环运行了许多SpGEMM (C=A*B) 。在主循环的每一次迭代中，A首先被分割成若干个bins，部分 A*B 得到部分C

3. 解决了什么问题

异构内存让这种并行的，有同步点的workload负载均衡，这个策略算是对以前迁移策略的补充。

4. 其他学者解决这个问题的思路和缺陷

当大家都将访问频率高的页面放在DRAM时，忽略了并行计算有同步点的实际情况，这会使得高性能计算不同任务间负载不均。

5. 围绕该问题作者如何构建解决思路

Input-Aware Memory Access Quantification
既然是从任务的角度来解决问题，那么如何确定什么样的数据放入快速内存中？
一种是程序员自己去设置。
另一种分类是流式的、一定步长的，需要考虑左右两边数据的、随机的。一个程序还可以有多种模式同时存在。（这在16年eoursys有比较相似的工作）这些模式的识别是现有的开源工具改造的。