在分区基础上,如果让数据计算实现时间最短、计算效率最大化,还需要考虑平衡分布数据问题。

事实上,为了实现数据平衡处理,在分区时就已经准备了平衡处理参数。在分布执行过程中,数据计算的数据平衡工作由Balance阶段负责,数据构建的数据平衡工作由Assign阶段负责。理想条件下,当不考虑计算机性能的时候,简单的数据平衡可以按照数据长度来处理,这个参数目前已经在数据位图中提供。理论上,两组内容、长度相同的数据,在两台硬件配置相同的计算机上,它们的执行时间是一样的。在比较复杂的时候,就需要考虑数据类型和处理内容等因素。比如加减计算肯定比乘除要快,整数计算肯定比浮点数计算要快,多媒体的音频、视频数据肯定比文本数据计算密度大等影响。和分区一样,更多复杂的、个性化的数据平衡计算工作需要开发者来处理,系统也已经提供了API接口。