MindSpore数据集加载-GeneratorDataset卡住、卡死

发布于:2022-12-13 ⋅ 阅读:(298) ⋅ 点赞:(0)

MindSpore可以自定义Python数据源,通过迭代该数据源构造数据集。有点类似PyTorch的DataLoader。

相关的API可以参考:mindspore.dataset.GeneratorDataset

自定义GeneratorDataset处理数据集时,混用numpy.ndarray  和 mindspore.Tensor 的操作会出现卡死

GeneratorDataset接口自定义的数据集,脚本如下:

原因分析:

猜测在自定义的数据处理中,存在numpy.ndarray -> mindspore.Tensor -> numpy.ndarray的混用过程,并且错误地使用numpy.array(Tensor)做转换,导致GIL锁得不到释放,GeneratorDataset不能正常工作。

打印堆栈分析后证明这个猜想,堆栈:

这个堆栈可以用py-spy这个工具获得,主要是为了看每一个进程目前运行的所在位置(神器啊!!!

GeneratorDataset处理数据卡住问题,一般为竞争GIL导致的死锁问题,推荐使用 py-spy dump -pid {PID}来定位。

解决办法:

  • 在GeneratorDataset的第一个入参`source`的定义时,涉及到Python function中全部使用numpy.ndarray来替代Tensor
  • 使用Tensor.asnumpy()方法替换numpy.array(Tensor)

对于这个问题,可以在代码的218行,把np.array(image)和np.array([record.label]) 换成 image.asnumpy()和record.label.asnumpy()

其他错误相关帖:


网站公告

今日签到

点亮在社区的每一天
去签到