生成标注数据集

功能描述

该算子用于将特定格式的标注数据转换为 COCO 数据集格式,可直接上传到迁移 CVAT 标注平台用于训练深度学习模型。

使用场景

准备深度学习数据,可进一步用于优化标注和管理模型数据。

输入输出

输入项

保存路径: 指定原始标注数据所在的文件夹。算子将在此文件夹中查找 .png 文件,并期望每个 .png 文件都有一个同名的 .json 文件(例如 image1.png 对应 image1.json)。

如果此输入端口连接了数据(即提供了路径),则该路径会覆盖参数面板中设置的“保存路径”参数,作为原始数据的读取路径。

如果此输入端口未连接数据(为空),则算子会使用参数面板中“保存路径”指定的路径作为原始数据的读取路径。

输出项

文件名称: 实际保存的 COCO 数据集文件的主名称。

参数说明

标注名字参数需提供正确格式的数组,每个自定义类别名称都必须用英文双引号 (") 括起,例如 ["类别A", "类别B"],否则将提示“格式化失败”。

保存路径

参数说明

用于指定文件保存的目标文件夹路径。

调参说明

  • 指定路径:直接输入一个有效文件夹路径,或点击右侧图标点选一个文件夹路径。

  • 不指定路径:即不填任何路径,算子默认会在 .transfertech 的 atom 文件夹里创建一个 file_save_dir 子文件夹作为存储路径。这对于临时保存或不关心具体存储位置时比较方便。

  • 路径检查:算子会检查指定的路径是否有效。如果路径指向一个已存在的文件(而非文件夹),或者路径无效,算子会报错。如果指定路径不存在,则会尝试创建。

保存名字

参数说明

指定保存文件名称,不需要包含文件后缀名。

调参说明

建议使用具有描述性的名称,便于后续检索和管理,避免使用特殊字符。

默认名称:data

只保存单一文件

参数说明

设置文件保存策略,保存为单一文件或者多个文件。

调参说明

  • 关闭(默认):生成多个文件,自动在指定文件名后添加时间戳避免重名,适用于需要记录历史数据或多次运行结果的场景。

  • 开启:算子每次运行都会尝试使用指定名称作为文件名来保存数据,如果文件已存在,新的数据会覆盖旧的文件。适用于需要固定文件名输出,例如用于覆盖上一次结果的场景。

可存储最大内存

参数说明

设置保存目录下允许存储文件的最大总大小,当文件夹内相关文件的总大小超过此限制时,软件会尝试删除该目录下最早创建的同类型文件,以释放空间。

调参说明

请根据可用磁盘空间和数据保留需求设置此值:

  • 较小值: 会更频繁地删除旧文件,节省磁盘空间,但可能导致历史数据丢失较快。

  • 较大值: 允许保存更多历史数据,但会占用更多磁盘空间。

参数范围

[0.00001, 10],默认值:10,单位:GB

标注名字

参数说明

一个字符串列表,用于定义数据集中所有可能的对象类别名称。列表中的每个字符串代表一个类别。

调参说明

  • 自定义类别: 根据需求自定义类别名称来设置此列表。例如,如果您的项目检测 "cat", "dog", "person",则可以设置为 ["cat", "dog", "person"]。

  • 类别ID映射: 算子会自动将列表里的第一个名称映射为ID 1,第二个为ID 2,依此类推。但在标注文件里,label 字段会以从0开始的数字字符串来对应的类别名称。

  • 默认值 : 如果此列表为空,算子将默认使用 ["0", "1", "2", "3", "4"] 作为类别名称,最多支持5个类别。