首页 > 资讯中心 > 数据标注

数据标注员需要了解的文件格式

小编 2022-03-07 11:17:14 人看过

  入行数据标注必须要了解到相关基础知识

  做数据标注的你,和即将从事这个行业的大家,是不是都有遇到过文件打开是乱码、文件后缀不常见,提示没有应用软件可以打开……一系列的问题呢?

  特别是刚进入数据标注这个行业,或者是平时不太玩电脑对计算机了解较浅的小伙伴们,是蒙圈不知道该如何处理,今天呢,砸门就梳理一些关于数据标注文件格式的基础知识,作为新手的你一定要了解一下哟

  文件格式

  文件格式(或文件类型)是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。

  每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式

  对于硬盘机或任何电脑存储来说,有效的信息只有0和1两种,所以电脑必须设计有相应的方式进行信息-位元的转换。对于不同的信息有不同的存储格式,文件格式也意味着文件的用途

  我们日常常用的扩展名有哪些

  1.办公软件中的Word文件.docx,PPT文件.pptx,Excel文件.xlsx;

  2.图形文件多以.png、.jpg、.gif结尾;

  3.音乐和视频文件则是.mp3、.mp4、.wav、.wmv;

  4.文本.txt;

  windows环境下的可执行文件.exe

  对于这些扩展名大家习以为常,并不觉得奇怪,那么在数据标注的过程中,我们可能会遇到哪些文件格式呢?

  文本标注

  通常较为常见的文本标注文件格式是txt、xlsx这个两种格式,具体的要看自己当时做的项目数据方的一个要求,来进行后缀就行了

  图像标注

  图像标注涉及计算机视觉、机器视觉....等技术,所以格式种类相对更丰富一些,较为常见的有:bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp等。其中用得最多的就是bmp、jpg、png了

  当然标注完之后还是需要根据数据的需求制定特定的数据输出格式,或者某一项标注工具下指定的标注格式,例如下图这几种标注工具,导出的数据格式各有不同

  音频标注

  无损格式:例如WAV、FLAC、APE、ALAC、CDA

  有损格式:例如MP3、AAC、Opus

  所以我们在标注的时候使用的原始数据WAV格式也会多一些。其标注的结果文件除了上面通用的标注文件格式外,还有用Praat软件标注的后级名为“TextGrid”的文件,它是一种“分段”文件,详细记录了语音的总时长、每一个标注层内所有标注区间的时长及标注内容等信息

  视频标注

  视频数据标注任务的数据结果可包含视频标签的时间位置、空间位置和标签信息等内容。不同标注任务和要求会产出不同的结果,但不影响定义数据格式及其组成部分。

  标注文件的输出格式推荐使用易解析、易存储的数据格式, 包括JSON、XML等

  医疗标注

  影像数据(CT/DR)

  RAW,裸格式:就是最原始的图像,没有经过任何处理,拍出来是什么样就是什么样;

  BMP格式:BMP不压缩,可以任意选择图像灰度深度或图像位数;

  DICOM格式:DICOM是一种统一的兼容各种CT,MRI,PET等医学影像的图像存储方式;.dcm文件就是遵循DICOM标注的一种文件。

  DICOM标准支持的设备包括心电图、核磁共振成像、心血管、超声心动图等多种医疗社保,因而DCM文件被广泛应用于医疗行业。一张CT片子对应多个.dcm文件

  病理切片

  .jpg格式,如果是一张病理切片如果被切分成.jpg格式的图片通常会被切成少则几十张多则几百张的图片

  tif格式

  这是一种灵活的位图格式,其数据格式是一种3级体系结构,内部结构可以分为三部分:文件头信息区、标识信息区和图像数据区

  以上就是目前数据标注涉及到的文件格式,即后期AI训练师在数据处理中必须要了解到的基础知识,下次我们接着分享大家必须要知道的基础知识还有哪些`


本文链接:数据标注员需要了解的文件格式https://lingeyizhan.com/sjbz/50.html

文章声明:倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本站《原创》内容,违者将追究其法律责任。本站文章内容,部分图片来源于网络,如有侵权,请联系我们修改或者删除处理。

最新文章

热门文章

热门课程

报考咨询/商务合作

电话:13324574689

微信:doadao882

留言咨询

扫码二维码