데이터 라벨링 기본/기본 용어(AIDE 1단계 및 2단계 이론 참조)

데이터 라벨링 분야에 대한 관심이 높아지면서 인증을 준비하는 분들이 늘고 있습니다. 실전에서는 투모로우 러닝 카드로 받을 수 있는 무료 교육을 수강하면 시험을 준비할 수 있다고 하는데 이론적인 부분이 좀 부족한 것 같다. 저도 내일 크라우드웍스에서 플래시카드로 데이터 라벨링 교육을 받았는데 자격증 시험에 합격하기 위해 얼마나 더 준비를 해야 하는지 궁금했습니다.

AIDE 레벨 1 또는 레벨 2 시험을 치르거나 Crowdworks에서 별도로 제공하는 이론 교육을 이수한 사람들이 점진적으로 편집한 온라인 자료가 있었습니다. 이론 수업을 들어야 하나 말아야 하나 고민 중인데, 데이터 조각 모음을 하기 전에 어느 수준에 있었는지 알아보려고 했어요.

데이터 라벨링 용어

1) 데이터 라벨링이란 무엇입니까?

데이터 라벨링: 사진, 음성, 동영상, 텍스트 등의 데이터를 AI가 학습할 수 있는 형태로 가공하는 과정을 말합니다.

2) 퍼셉트론

: 1957년 Frank Rosenblatt가 개발한 딥러닝의 기원이 된 알고리즘.

3) 비지도 학습

: 답을 가르치지 않고 배우는 것. 입력 값에 대한 목표 값이 없습니다.

4) 인공 신경망 ANN

– Input Layer : 학습할 데이터 입력

– Hidden Layer: 입력 데이터를 여러 단계로 처리

– 출력 레이어: 처리된 결과 출력

5) AI 알고리즘

– 딥러닝(Deep Learning): 대량의 데이터로부터 패턴과 규칙을 자동으로 학습하고 그 결과를 기반으로 의사결정, 예측 등의 작업을 수행하는 기술

– Epoch: 반복 횟수

6) 빅데이터

– 빅데이터란? 대량의 정형/비정형 데이터에서 가치를 추출하는 기술입니다.

– 빅데이터의 특징

3V: 볼륨, 진실, 속도
4V: 3V + 진실성
5V : 4V + 값

– 빅데이터의 종류

  • 구조화된 데이터: 구조화된 데이터로 고정 필드에 저장된 데이터. (예: CSV, Excel, 데이터베이스 등)
  • 반구조화된 데이터: 고정된 필드가 아니지만 수정이 불가능한 데이터(XML, JSON, HTML 등)
  • 구조화되지 않은 데이터: 형식이 없는 구조화되지 않고 계산할 수 없는 데이터입니다. (비디오, 오디오, 이미지 등)

7) 기록 : 소스 데이터 + 주석 데이터 세트. 인공지능을 훈련시키기 위해서는 데이터셋이 필요합니다.

8) AI 프로그램 개발 과정

1단계: 라이브러리 로드
2단계: 데이터 읽기 및 전처리
3단계: 신경망 구축
4단계: 모델 빌드(훈련)
5단계: 모델 적용(예측)

9) AI 객체 감지 방법

1) 단일 물체: 하나의 물체만 검출하고자 하는 경우

– 분류 : 학습을 통해 대상 찾기

– 현지화 : 분류하여 감지한 물체의 정보 위치를 보기 쉽게 상자 형태로 표시

2) 다중 물체: 여러 물체를 감지해야 하는 경우

– 객체 감지: 감지된 객체의 영역을 경계 상자와 색상을 사용하여 학습하고 표시하여 여러 객체를 감지하는 과정

– Semantic segmentation 인스턴스 분할: 객체 인식에서 이미지를 의미 있는 단위로 분할하는 과정

10) 기계 학습(ML)의 유형.

– 감독 학습(Supervised Learning): 문제와 답을 가르치고 배우는 방법. 분류 기술 및 선형 회귀에 사용

– 비지도 학습(Unsupervised Learning): 답을 가르치지 않고 학습하는 방법.

– 강화 학습: 보상을 통한 학습.

* 데이터 라벨링 관행과 관련된 용어

데이터 라벨링 자격 테스트 용어

하나) 경계 상자 : 주어진 객체의 면적을 사각형으로 표시하는 작업.

2) 포인트 포인트 : 이미지에서 특정 사물을 찾아 점으로 표시하는 방식.

삼) 다각형 : 객체 감지 감지할 객체를 다각형으로 표시합니다.

4) 핵심 : 인식하고자 하는 물체의 형태를 알고 싶을 때 데이터의 윤곽을 잡고 대상을 나타내는 다각형과 점 정보를 생성합니다.

5) 입방체 : Bounding Box가 데이터를 2차원으로 구성하는 작업이라면 Cuboid는 입체적인 육면체와 3차원 데이터로 한 차원을 더 올려 더 많은 정보를 제공하는 작업입니다. 자율주행 시스템에서 많이 사용되며, 차량의 앞, 뒤, 좌측 마킹에 매우 유용합니다.

6) 다중선 : 여러 점을 연결하는 선을 그리는 작업으로, 시작과 끝이 없는 선을 구분하기 위해 주로 사용하는 라벨링 방식으로, B. 가로선. 차량용 ADAS에 자율주행을 적용하기 위해 사용됩니다.

7) 데이터 주석 : Raw Data를 의미 있는 단위로 나누어 속성 정보를 입력하는 작업을 말합니다.


추가 정보가 수집되는 대로 관련 정보가 업데이트됩니다. 별도의 교재가 없기 때문에 아직 교재가 많지는 않지만 여기저기서 정보를 수집하고 정리하고 있습니다. 계속 업데이트하면 의미 있는 데이터 라벨링 이론이 되지 않을까 싶다.

AIDE 레벨 1과 레벨 2를 준비하는 모든 이들이 화이팅입니다.

.

.

함께 보면 유익한 콘텐츠