본문 바로가기

[시사] 사회 과학 경제 법

데이터 라벨링 Data labelling 이란?ㅣAI 인공지능 학습 고도화, 도전과제

728x90
반응형


데이터 라벨링 Data labelling 이란?ㅣAI 인공지능 학습 고도화, 도전과제


◆ 데이터 라벨링(Data labelling)이란?

 

인공지능(AI)이 스스로 학습하도록 하기 위해 데이터에 라벨을 달아주는 작업을 데이터 라벨링이라고 합니다. 즉 사람과 AI를 연결시켜 주는 작업입니다. 예컨대 다양한 고양이 사진에 '고양이'라는 라벨을 달아 AI가 학습하도록 하면 AI는 유사한 이미지를 고양이라고 인식하게 됩니다. 데이터 라벨링은 다양한 머신 러닝 및 딥 러닝 사용을 뒷받침합니다.

 

◆ 라벨(레이블, label)이란?

 

AI 학습을 위해 데이터에 부착하는 정보이며 대상의 명칭, 설명 등을 의미합니다. 

 

◆ 데이터 라벨러(Data labeler)

 

데이터 수집에서부터 정제, 가공(라벨링), 검수하는 작업을 수행하는 사람을 데이터 라벨러라고 합니다. 

 

반응형

 

◆ 데이터 라벨링 과정

 

ㅣ데이터 수집

 

기계학습에 필요한 다양한 이미지, 영상, 텍스트나 음성 데이터를 현실세계에서 광범위하게 모으는 과정입니다. 

 

ㅣ데이터 정제

 

AI가 학습하기 적합한 형태로 데이터 중복을 제거하거나 개인정보를 비식별화하는 등 다듬는 과정이라고 할 수 있습니다. 

 

ㅣ데이터 가공(라벨링)

 

데이터에 키워드를 달거나 태깅, 외곽선을 따라 오리는 등 데이터를 가공하는 과정입니다.

 

① 이미지 라벨링 기법 : 바운딩, 키포인트, 얼굴랜드마크, 폴리곤, 폴리라인 등

② 영상 라벨링 기법 : 바운딩, 특정 구간 추출, 스켈레톤, 시멘틱 세그멘테이션 등

③ 텍스트 라벨링 기법 : 문장 의미 비교, 키워드 찾기, 감정 태깅, 문장 요약 등

④ 음성 라벨링 기법 : 화자 구분, 음성 받아쓰기(전사) 

 

ㅣ데이터 검수

 

앞선 과정들에 오류가 없는지 체크하는 과정인데 AI 학습 전 가장 중요한 단계라고 볼 수 있습니다. 

 

728x90

 

◆ 데이터 라벨링의 이점과 도전과제

 

ㅣ이점

 

데이터 라벨링은 사용자와 기업에 더 나은 컨텍스트, 품질, 데이터 유용성을 보장합니다. 정확한 데이터 라벨링이 이루어진 경우 기계 학습 알고리즘 내에서 더 나은 품질을 보장하며 모델이 예상 출력을 산출할 수 있도록 합니다. 또한 모델 내에서 데이터 변수의 사용성을 향상시킬 수도 있습니다. 

 

ㅣ도전과제

 

데이터 라벨링은 비용과 시간이 많이 소요됩니다. 머신 러닝 모델에 매우 중요하지만 리소스와 시간 측면에서 비용이 많이 들 수 있습니다. 보다 자동화된 접근 방식을 취하는 경우에도 엔지니어링 팀은 데이터 처리 전 파이프라인을 설정해야 하며, 수동 라벨링은 말할 것도 없습니다. 또한 코딩 오휴, 수동입력 오류가 발생할 수 있으며 데이터 품질을 저하시킬 수 있습니다. 

 

/참고: IBM웹사이트, PMG지식엔진연구소


2023.9. 씀. 


 

728x90
반응형