데이터 라벨링 Data labelling 이란?ㅣAI 인공지능 학습 고도화, 도전과제
◆ 데이터 라벨링(Data labelling)이란?
인공지능(AI)이 스스로 학습하도록 하기 위해 데이터에 라벨을 달아주는 작업을 데이터 라벨링이라고 합니다. 즉 사람과 AI를 연결시켜 주는 작업입니다. 예컨대 다양한 고양이 사진에 '고양이'라는 라벨을 달아 AI가 학습하도록 하면 AI는 유사한 이미지를 고양이라고 인식하게 됩니다. 데이터 라벨링은 다양한 머신 러닝 및 딥 러닝 사용을 뒷받침합니다.
◆ 라벨(레이블, label)이란?
AI 학습을 위해 데이터에 부착하는 정보이며 대상의 명칭, 설명 등을 의미합니다.
◆ 데이터 라벨러(Data labeler)
데이터 수집에서부터 정제, 가공(라벨링), 검수하는 작업을 수행하는 사람을 데이터 라벨러라고 합니다.
◆ 데이터 라벨링 과정
ㅣ데이터 수집
기계학습에 필요한 다양한 이미지, 영상, 텍스트나 음성 데이터를 현실세계에서 광범위하게 모으는 과정입니다.
ㅣ데이터 정제
AI가 학습하기 적합한 형태로 데이터 중복을 제거하거나 개인정보를 비식별화하는 등 다듬는 과정이라고 할 수 있습니다.
ㅣ데이터 가공(라벨링)
데이터에 키워드를 달거나 태깅, 외곽선을 따라 오리는 등 데이터를 가공하는 과정입니다.
① 이미지 라벨링 기법 : 바운딩, 키포인트, 얼굴랜드마크, 폴리곤, 폴리라인 등
② 영상 라벨링 기법 : 바운딩, 특정 구간 추출, 스켈레톤, 시멘틱 세그멘테이션 등
③ 텍스트 라벨링 기법 : 문장 의미 비교, 키워드 찾기, 감정 태깅, 문장 요약 등
④ 음성 라벨링 기법 : 화자 구분, 음성 받아쓰기(전사)
ㅣ데이터 검수
앞선 과정들에 오류가 없는지 체크하는 과정인데 AI 학습 전 가장 중요한 단계라고 볼 수 있습니다.
◆ 데이터 라벨링의 이점과 도전과제
ㅣ이점
데이터 라벨링은 사용자와 기업에 더 나은 컨텍스트, 품질, 데이터 유용성을 보장합니다. 정확한 데이터 라벨링이 이루어진 경우 기계 학습 알고리즘 내에서 더 나은 품질을 보장하며 모델이 예상 출력을 산출할 수 있도록 합니다. 또한 모델 내에서 데이터 변수의 사용성을 향상시킬 수도 있습니다.
ㅣ도전과제
데이터 라벨링은 비용과 시간이 많이 소요됩니다. 머신 러닝 모델에 매우 중요하지만 리소스와 시간 측면에서 비용이 많이 들 수 있습니다. 보다 자동화된 접근 방식을 취하는 경우에도 엔지니어링 팀은 데이터 처리 전 파이프라인을 설정해야 하며, 수동 라벨링은 말할 것도 없습니다. 또한 코딩 오휴, 수동입력 오류가 발생할 수 있으며 데이터 품질을 저하시킬 수 있습니다.
/참고: IBM웹사이트, PMG지식엔진연구소
2023.9. 씀.
'[시사] 사회 과학 경제 법' 카테고리의 다른 글
전국 장애인 평생학습도시 운영ㅣ2022년 32개 지자체, 국립특수교육원 (4) | 2023.09.18 |
---|---|
9.25일부터 수술실 내 CCTV 설치 의무화ㅣ의료법 개정, 법제처 (0) | 2023.09.17 |
저작권 침해 않는 <공정 이용 Fair Use>이란? 요건 4가지 (유튜버 블로거) (0) | 2023.09.08 |
[법] 폰트 저작권ㅣ폰트(Font)란? 폰트 파일 올바른 사용법 (0) | 2023.09.05 |
공매도 Short Selling 란? 일반 주식투자와 차이점, 규제하는 이유 (0) | 2023.09.04 |