AI 이야기 #4 - 고양이 vs 개, 분류기의 첫 걸음

2025. 8. 25. 23:19Deepin sights

반응형

AI가 세상과 만나는 첫 관문은 의외로 소박하다.
복잡한 문장을 해석하거나 자율주행차를 움직이기 전에, 기계는 단순한 질문에 답하는 연습을 한다.
사진 속 동물이 고양이인지 개인지, 흑백을 가르는 어린아이 같은 판단 말이다.

인간에게는 당연하고 순식간인 일이지만, 기계에게는 오랜 훈련과정을 필요로 한다.
그리고 그 훈련의 과정이 바로 오늘 우리가 이야기할 분류기의 첫 걸음이다.

분류(classification)는 말 그대로 주어진 입력을 미리 정해진 집단 중 하나로 구분하는 일이다.
학창시절 시험을 떠올려보면 된다. 답안지가 맞는지 틀린지, A학점인지 C학점인지 나눠주는 일 역시 분류다.

기계에게는 “이 사진은 고양이”라는 정답표를 수없이 보여주며, 그 안의 공통된 패턴을 스스로 알아차리게 만든다.
그 패턴은 눈 모양일 수도 있고, 귀의 각도일 수도 있다. 하지만 중요한 점은 우리가 직접 일일이 설명해주지 않는다는 것이다.

예전의 프로그래밍은 규칙을 사람이 써 넣었지만, 이제는 데이터가 스승이 된다.

사람이 고양이와 개를 구분하는 기준은 단순하지 않다.
털의 길이나 색깔은 종마다 다르고, 사진의 각도에 따라 다르게 보인다. 그러나 우리는 몇 장만 봐도 ‘느낌’을 잡는다.

기계에게 그 ‘느낌’을 가르치는 일은 훨씬 고된 반복의 과정이다.
1만 장, 10만 장의 사진을 보고 또 보면서, 확률적으로 가장 유력한 경계를 그어 나간다.

여기서 경계란, 어떤 입력이 들어왔을 때 고양이로 볼 확률이 더 큰지 개로 볼 확률이 더 큰지 나누는 선을 말한다.
보이지 않는 차원의 공간에 선을 긋는 셈이다.

고양이와 개는 종종 AI 입문 교재에 등장한다.
아이들이 알파벳을 배우듯 기계도 이 두 동물을 통해 ‘분류’라는 개념을 배운다.

단순한 이분법(binary classification: 두 집단으로만 나누는 방식)이지만, 여기서부터 세상 모든 문제의 확장이 가능하다.
암인지 아닌지, 스팸 메일인지 정상 메일인지, 고객이 이탈할지 잔류할지, 결국은 같은 틀 안에서 다뤄진다.

재미있는 것은, 처음의 고양이 대 개 문제에서도 이미 수많은 어려움이 숨어 있다는 점이다.
사진의 해상도가 낮으면 귀와 눈의 차이가 흐려지고, 조명이 어두우면 털의 색이 왜곡된다.

아예 사람 손으로 그린 고양이 그림을 가져다 주면, 훈련받지 않은 기계는 당황해버린다.
데이터의 세계가 현실의 복잡함을 고스란히 안고 들어오기 때문이다.
AI는 실제 세계를 배우는 과정에서 늘 불완전함을 마주한다.

그렇다고 포기할 수는 없다. 기계가 분류를 잘하도록 돕기 위해 사람들은 여러 가지 기법을 써왔다.
이미지를 일정 크기로 맞추고, 색상을 보정하고, 때로는 뒤집거나 회전시켜서 다양한 상황을 미리 경험하게 한다.
이것을 데이터 증강(data augmentation: 원본 데이터를 변형시켜 더 많은 학습 기회를 주는 과정)이라고 부른다.
고양이가 엎드려 있든, 개가 옆을 바라보든, 기계가 당황하지 않게 만드는 일종의 체력 훈련인 셈이다.

분류기의 성장은 점수로 드러난다.
정확도(accuracy: 전체 중 맞춘 비율)가 높아지면 우쭐하기 쉽지만, 현실은 그렇게 단순하지 않다.

예를 들어, 사진 열 장 중 아홉 장이 개이고 한 장만 고양이라면, 무조건 “개”라고 답해도 정확도는 90%가 된다.
그러나 그런 모델은 쓸모가 없다.

그래서 우리는 정밀도(precision: 맞다고 한 것 중 진짜 맞은 비율)와 재현율(recall: 진짜 맞는 것 중 맞다고 잡아낸 비율) 같은 다른 눈금을 꺼내든다.
분류기의 성능을 재는 잣대도 다양해야, 현실의 불균형한 상황을 반영할 수 있기 때문이다.

사람의 눈에는 너무 뻔한 고양이와 개의 차이가, 기계에게는 고된 여정이다.
그러나 이 여정이 쌓이면서 AI는 점차 복잡한 문제로 나아간다.

처음에는 두 집단을 나누는 선을 그리지만, 이후에는 수십, 수백 개의 집단을 다루고, 나아가 수많은 변수들 사이에서 경계를 찾는다.
고양이와 개를 가르쳐본 경험이 결국은 암 진단이나 자율주행의 눈으로 이어지는 것이다.

흥미롭게도, 기계는 종종 우리가 놓친 패턴을 집어내기도 한다.
사람 눈에는 다 비슷해 보이는 강아지 얼굴에서도, 특정 종의 귀 모양이나 턱선 같은 차이를 포착한다.

반대로 인간에게 너무나 뚜렷해 보이는 맥락, 예를 들어 “강아지는 주로 산책줄을 하고 있다” 같은 사회적 단서는 이해하지 못한다.
그 차이가 기계와 인간의 간극을 보여준다.

결국 고양이와 개의 문제는 단순한 분류 연습이 아니라, 인공지능이 세상을 인식하는 첫 경험이다.
데이터의 양과 질, 패턴을 찾는 방법, 성능을 측정하는 잣대, 그리고 인간과의 차이를 마주하는 자리까지 모두 담겨 있다.

우리는 웃으며 “이 정도는 쉬운 문제지”라 말하지만, 그 속에는 인공지능의 성장사가 압축되어 있다.
기계가 고양이와 개를 구분하는 순간, 그것은 단순한 놀이가 아니라 세상을 읽어내는 첫 문장을 써 내려가는 일과 같다.

그 문장은 아직 서툴고 단조롭다. 하지만 서툰 문장 속에서 우리는 가능성을 본다.
AI가 세상의 복잡함을 하나씩 배우며, 인간의 언어와 사고, 감각으로 점점 더 가까워지는 과정을 상상해보자.
고양이와 개를 넘어서, 언젠가는 그림 속 은유나 목소리 속 감정까지 읽어낼 날이 올지도 모른다.

AI의 첫 걸음은 그렇게 작은 차이를 분류하는 일에서 시작해, 끝내는 인간 세계의 깊은 층위로 뻗어나가는 중이다.

반응형