AI(8)
-
AI 이야기 #8 - 데이터 편향, 세상은 공평하지 않다
AI를 공부하다 보면 어느 순간 불편한 벽에 부딪히게 된다.기계가 내놓는 결과가 특정 집단에 불리하게 작동한다는 사실이다.얼굴 인식 시스템이 어떤 인종은 잘 맞추지 못하거나, 번역기가 직업을 성별에 따라 다르게 해석한다는 이야기는 이제 낯설지 않다.이런 현상을 데이터 편향(data bias)이라고 부른다.편향이란 기울어진 무게추다.세상이 이미 불균형하게 흘러가고 있기 때문에, 그 흔적을 모아 만든 데이터도 공평하지 않은 것이다.결국 AI는 세상을 배운다지만, 배운 그대로의 불평등까지 그대로 따라간다. 편향은 대체 어디서 생길까.데이터를 떠올려보면 금방 감이 온다.인터넷에서 무작정 긁어온 텍스트에는 누가 더 자주 등장하는가.유명인 중에서도 남성이 여성보다 많고, 특정 문화권의 이야기가 훨씬 많이 기록돼 있..
2025.08.31 -
AI 이야기 #7 - 오버피팅, 왜 천재도 시험에선 틀릴까?
기계가 배우는 과정을 곁에서 보면 때때로 기묘한 일이 벌어진다.학습할 때는 뭐든 척척 맞히는데, 막상 새로운 문제를 주면 어이없게 틀려버리는 것이다.교실에서 모의고사 성적은 늘 1등인데 정작 본시험에서는 낯선 문제 앞에서 주저앉는 천재와 닮았다.인공지능 연구자들은 이 현상을 오버피팅(overfitting)이라 부른다.말 그대로 ‘지나치게 끼워 맞춘 상태’.배우긴 배웠는데, 배운 것에만 과도하게 익숙해져서 새로운 상황에는 적용하지 못하는 상태다. 오버피팅을 이해하기 위해 고양이와 개의 분류기를 떠올려보자.고양이 사진 1만 장을 학습시켰더니 모델은 고양이를 완벽히 맞히는 것 같다.그런데 새로 찍은 고양이 사진을 넣었더니 이건 개라고 한다.이유를 따져보니, 훈련 데이터에 들어 있던 고양이 사진들은 우연히도 전..
2025.08.31 -
AI 이야기 #6 - AI가 잘하는 것과 못하는 것
AI를 오래 곁에 두고 보면 특이한 모양새가 보인다.어떤 일에는 사람보다 훨씬 더 잘하지만, 조금만 맥락이 바뀌면 어린아이처럼 서툴다.그 극단적인 능력의 차이가 때로는 경이롭고, 때로는 실망스럽다. 우리는 흔히 “AI가 똑똑하다”라는 말을 쓰지만, 사실 똑똑하다는 건 특정 영역에서만 해당되는 이야기다.잘하는 것과 못하는 것이 너무 분명하게 갈라져 있는, 이상한 전문가 같은 존재가 바로 지금의 AI다.AI가 잘하는 건 우선 반복과 계산이다.인간은 똑같은 사진을 만 번 보여주면 지쳐서 대충 보게 되지만, 기계는 끝까지 똑같은 속도로 처리한다.숫자 계산도 그렇다. 방대한 데이터를 통계적으로 분석하고, 수천 개의 가능성을 동시에 탐색하는 일은 기계의 무대다.확률적 패턴을 찾는 데 능숙하기 때문에, 바둑이나 체스..
2025.08.29 -
AI 이야기 #5 - 기계는 어떻게 배우는가?
앞선 이야기에서 우리는 AI가 무엇인지, 머신러닝과 딥러닝의 차이가 무엇인지,그리고 데이터가 어떤 의미를 가지는지 차례대로 짚어왔다.이제 자연스러운 다음 질문은 이것이다. 그렇다면 기계는 실제로 어떻게 배우는 걸까. 아이가 말을 배우고, 학생이 수학 문제를 푸는 것처럼, 기계에게도 학습의 방식이 있을까. 학습(training)은 말 그대로 모델이 데이터에서 규칙을 스스로 찾아내는 과정이다. 사람은 교과서를 읽고, 문제를 풀고, 틀린 답을 고쳐가면서 배운다. 기계 역시 크게 다르지 않다. 다만 교과서가 데이터이고, 문제집이 손실 함수(loss function: 정답과 예측의 차이를 수치로 표현하는 방법)이며, 틀린 답을 고치는 과정이 바로 파라미터 조정이다. 기계가 머리 속에 펜을 굴리는 대신, 수많은 가..
2025.08.25 -
AI 이야기 #4 - 고양이 vs 개, 분류기의 첫 걸음
AI가 세상과 만나는 첫 관문은 의외로 소박하다. 복잡한 문장을 해석하거나 자율주행차를 움직이기 전에, 기계는 단순한 질문에 답하는 연습을 한다. 사진 속 동물이 고양이인지 개인지, 흑백을 가르는 어린아이 같은 판단 말이다. 인간에게는 당연하고 순식간인 일이지만, 기계에게는 오랜 훈련과정을 필요로 한다. 그리고 그 훈련의 과정이 바로 오늘 우리가 이야기할 분류기의 첫 걸음이다. 분류(classification)는 말 그대로 주어진 입력을 미리 정해진 집단 중 하나로 구분하는 일이다. 학창시절 시험을 떠올려보면 된다. 답안지가 맞는지 틀린지, A학점인지 C학점인지 나눠주는 일 역시 분류다. 기계에게는 “이 사진은 고양이”라는 정답표를 수없이 보여주며, 그 안의 공통된 패턴을 스스로 알아차리게 만든다. 그 ..
2025.08.25 -
AI 이야기 #3 - 데이터, AI의 밥과 공기
AI를 공부하다 보면 늘 듣게 되는 말이 있다. “데이터가 중요하다.” 너무 당연한 소리 같아서 처음엔 그냥 흘려듣기 쉽지만, 곰곰이 생각해보면 꽤 묵직한 말이다. 밥을 먹지 않고 사람이 살아갈 수 없는 것처럼, 공기를 들이마시지 않으면 단 한순간도 버틸 수 없는 것처럼, 데이터 없이는 AI라는 존재가 애초에 태어날 수 없다. 오늘은 그 얘기를 해보려 한다. AI가 만들어내는 모든 ‘지능’은 사실 데이터 위에 세워진 환상 같은 건물이다. 딥러닝 모델이 그림을 그리고, 음악을 만들고, 대화까지 한다고 해도, 그 모든 능력은 결국 누군가가 수십 년 동안 쌓아온 기록들, 수많은 이미지와 문장, 숫자와 센서 값에서 비롯된다. 다시 말해, 데이터가 없었다면 AI는 아직도 모래성처럼 기초 없는 건물이었을 것이다. ..
2025.08.24