예전(!) 인공지능 기술로는 인터넷에 올라온 글이 어떤 주제를 논하거나 키워드를 도출하거나 긍부정 감성 분류를 할 때에 문맥을 감안할 방법이 딱히 없었습니다. 이제는 LLM(Large Language Model)이 있으니 정확도를 획기적으로 높일 수 있습니다. 그러나 그렇게 해야 할까요? 트위터만 해도 이제는 하루에 1.5억 건 이상 글이 쌓입니다. GPU 컴퓨팅에 10원만 들어도 카테고리 분류에만 하루에 15억 원이 들게 됩니다. 실제로는 건당 10원 이상 들 겁니다. 고작 카테고리 분류에만 15억 원 이상을 쓰는 게 합당할까요?
LLM 외에도 언어 모델이 나오기 이전에는 달리 방법이 없어 규칙을 만들어 어떤 어휘가 얼마나 들어있거나 들어 있지 않느냐에 따라 결과를 어떻게든 만들었습니다. 그러다 보니 위 그림처럼 '카디 비(Cardi B)'라는 어휘가 들었다는 이유로 부동산 뉴스를 뮤직 카테고리로 떡하니 분류해 놓기도 했습니다. 왜 저렇게밖에 못했을까요? 저 트위터 글은 2022년 상반기에 쓴 것이니 누군가는 일론 머스크가 트위터를 인수하기 전이라서 그렇다고 하겠고, ChatGPT가 나오기 전이라고 그렇다고도 하겠습니다. 그러나 앞서 말했다시피 LLM까지 쓰지 않아도 BERT나 ChatGPT 이전의 GPT-2정도의 언어 모델로도 카테고리 분류 정확도는 상당히 높았습니다. 게다가 이미지 안의 텍스트를 읽으면 카테고리 분류 정확도는 훨씬 높아졌을 것을 업계 관계자들은 다들 알았습니다. 그럼에도 그렇게 하지 않는 이유는 뭘까요? 돈이 들어서입니다.
컴퓨팅, 특히 GPU를 사용한 LLM 학습과 추론 컴퓨팅에는 돈이 꽤 많이 듭니다. 버는 돈이 더 많으면 걱정할 게 없겠으나 아직까지는 NVIDIA, 의료, 금융 외에 LLM으로 돈을 많이 버는 곳이 그렇게 많지는 않을 겁니다. 치킨게임을 하거나 시장점유율을 높여야 할 사안에는 수지타산을 잠시 멈추고 기세를 높여야 하겠지만, 부수적인 사안에까지 비용을 펑펑 써서는 곤란해집니다.
겉멋으로 LLM을 썼다가는 클라우드 비용이 펑펑 나가는 모습을 보면서 속을 끓이다가 카디 비처럼 담배를 물어야 할지도 모릅니다. 아마 전세계 서비스 기획자들은 LLM을 도입하고 싶어도 비용대비효익을 감안하면 당장은 쓸 도리가 없어 안타까워 하고 있을 겁니다. 저도 이 블로그에서 어드바이저 챗봇이 사용자를 쫓아다니는 UX로 쇼핑몰을 만들어야 한다는 이야기를 한 적이 있습니다. (https://wizmusa.tistory.com/1170964428) 만들어 보면 참 좋겠다는 정도로만 구상했었고, 비용을 세세하게 따져보지는 못했습니다. 리포트가 나오면 가슴이 덜컥하겠지 싶습니다. 당장은 범용적인 LLM보다는 목적을 한정하여 경량화한 모델을 만들어야 수지타산을 간신히 맞출 수 있지 않을까 합니다. 물론 부가가치가 높은 서비스로서 가격을 넉넉하게 책정할 수 있다면 만사형통입니다. 일자리 death valey 문제를 떠올리면 눈앞이 아득해집니다만.
'BI > 인공지능' 카테고리의 다른 글
인터넷 트래픽은 몇 %가 인간일까? (0) | 2024.11.21 |
---|---|
인공지능을 쉽게 시작할 수 있는 엘라스틱 서치 (0) | 2024.11.18 |
생성형 AI 도둑질에 대항하는 사람들 (1) | 2024.11.17 |