저희 팀은 콜센터에 STT(Speech-to-Text 음성인식) 엔진을 납품하면서 고객사에 범용적인 음성인식을 하지 않는다고 부연하여 설명합니다. 하지 못한다가 아니라 하지 않는다고 하는 데에는 이유가 있습니다.
음성인식 원천기술을 개발하지는 못하고, 주로 Kaldi toolkit으로 엔진을 개발합니다. 그러다 보니 이런 저런 의사결정이 명쾌해집니다. 할 수 있는 것과 없는 것이 상당히 갈립니다. 그 중 하나가 언어 모델입니다. 언어 모델은 무조건 말뭉치를 크게 만든다고 해서 인식률에 도움이 되지 않습니다. 오히려 생각 없이 키운 말뭉치는 해가 됩니다. 조직 내에 어느 이상 역량이 쌓이지 못했다면 비즈니스 도메인에 따라 적당한 크기로 말뭉치를 만드는 게 유리합니다.
그렇다면 네이버, 카카오, 구글은 범용적인 음성인식 엔진을 만들면서 보편적인 언어 모델을 만들고자 긴 시간 애를 써왔는데 얼마나 품질을 올렸을까요? 다행스럽게 스마트폰만 가지고 있으면 네이버앱, 카카오톡, 구글 어시스턴트에게 말을 걸어 검증해볼 수 있습니다.
해보셨나요? 어떤가요? 찰떡같이 알아듣나요?
우리 팀이 보편적인 도메인으로 음성인식 엔진을 만든다면 무엇을 어떻게 언제까지 어느 수준으로 만들 수 있을까를 생각해 보곤 합니다. 그러고 나서 네이버, 카카오, 구글의 음성인식 수준을 보면 정말 잘 만들었다고 판단할 수 밖에 없습니다. 다만, 이들 서비스를 켜서 콜센터에서 벌어지는 대화를 그대로 낭독하면 유독 못 알아듣는 것들이 줄줄줄 나옵니다.
그래서 저희 팀에서 음성인식 엔진을 개발하고 있습니다. 아직까지는 주로 콜센터 비즈니스 도메인에 국한하여 만듭니다. 그렇게 하다 보니 꽤 잘 나옵니다. 이미 2021년 12월 기준으로 콜센터 VMS(Voice Message Service 음성사서함)를 롯데이커머스와 롯데글로벌로지스를 대행하여 운영하는 중입니다. 고객이 남긴 상담요청 음성 메시지를 변환하여 상담사에게는 텍스트 메시지로 보여줍니다. 긴 시간동안 일일이 음성을 듣지 않아도 되니 요청처리 시간이 줄어듭니다. 저희 팀이 네이버, 카카오보다 기술력이 높아서 가능한 일이 아닙니다. 언어 모델을 정해진 비즈니스 도메인 안에서 최적화했기 때문입니다.
언어 모델 그리고 위에서 언급하지 않았던 어휘사전은 인공지능만이 아니라 사람에게도 부합하는 사안입니다. 아래 영상에서 박재정 씨는 전현무 씨가 발화한 '핵인싸 접시'라는 말을 전혀 이해하지 못하고 '회계사 접시'로 인지하여 무슨 뜻인지 묻습니다. 평소에 '핵인싸'라는 어휘를 듣고 말할 일이 별로 없었나 봅니다. 귀를 파야 할 필요는 없습니다. 😉
https://youtu.be/R3XT0zbEiv8?t=200
핵인싸 접시 vs. 회계사 접시
인공지능도 마찬가지입니다. 언어 모델을 통한 우선순위를 바탕으로 음향 모델을 통과한 데이터를 텍스트로 바꾸기 때문에 당분간 음성인식 AI는 두루두루 잘 알아듣기보다는 전문분야를 잘 알아듣는 식으로 개발해야만 쓸 만합니다. 언제쯤 음성인식 AI가 사람보다 말을 잘 알아들을까요? 발화가 일어나는 장소를 인지하여 해당하는 배경지식을 탑재하고 한두 문장씩 들어오는 대화문장으로 기계독해를 수행하든지 하여 발화가 일어나는 상황을 우선 '이해'해야만(상세히 말하자면 대응가능하도록 약정한 상황으로 분류 classification) 비로소 사람보다 말을 더 잘 알아듣는 인공지능이 탄생할 겁니다. 단순히 음향 모델과 언어 모델을 잘 만든다고 가능한 일이 아닙니다. 언제쯤 가능할까요? 메이저 플레이어가 어떻게 해나가는지 기대하고 있습니다. 일조를 하게 된다면 영광이겠습니다.
'BI > 인공지능' 카테고리의 다른 글
내용이 알알이 꽉 찬 '파이토치로 배우는 자연어 처리' (0) | 2021.12.27 |
---|---|
NLP 뉴비에게는 중간보스인 '구글 BERT의 정석' (0) | 2021.11.19 |
진입장벽을 낮춘 'fastai와 파이토치가 만나 꽃피운 딥러닝' (0) | 2021.09.23 |