음성인식(Speech-to-Text, STT) AI를 구현하는 방식은 여러 가지가 있으며, 일종의 어휘 사전을 갖가지 형태로 가지고 있는 편입니다. 그 사전에 없는 어휘는 알아 듣지 못한다고 봐도 무방합니다. 사람도 비슷합니다. '천리포 수목원'이라는 어휘를 들어본 적이 없는 사람은 '찰리 푸스 모건'이라고 희한하게 알아들을 수도 있습니다.
물론 인간은 아는 말만 알아듣지는 않습니다. 새롭게 배워나갈 수 있습니다. '찰리 푸스 모건'이 아니라 '천. 리. 포. (쉬고) 수. 목. 원.'이라고 음성으로 알려주면 문맹이 아닌 이상 음성과 글자 모두 기억하게 됩니다. 그게 2024년 AI와 인간의 음성 인식 능력 차이라 하겠습니다. 이 차이가 언제 좁혀질까요? 인류에게 유해한 가치관을 배우지 못하도록 하기 위한 AI 윤리때문에라도 당분간 바로 배우는 경로는 차단할 수밖에 없겠습니다.
원글은 아래와 같습니다.
얼떨결에 찰리 푸스 모건의 대모가 되어버린 관계로, 수목원에 초대 받아서 놀러 갔다 온 썰을 푼다 https://t.co/iB9xUz3VmZ pic.twitter.com/mhO81Cw3PF
— 님 (@gooksunim) November 9, 2024
반응형
'BI > 인공지능' 카테고리의 다른 글
2024년은 예상보다 훨씬 더 AI 발전 초기일지 모릅니다 (1) | 2024.11.24 |
---|---|
Job death valey만이 아니라 Company death valey가 걱정스럽다 (0) | 2024.11.22 |
인터넷 트래픽은 몇 %가 인간일까? (0) | 2024.11.21 |