음성 제어 기능을 사용하지 않을 거에요, 미안해요 – 인공지능 덕분에 얼마나 더 좋아졌든 상관없어요.

구글이 이제 ‘Hey Gemini’이라고 말하라고 하나? 아니요, 그런 말은 하지 마십시오. 나는 그것을 받아들이지 않을 거야. 나는 기술과 말을 나누지 않을 거야.

이 기사의 본질에 들어가기 전에, 전체적으로 음성 제어 기능에 반대하지는 않는다는 것을 먼저 말하고 싶습니다. 이것은 실제로 많은 장애가 있는 기술 사용자가 하드웨어로부터 완전한 경험을 얻기 위해 의지하는 매우 중요한 접근성 기능이다. 하지만 실제로 필요하지 않은 사람들을 위해, 나와 같은 사람들에게는 버튼을 누르거나 터치스크린을 탭하는 것에 문제가 뭔가?

나는 대중교통에서 누군가가 전화로 너무 큰 소리로 말할 때 짜증이 난다. 구글과 같은 기술 회사들이 음성 제어가 우리가 기술과 상호 작용하는 미래라고 말할 때, 모든 사람들이 항상 자신들의 전화나 태블릿에 명령을 내리고 다니는 도시를 여행하는 것에 대한 공포가 바로 떠오른다.

얼마나 많은 사람들이 실제로 음성 제어를 사용할까요?
나는 음성 제어 사용에 대한 실제 통계를 조사했고, 결과에 놀랐다. 나는 실제로 한 명도 웹에서 무언가를 찾기 위해 음성 명령을 사용하는 모습을 본 적이 없다. 물론, 사람들이 아마존의 스마트 스피커인 알렉사에 음악 재생이나 불을 끄라고 요청하는 것은 본 적이 있지만, 나는 항상 그 일을 할 수 있는 주머니 속의 전화를 가지고 있기 때문에 나도 결코 그런 일을 하지 않을 것이다. 그럼 웹 검색은?

2018년 PWC의 연구에 따르면, 음성 비서 사용자 중 32%가 일상적으로 검색 엔진으로 사용할 일이 적어도 하나를 물어보고, 89%가 한 달에 한 번은 그렇게 한다고 한다. 물론, 그것은 이미 음성 비서를 사용하는 사람들만 해당되는 데이터이지만, Statista의 분석에 따르면 거의 절반 이상의 미국인이 자신의 전화나 스마트 스피커에 자주 대화한다고 한다 (그러나 이 수치는 전세계적으로 약 5분의 1로 줄어든다).

알렉사가 말하라고 한다. 알렉사는 항상 듣고 있다. 알렉사는 모든 것을 듣는다. (이미지 크레딧: 아마존)
그러나, 이 통계를 더 살펴볼수록 점점 더 믿음직함이 떨어지게 되었다. 일단, 나는 여기서 링크하지 않을 첫 번째 통계 집합이 “전 세계적으로 84억 명의 사람들이 음성 비서를 사용할 것으로 추정된다”고 주장했다 – 그것은 현재 전체 인구보다 더 많다. 데이터의 더 많은 불일치를 발견하며, 명백한 기술 마케팅 편향을 가진 일부 소스를 버리게 되었다.

더 혼란스러워지고 깨닫게 된 대로, 나는 결국 이 분야의 통계 조사 대부분이 제품 판매에 더 heavily 의존하고 있음을 결론내야 했다: 그것은 실제로 중립적인 인구 조사보다 제품 소유자가 더 많을 것이기 때문이다. 나는 집에 서로 다른 방에 배치된 동일한 Echo Dot 스마트 스피커 3개를 가진 친구가 있고, 차 안에서 음악을 요청하기 위해 iPhone에서 Siri를 사용한다. 나? 나는 엔진을 켜기 전에 섞는 운전 플레이리스트만 가지고 있다.

음성 제어 기술은 천천히 개선 중이다
나는 음성 제어 기술을 혐오하는 내 평소 변명이 더는 그리 큰 가치가 없다고 인정할 것이다. 그 변명은 간단히 말해서 그것은 쓰렉이라는 것이었다. Siri, Cortana 등의 초기 시절은 “죄송합니다, 그 말을 이해하지 못했습니다”라는 끊임없는 반복문에 시달렸지만, 인공 지능의 도래로 상황이 개선되고 있다.

애플 인텔리전스와 구글 제미니와 같은 도구들은 다중 모달 입력을 제공하여 음성 요청 뿐만 아니라 텍스트 프롬프트도 이해할 수 있게 한다. 오늘날의 대형 언어 모델 AI는 이전 음성 인식 소프트웨어보다 더 나은 작업을 수행하며, 개인 사용자의 말투에 시간이 지남에 따라 적응하여 더 정확한 응답을 제공할 수 있다.

그러나, 아직 극복해야 할 장애가 있다. 음성 인식은 일반적으로 여러 언어를 지원하지만, 강한 사투리나 언어 장애로 인해 종종 어려움을 겪는다 (나 자신은 발음 장애가 있어서 상황이 더 나빠진다). 이것은 사용된 훈련 데이터의 암묵적인 편견 때문일 수 있다: 미국 회사가 미국인이 영어로 말하는 녹음을 사용하여 영어를 말하는 사람들을 이해하기 위해 음성 인식 AI를 훈련시키면, 일본이나 스웨덴 사람이 그 언어로 말할 때 어려움을 겪을 수밖에 없다.

언젠가 음성 제어가 완벽하게 작동하기를 진심으로 바란다. 왜냐하면 그것이 정말 필요한 사람들은 단순히 구글에 쿼리를 입력하는 것만큼 잘 작동하는 서비스를 받을 자격이 있기 때문이다. 그러나 나는 그것을 사용하지 않을 것이고, 모든 사람들이 그것을 사용하는 미래에서 살고 싶지 않다 – 제품과 상호작용하는 기본 모드로 음성 명령을 사용하려는 어떤 기술 회사든 가장 먼저 비난하는 사람이 되리라고 확신할 수 있다.