짧은 답
좋은 마이크로 깨끗하게 녹음하면 요즘 AI 받아쓰기는 대략 85~95% 정확도를 보입니다. 조용한 방에서 마이크를 가까이 두고 한 번에 한 명씩 말하면 95%를 넘기도 합니다. 반대로 배경 소음이 심하거나 말이 겹치거나 억양이 강하면 정확도는 떨어지고, 때로는 80% 아래로 내려갑니다.
즉 정확도는 하나의 숫자가 아닙니다. 모델 자체보다 어떤 오디오를 넣느냐에 훨씬 더 좌우됩니다.
'정확도'의 진짜 의미
업계는 받아쓰기 품질을 단어 오류율(WER, Word Error Rate) 로 측정합니다. 완벽한 사람 전사본과 비교해 틀리거나 빠지거나 추가된 단어의 비율이죠. WER 10%는 대략 10단어 중 1개를 고쳐야 한다는 뜻 — 약 90% 정확도입니다.
WER은 세 가지 오류를 셉니다:
- 치환(Substitution) — 잘못된 단어("되" 대신 "돼").
- 삭제(Deletion) — 모델이 통째로 놓친 단어.
- 삽입(Insertion) — 말하지 않았는데 모델이 더한 단어.
문장부호만 약간 어색한 깔끔한 전사본은 WER이 매우 낮을 수 있습니다. 반면 말이 겹칠 때 문장을 통째로 빠뜨린 전사본은 WER이 높습니다.
AI 받아쓰기 정확도를 떨어뜨리는 요인
대부분의 정확도 문제는 몇 가지 오디오 이슈로 귀결됩니다:
- 배경 소음 — 선풍기·차 소리·카페·환기구 소음이 음성과 경쟁합니다.
- 마이크와의 거리 — 멀어질수록 선명도가 떨어집니다. 책상 위 휴대폰이 방 건너 노트북보다 낫습니다.
- 말 겹침 — 두 사람이 동시에 말하면 모델이 추측해야 합니다.
- 억양·방언 — 강하거나 드문 억양은 WER을 높입니다(좋은 모델은 계속 개선 중).
- 전문 용어·이름·약어 — 제품명·의학 용어·사람 이름이 가장 흔한 오류입니다.
- 저품질 녹음 — 압축된 통화나 오래된 음성 메모는 모델이 활용할 정보가 적습니다.
정확도를 높이는 법
특별한 장비 없이도 정확도를 크게 끌어올릴 수 있습니다:
- 마이크를 가까이. 말하는 사람 팔 길이 안에 휴대폰을 두세요. 가장 큰 한 방입니다.
- 배경 소음 줄이기. 창문을 닫고 알림을 끄고 선풍기·복도에서 멀어지세요.
- 한 번에 한 명씩. 말 겹침에서 단어가 가장 많이 사라집니다 — "한 명씩 말하죠"가 회의에도, 전사본에도 도움이 됩니다.
- 원본에서 녹음. 스피커로 재생한 소리를 다시 녹음하기보다 대면·기기에서 직접 녹음하세요.
- 화자 라벨 사용. 각 목소리를 구분하는 화자 분리는 읽기와 교정을 모두 쉽게 합니다.
Soria는 정확도를 어떻게 다루나
Soria는 녹음과 업로드를 자동 문장부호와 화자 분리로 받아써, 누가 무엇을 말했는지 보여줍니다. 30개 이상 언어와 실시간 번역을 지원하고, 원문 받아쓰기를 요약과 할 일로 바꿉니다 — 몇 단어를 고쳐야 하더라도 의미는 잡힙니다.
핵심: AI 받아쓰기는 이미 대부분의 회의·강의·인터뷰에서 타이핑을 대체할 만큼 정확합니다. 깨끗한 오디오를 넣으면 정확도를 눈에 띄게 끌어올릴 수 있습니다.
빠른 답변
- AI 받아쓰기는 얼마나 정확한가요? 깨끗한 오디오에서 보통 85~95%, 마이크가 가깝고 소음이 적으면 더 높습니다.
- WER이 뭔가요? 단어 오류율 — 완벽한 전사본 대비 틀리거나 빠지거나 더해진 단어 비율.
- 왜 이름이 틀리게 적히나요? 고유명사·전문 용어·약어는 어떤 모델에도 가장 어렵습니다. 빠르게 고치면 됩니다.
- 정확도를 높일 수 있나요? 네 — 가까운 마이크, 조용한 방, 한 번에 한 명이 가장 큰 차이를 만듭니다.