Завязка: мы печатаем со скоростью XIX века

Средний человек говорит 150 слов в минуту, а печатает 45. Это не баг — это 150-летний legacy интерфейс, к которому все привыкли. Голосовой ввод существует давно — Siri, Google Dictation, Dragon NaturallySpeaking. Но никто не использует его для работы. Почему? Потому что диктовка — это боль: нужно проговаривать «точка», «запятая», «новый абзац», а потом всё равно переписывать результат руками.

Танай Котхари и Сахадж Гарг, сокурсники по Стэнфорду, два года строили нейробраслет для чтения речи прямо из мозга. Сожгли миллионы на R&D. А потом заметили, что сопутствующий софтверный слой — тот, что обрабатывал голос и превращал его в текст — уже работает лучше, чем весь рынок. За шесть недель они убили железо и запустили софт. Первый день на Product Hunt — первое место. Через год — $10M ARR с командой в 50 человек.

Продукт и рынок

Wispr Flow — голосовой ввод текста, работающий поверх любого приложения на любой платформе. Mac, Windows, iOS, Android. Одна горячая клавиша — и ты говоришь, а текст появляется уже отформатированным.

Что отличает от встроенной диктовки:

  1. AI Auto-Edits — убирает слова-паразиты, расставляет пунктуацию, форматирует текст. Не нужно говорить «запятая» или «точка»
  2. Контекстная адаптация — в Slack пишет коротко и неформально, в Gmail — деловым тоном, в VS Code — комментирует код
  3. Персональный словарь — запоминает имена, термины, аббревиатуры
  4. 104 языка — автоматическое переключение, включая смешанный ввод (русский + английский в одном предложении)
  5. Сниппеты — голосовые шорткаты для шаблонных фраз

Рынок: мировой рынок распознавания речи оценивается в $25-30 млрд к 2030 году. Но Wispr не конкурирует с транскрипционными сервисами вроде Otter.ai — они целятся в замену клавиатуры. Это принципиально другой рынок: интерфейс ввода, а не инструмент записи встреч.

60% диктовок — не на английском. 30% пользователей — нетехнические люди. Рынок значительно шире, чем «продуктивность для программистов».

Бизнес-модель и unit-экономика

Модель: freemium + подписка.

Психология цены гениальная. Бесплатный лимит в 2000 слов — это примерно 4 страницы текста. Среднестатистический офисный работник печатает 40+ страниц в неделю. Когда лимит заканчивается во вторник, ты уже не можешь вернуться к клавиатуре. Привычка сформирована.

Известные метрики:

При $15/мес и 80% ретеншн LTV одного пользователя приближается к $900. При органическом росте через сарафанку и PLG — CAC стремится к нулю для значительной доли пользователей. Unit-экономика не просто сходится — она аномально хорошая.

Конкурентный ров

Wispr строит ров через привычку, а не через технологию. И это сильнее, чем кажется.

Привычка как switching cost. После 6 месяцев использования средний пользователь вводит 72% всего текста голосом. Через примерно 70 приложений. Переключиться обратно на клавиатуру — это как пересесть с автомата на механику после пяти лет. Технически возможно, практически — никто не станет.

Точность как технический ров. Независимые тесты показывают 97.2% точности транскрипции у Wispr против 85-90% у конкурентов. Собственные ASR-модели, обученные на проприетарных данных. Error rate — 10% против 27% у Whisper и 47% у Apple Dictation. Три года данных и обратной связи от пользователей — это датасет, который невозможно купить.

Enterprise compliance. SOC 2 Type II и HIPAA — это не фичи, а барьер входа. Получение этих сертификатов занимает месяцы и стоит сотни тысяч. Конкуренты (Superwhisper, VoiceInk) работают локально и делают ставку на приватность, но не могут продавать в enterprise.

Слабое место рва: зависимость от облака. Вся обработка идёт на серверах, включая API OpenAI и Meta. В ноябре 2025 произошёл приватный скандал — выяснилось, что данные сохранялись дольше, чем заявлялось. Рост не остановился, но для privacy-first конкурентов это открытая дверь.

Команда и история

Танай Котхари (CEO) — четырёхкратный фаундер. Индийского происхождения, вырос мечтая о Jarvis из Iron Man. В Стэнфорде изучал CS с фокусом на AI. В подростковом возрасте запустил музыкальную платформу Convert.cc — 2.5 млн MAU без маркетинга. Стажировался в Microsoft, где его проект увеличил выручку Microsoft News. Потом создал FeatherX (персонализация e-commerce) — поглощён Cerebra Technologies за несколько месяцев.

Сахадж Гарг (CTO) — лучший студент инженерного факультета Стэнфорда (Henry Ford II Scholar Award). Работал в Stanford AI Lab с Эндрю Нг. Публикации с Google Research. Начинал в вычислительной нейронауке — изучал, как антидепрессанты влияют на развитие мозга. Пятый сотрудник в Luminous Computing, где проектировал фотонное железо для AI.

Оба — гики, оба — из Стэнфорда, оба — с глубоким техническим бэкграундом и продуктовым чутьём. Редкое сочетание.

История основания: начали в 2021 с нейробраслета — устройства, читающего субвокальную речь (шевеление губ без звука). Два года R&D, $26M первых раундов. Потом осознали: софтверный слой, который они писали «на подхвате», уже лучше всего рынка. Убили железо за шесть недель. Пивот, который мог бы стоить компании жизни, стал лучшим решением.

Инвесторы: Menlo Ventures (лид Series A), Notable Capital (лид расширения), NEA, 8VC. Ангелы: Эван Шарп (Pinterest), Генри Уорд (Carta), Стивен Бартлетт (Diary of a CEO). Ханс Тунг из Notable — 13-кратный участник Forbes Midas List, инвестировал в Airbnb, Coinbase, Anthropic, TikTok. Состав раунда говорит одно: «большие деньги» верят, что голос — следующий интерфейс.

Позиционирование и GTM

Целевая аудитория: knowledge workers — все, кто пишет больше часа в день. Разработчики, менеджеры, юристы, создатели контента. Но 30% пользователей — нетехнические люди. Есть отдельный кейс с accessibility: человек с болезнью Паркинсона написал, что Flow «сделал жизнь значительно проще».

Главный месседж: «Stop typing. Start speaking. 4x faster.» Просто, измеримо, провокационно. Не «AI-powered productivity tool» — а конкретное обещание: ты будешь писать в 4 раза быстрее.

GTM-стратегия — три канала:

  1. VC-as-Distribution — главный канал. Инвесторы (Рид Хоффман, Марк Андриссен) начали пользоваться Flow для работы. Рассказали своим портфельным компаниям. Те — своим. Органическая волна через Silicon Valley, которую невозможно купить за деньги.

  2. Product Hunt — запуск в октябре 2024: первое место дня и недели. Конверсия 20% в платящих. Для сравнения: средняя конверсия с PH — 3-4%.

  3. Стратегические партнёрства — годовой контракт с подкастом Diary of a CEO (35M подписчиков, 1B+ прослушиваний). Не реклама — инвестор Стивен Бартлетт использует продукт сам и встраивает в контент.

Геймифицированный waitlist на Android: 375 000 предрегистраций через реферальную механику с лидербордом. Ни строчки кода под Android ещё не написано — а воронка уже полная.

Кейсы и результаты клиентов

Средний пользователь через 6 месяцев: 72% всех символов вводит голосом, время от конца диктовки до нажатия Enter — 0.5 секунды (не редактирует, доверяет).

Что можно взять себе

1. Пивот как суперсила. Два года R&D по нейробраслету — в корзину. Шесть недель — и новый продукт на рынке. Большинство фаундеров тонут в sunk cost fallacy. Котхари и Гарг показали: готовность убить любимое детище — это конкурентное преимущество.

2. Free tier как наркотик. 2000 слов в неделю — гениальный лимит. Достаточно, чтобы сформировать привычку. Недостаточно, чтобы работать. Когда лимит кончается во вторник, рука сама тянется к кошельку. Не пейвол — а дизайн привычки.

3. VC-as-Distribution. Если твой продукт реально решает проблему инвесторов — они станут твоим бесплатным каналом. Не ради тебя — ради себя. Это работает только с продуктом, который используешь ежедневно.

4. Один канал — в совершенство, потом расширяйся. Mac, потом Windows, потом iOS, потом Android. Каждая платформа — после доказанного ретеншна на предыдущей. Не «запустим везде одновременно и посмотрим».

5. Waitlist как продукт. 375 000 регистраций на Android до написания первой строчки кода. Геймификация (лидерборд, рефералы, мерч) превратила ожидание в вовлечение.

Риски и слабые места

Приватность. Всё обрабатывается в облаке. В ноябре 2025 вскрылось, что данные хранились дольше заявленного. Для голосового ввода — где ты диктуешь пароли, личные сообщения, коммерческие тайны — это критично. Конкуренты (Superwhisper, Voibe) уже строят маркетинг на «100% offline, 100% privacy».

Зависимость от Big Tech. Apple и Google могут встроить аналогичную точность в системную диктовку. У них есть данные, дистрибуция и нулевой CAC. Если Apple Dictation начнёт работать так же хорошо — зачем платить $15/мес?

$700M оценка при $10M ARR. Мультипликатор 70x — это ставка на то, что рост 40% MoM продолжится. Если замедлится до «обычных» 10-15% — оценка не выдержит.

Команда 50 человек при $81M привлечённых. Математика простая: при текущем burn rate запас прочности есть, но не бесконечный. Профитабельность «скоро» — это пока обещание, не факт.

Вердикт

Wispr Flow — редкий пример компании, которая не изобретает новую категорию, а делает 150-летний интерфейс наконец-то ненужным — и доказывает это не слоганами, а 80% ретеншном и 72% голосового ввода у пользователей через полгода.