Показать Телефон

Преодолевая звуковой барьер

Как вы пользовались видеоконференциями два года назад, до пандемии? Постарайтесь вспомнить. Насколько это была обыденная форма коммуникации для вас, ваших коллег и близких? 

Еще несколько лет назад “большие” видеоконференции использовались преимущественно топ-менеджерами и акционерами компаний. Для них создавались специализированные переговорные комнаты с дорогостоящими видеотерминалами, выделенные каналы связи с приоритетом прохождения пакетов ВКС, ресурсы IT-администраторов, которые мониторили в реальном времени эти встречи — все условия, чтобы максимизировать отдачу от инвестиций в подобные средства коммуникации. 

2020 год радикальным образом преобразил ландшафт взаимодействия всей корпоративной среды. Когда видеоконференция стала залогом выживания компании — возникли новые вводные, с которыми к тому моменту еще не привыкли считаться. 

Какие именно? Например, надомные сотрудники, а также сотрудники на “временной” удалёнке стали пользоваться домашними, не enterprise-grade каналами для доступа в интернет, через которые передаются пакеты данных видеосвязи.  Перегруженность домашней сети, большие задержки (джиттер) и использование Wi-Fi привели к ощутимому проседанию в качестве, рассинхронизации видео и аудио потоков. А в отличие от ВКС-сценариев “для топов”, усилий IT-администратора даже при большом желании не хватило бы для мониторинга качества видеоконференции у каждого отдельно взятого сотрудника. 

Увеличилось число респондентов многочисленных опросов, проведенных Gartner, Frost&Sullivan и других аналитических агенств, которые указывают на повышенную раздражимость от частых некачественных и малоэффективных собраний в режиме видеоконференции. В долгосрочной перспективе это грозит выгоранием, усталостью и разительным снижением эффективности работы надомных сотрудников.

 
 
Разбираемся в восприятии задержек звука вами и вашим собеседником
 
 

Видеоконференции уже точно никуда не уйдут из нашей жизни. Значит, нужно уменьшить влияния таких факторов, как задержка потоков и рассинхронизация. Если мы действительно хотим сделать пользовательский опыт достойным, нужно вспомнить немного теории.

Звук по сети интернет распространяется гораздо дольше, чем думает большинство пользователей. Для примера, представим себе разговор между двумя коллегами вживую, в переговорной комнате. Как правило, собеседники находятся на расстоянии менее 5 метров друг от друга.  Это означает, что звуку потребуется около 0,015 секунды или 15 миллисекунд (мс) для путешествия в одну сторону (он распространяется примерно на 1 метр за 3 мс). Получается, что в реальности расхождение между звуком и картинкой составляет около 15мс, что наш мозг распознает как норму. 

Задержка выше какой величины начинает вызывать у людей затруднение в восприятии?  Было замечено, что любая задержка выше 40мс вызывает у человека ощущение дискомфорта. Мозг человека пытается сопоставить разнородные стимулы — аудио и визуальный, которые поступают в отрыве друг от друга и он выделяет меньше ресурсов на обработку информации. Важные аспекты разговора ускользают из поля внимания собеседников. 

 
 
На помощь приходит струнный квартет
 
 

Как проверить опытным путём, при какой задержке пакетов рассинхронизация становится заметной? И как предупредить её появление?

Команда Pexip, обладая огромной экспертизой в разработке платформ видеосвязи, начиная еще с Tandberg, придумала неординарную постановку задачи. Они решили создать такие условия передачи пакетов, чтобы по видеосвязи смог сыграть струнный квартет, в реальном времени!

Любой музыкант с классическим образованием, имеющий опыт игры в оркестре вам заявит, что предел комфортного расстояния для слаженного исполнения составляет приблизительно 10 метров. Чуть больше — и врывается диссонанс. Это означает, что задержка более 30 мс серьезно затруднит синхронное воспроизведение музыкальной партии.

Но ведь в мире видеоконференций возникают задержки до 500 мс, а иногда и выше. Это эквивалентно тому что два человека будут пытаться разговаривать друг с другом на расстоянии 160 метров. Расстоянии почти двух футбольных полей! Неудивительно, что при таких условиях трудно поддерживать естественный ход разговора. Удобно ли это? На наш взгляд, не очень. Но есть вариант решения.

Разработчики Pexip, вдохновлённые трудной задачей, начали разработку технологии Pexip Ultra-Low Latency. Было приложено колоссальное количество усилий чтобы снизить уровень задержки до точки, при которой создается ощущение, что вы находитесь в одной комнате с собеседником. Так при чём же здесь оркестр?

Чтобы проверить результаты этой разработки, они попросили квартет музыкантов попробовать сыграть вместе в режиме видеоконференции, используя платформу Pexip Infinity без метронома, ориентируясь исключительно на визуальные каналы синхронизации.

Было определено 3 критерия успешности эксперимента:

  1. Получение сверхнизкой задержки на пути захват -> кодирование -> сеть -> декодирование -> микширование -> кодирование -> сеть -> декодирование -> воспроизведение -> захват -> кодирование -> сеть -> декодирование -> микширование -> кодирование -> сеть -> декодирование -> воспроизведение, менее 30мс
  2. Ощущение присутствия в одной комнате, при фактическом размещении участников квартета в разных географических локациях
  3. Кристально чистая передача аудио, без шумов, щелчков и хлопков.

Как вы могли заметить по первому критерию выше, платформа Pexip Infinity работает с центральным компонентом – распределенной сетью серверов микширования и транскодирования потоков аудио и видео (MCU), а это значительно усложняет задачу. Достижение задержки в 30 мс при передаче от одного собеседника к другому будет недостаточно. Нужно передать аудио и видео потоки в MCU, совместить их с другими исполнителями, отправить обратно, и все это менее, чем за 30 мс. (Cогласно показаниям эксперимента, у норвежской команды получилось проделать вышеописанный путь за 16мс).

Увидеть своими глазами как тандем инженеров и музыкантов справился со своей задачей вы сможете, посмотрев данное видео.