Главное в видео доклада — это … вовсе не видео

Материал из 0x1.tv

Что самое важное в любом видео доклада? Цветопередача? Правила композиции кадра? Смена планов? Чередование говорящей головы и видео зала? Мягкий наезд? Монтаж с цифровой записью экрана?

Конечно нет.

Главное — это звук

Для гуманитарно-менеджерских докладов, где на слайдах тривиальщина, мемы и прочие котики, звук — это вообще почти 100%.[1] Для IT-докладов, особенно где нетривиальные слайды, или вообще лайвкодинг, это конечно не так, но звук все равно очень важен.

И тут надо понимать следующие факты:

  • Звук «с воздуха» всегда будет не очень. Реверберация, эхо… куча шумов, которых, удивительно фильтрует человеческое ухо находясь в зале, тут, в записи, мучительно давит на слушателя.
    • И нет, никакое качество микрофонов, или расстановки их по залу… тут не поможет.
    • Если залы не звукоизолированы друг от друга или шумного коридора — это вообще ад.
    • Если стенки тонкие, потолки низкие, а в них кондиционер.... (например Digital October) — адский ад.
    • И нет, нет никаких автоматических алгоритмов-программ, в которых можно засунуть этот ад, и получить что-то вменяемое. Иногда шум удается отфильтровать паттернами, иногда по частотам... но это очень редко, а эхо и прорвавшияся звук других залов не берется ничем.
      • Возможно в ближайшем будущем, с помощью Machine Learning, нейросетей, графических карточек и еще чего-то такого и сделают эту фантастику (может быть вы!) — если кто знает, дайте мне знать в комментарии. Но пока — увы.
  • Звук «с микрофона», снятый с пульта, или хотя бы с выходов колонок, если подключение к ним напрямую, без микшера… — обычно достаточно неплох.
    • Да, я слышал мнение, что вот, специализированный минидиктофон, типа Tascam DR-10X, подключаемый непосредственно к микрофону — дает оптимальное качество, но, уверен, 99% эту разницу не услышат.
      • Безусловно интересно бороться за идеал, но это не опера, улучшение «на последние доли процента» уже ничего не даст, когда вокруг столько других проблем… о которых и поговорим.
  • Кстати — стерео или моно, неважно. Лучше моно — звук когда идет с микрофонов совершенно невозможно правильно локализовать («докладчик в правой половине кадра, значит — дать больше в правый канал»). Локализация не работает ни в самом зале (отсюда проблемы вида «откуда ты это сказал, кто говорит?» — для докладчика, который ищет вопрошающего, ни тем более на видео. Более того, «стерео» и прочая двухканальность может внезапно выстрелить — так я наткнулся на кучу каких-то телефонов (включая версии айфона), которые при одинаковом звуке в стерео, как-то умудрялись делать суперпозицию и убивать звук полностью. Поэтому только моно.

Да, теоретически, в идеально организованной конференции в каждом зале должно быть отличное звуковое оборудование, уровня Seinheiser (Shure оставьте в караоке, остальную китайщину вовсе нафиг), колонки расставлены оптимально, резонансов нет, наводок на радиомикрофоны нет, в каждом зале сидит недремлющий звукооператор, постоянно рулящий и эквалайзером и уровнями микрофонов…

Наверное, в очень дорогих конференциях это так. Ни одной такой я, увы, не встречал — очевидно, у них есть бюджет на профессиональные команды… хотя результат, что сняли эти профессионалы… не будем о грустном [2].

Но большинство IT-конференций, особенно узкоспецифичных, околонаучных, бюджета вовсе не имеют, и приходится на месте выкручиваться, исходя из того, что есть (иногда — просто ничего, голая аудитория), иногда — вроде и звуковое оборудование есть, но «запись на диктофон — 800 руб в час»…, но чаще всего — радиомикрофоны есть, пульты есть… но все очень странного качества, ненастроенное, с непонятными выходами и без понимающих, что там происходит, людей.

Учитывая стратегию, что у нас автоматизация не пишется с большой буквы, т.е. людей на слежение-настройки нет, наша стратегия:

  • Записывать звук с микшерных пультов на диктофоны, … ну или с других «трасс», куда можно воткнуться. В ЦМТ, например, это были секретные панели в стенах, в Digital October это вообще специальные стойки в аппаратной и т.п.
    • Да, именно независимые диктофоны — для большинства видеооператов это странно, ибо они обычно, радиопередатчиками тащат звук в камеру, чтобы он был сразу синхронным с видео — но это геморройно, еще одна точка отказа (требуется оператор, чтобы следить, что звук не пропал), и еще одна точка радионаводок в зале. А синхронизацию, мы делаем потом, при монтаже.
    • Нет, не ноутбуки, большая часть ноутов имеют очень шумную звуковую карту на вход, будет плохо. Особенно если ноут еще на сетевом питании.
    • Поэтому к каждому диктофону и нас десяток переходников — мужские и женские XLR, тюльпаны, 6.3 и 3.5 джеки… 
    • Т.е. план — «втыкать» в любой ситуации (особенно когда на микшерный пульт претендует кто-то еще) — на худой конец, в выход для наушников.
  • В случае переводчиков-синхронистов — пишем и канал перевода.
  • В сложных случаях — «круглый стол или джем-сешен без микрофонов», «школьная аудитория» — да, пусть диктофоны или несколько, берут звук с воздуха, или с петлички докладчика.

Zoom H4-H4n.jpg

Какие же диктофоны использовать?

Сначала пользовались разными марками… Roland … Zoom… потом сконцентировался на Zoom, пробовал и Zoom H4/H4n, и Zoom H2… и больше всего, как выяснилось, напрягало энергопотребление.

Мне для монтажа, нужна непрерывная запись…[3] ну или вменяемая нумерация по времени аудиофайлов.

Но лучше — воткнул на целый день и забыл, не парясь с регулярной проверкой заряда.

Zoom H2.jpg

И хотя современные Zoom H2 вроде тянут целый день, но те, с которыми я экспериментировал пять лет назад, день не тянули. И умерли, при моих неудачных попытках обеспечить внешнее электропитание — если вы умеете паяльник, и есть интерес — могу продать совсем недорого — осталось еще три штуки.

Zoom H4 не тянули день тоже.

А вот Zoom H1 вполне себе тянул весь день, на одной AA батарейке качества Durocell Turbo MAX или Durocell Industrial. Разумеется, если не попалась бракованная, но это обычно было видно уже через час.

Еще один момент, который я хотел от диктофонов — это относительная синхронность с истинным временем. Там тоже все было неидеально… больше всего я мучался с Zoom H4… но потом, сделав с своем фреймворке адаптивную корректировку звуковых потоков (чтобы, например, отставание 60ms/min, не было проблемой), я эту проблему решил. Но вот когда я экспериментировал с китайщиной — была у меня мысль « зачем приличный диктофон с конденсаторными микрофонами, мне же в основном тупо писать звук с пультов», и я пробовал разные китайские поделки, манящие меня перезаряжаемыми литий-ионными аккумуляторами, и встроенной памятью … и там с синхронностью все было как-то совсем не славабогу.

В результате, я пришел к десятку комплектов «Zoom H1 + куча проводов», что дает мне возможность записывать и пульта и с воздуха.

Zoom H1, комплекты.jpg

При видеомонтаже,

  • поток синхронизируется с видео — для того, чтобы попасть «в губы», нужна точность 50ms.
  • выполняется динамическая нормализация уровня с легкой компрессией.

Остается проблема «секции вопросов».

Да, в идеале, все вопрошающие либо:

  • Стоят в очереди к микрофонам в проходе (видел такое, немного унизительно, выбивает тех, кому лень выбиратся в проход)
  • Ждут, пока к ним приковыляют на каблуках девушки-букеты с макияжем, отсутствием разума и микрофоном.
  • Докрикиваются до докладчика, а докладчик (умница какая!), повторяет их вопрос, чтобы осталось и на записи, да и вопрошающему было понятно, что его правильно поняли.

Понятное дело, почти всегда все не так. Вопросы задают с места («спасибо, мне не нужен микрофон»), с места самого непонятнодальнего, начинается дискуссия размазанная по всему залу… в которой иногда дают вставить слово докладчику с микрофоном.


Catchbox-how-it-looks.jpg

Да, у меня есть решение для этой ситуации — Blog:ConferenceZen/Дискуссия после доклада — как вовлечь, разрулить, записать. Волшебный куб., и я таскаю пару таких кубов с собой на некоторые одно-двух трековые конференции, но для трехтрековой их у меня уже не хватит, ну а кроме меня, я пока в РФ пока ни у кого не видел (хотя много интересующихся).

Что же делать в других случаях?

Понятно, что тут уже надо жертвовать качеством, лишь бы не пропустить нетривиальный вопрос. Тут у меня есть куча источников в зале (пяток камер в разных местах, возможно еще диктофоны), и просто надо выбрать наиболее оптимальный источник. Обычно — это либо звук с диктофона-пульта-микрофона, если говорят в микрофон, либо с источника, который оказался наиболее близко к вопрошавшему (обычно одна из камер спереди или камера общего плана сзади).

Раньше я делал это вручную. Прослушивал сто раз эти тупые вопросы с разных источников, терял веру в людей, тратил 90% времени на видеомонта, для 90% докладов, которых никто не досмотрит до секции вопросов. Отдельный ад, если такое длится весь доклад, если докладчик начинает играть в интерактив с аудиторией, дискутировать по ходу доклада и т.п.

Больше я это делать не буду. Жизнь коротка.

Сейчас я использую запрограммированные мной эвристики, которые, в подобной ситуации, пытаются выбрать оптимальный вариант сами, в духе «микрофон молчит, в зале говорят — надо брать с ближайшей камеры».

К сожалению, я не знаю пока алгоритмов, как-то измеряющих «качество звука», особенно «качество речи» — если вы знаете такие — плиз, напишите. Поэтому я ориентируюсь на громкость, рассчитанную по стандарту EBUR128, «пенализирую» второстепенные каналы «штрафом» в децибелах, и пускаю их в эфир, если они своей громкостью, в течении некоторого времени «в будущем», превзойдут громкость основного + «некоторый запас прочности». В целом, если нормально подобрать штрафы, это вполне работает. Хотя многих пугает («у вас там звук скачет»). Но альтернатива этому — просто вопросов не будет слышно, или наоборот, всю секцию вопросов будет не самый лучший звук, хотя докладчик отвечал в микрофон.

Замечу, что если мне докладчик или зритель, во время «драфтового периода» (обычно пара месяцев, когда идет согласование с докладчиками), в комментарии указывает на проблемный момент — я лезу туда своими ушами, и уже разбираюсь вручную. Но если за все время, ни автор, ни зрители туда не добрались… то либо проблемы нет, либо доклад совершенно неважный, и проблемы опять таки нет. «Как звучит падающее дерево в лесу, когда там никого нет?» — ну, вот как-то так.


Решает ли это все проблемы? Конечно нет.

Все это неидеально, и в неидеальном окружении. Внезапно радиомикрофоны могут начать пищать… (за день до этого все тестировали — было ОК, пришлом много людей, какой-то техники — пошел неубиваемый писк). Может пойти шум с микрофона… или вдруг упадет уровень… на уровень шума… и если делать динамическую нормализацию — шум «поднимется» и забьет все нафиг.

Вот пример — чуваки-трансляторщики подключаются к пульту… и все, пошел треск, испорчен звук сразу на двух диктофонах пишущих с микшера.

В каждом случае, приходится выкручиваться вручную, подбирая оптимальные источники, ковыряясь в наушниках в Audacity и Izotope RX.

И редко, фарш удается прокрутить назад.

Так что если вы

Организатор
  • Организуйте конфу в нормально звукоизолированных залах. Модный вариант «бывший цех-ангар-склад, внизу поделен рекламными перегородками» — он не очень.
  • Добивайтесь звуковиков во всех залах. Ну или хотя бы одного, который понимал все это оборудование и мог решить проблему с свистом или шумом.
  • Таскайте с собой проводные микрофоны, как страховочный вариант. И заведите Волшебный куб.
Докладчик
  • Не стойте столбом в ожидании начала вашего доклада,
    • Проверьте, что микрофон работает, найдите оптимальное расстояние до него, чтобы было слышно слова, а не плевки.
    • Если микрофон глючит — требуйте другой. Если дадут проводной, и понятно, что радиомикрофон глючит — смиритесь, не бегайте по сцене, возьмите проводной. Нет, реально были такие «я привык бегать, проводной мне нельзя». Отдельная тема — я еще не видел, эффективно бегающих докладчиков, обычно это всегда ѣ-стыд, но еще и выкидывать звук… Не надо так.
  • Следите, чтобы вопросы в зал задавались в микрофон, или повторяйте их перед ответом.
Зритель
— тоже самое. Слышите что нет звука — скажите оргам, что это так. Глючит - тоже скажите. Проявите активность! И конечно, задавайте вопросы в микрофон.
  1. Кстати, поэтому, если вы идете на не-IT конференцию, ну, скажем, «Документооборот в Казначействах», там, где докладчики вымучали десяток слайдов … и слайды можно как-то достать — вообще не парьтесь, берите с собой диктофон, выпрашивайте слайды, и, по большому счету, вы эффективно уносите весь контент с собой.
  2. Ну вот даже свежие видео, сам что смотрел, то без звука, то с рассинхроном с губами
  3. Какое горе для меня, если звук по договору пишет площадка, и какие-то чуваки, несмотря на инструкции, записали набором файлов «чтобы экономней, зачем перерывы записывать» — мне это дикий гемор потом с синхронизацией и привязкой.