Детекция лиц
Определяем лица людей на кадрах видеозаписи с помощью каскадов Хаара.
ПРОЕКТ СЗГУ
Пульс аудитории – это инструмент повышения эффективности коммуникаций:
что и как говорить –
с научно-обоснованной базой.
Технология анализа
Подход, основанный на сочетании и взаимном дополнении нескольких способов распознавания в одной технологии.
Модули могут быть представлены параллельной оценкой смысловой и фонетической составляющей речи или наблюдением за выражениями лица с одновременной записью и анализом голоса.
Более сложные системы наряду с мимикой и речью пытаются анализировать жесты и окружающую обстановку.
Методы распознавания
Подход основан на анализе ключевых точек facial landmarks, которые размечают и привязывают к положению бровей, глаз, губ, носа и челюсти.
Классификаторы, используемые для распознавания эмоций по изменениям в микровыражениях лица, основаны на сверточных нейронных сетях (CNN).
Такие системы могут точно подмечать мельчайшие изменения в микровыражениях лица, оценивать их интенсивность и преобладающую эмоцию.
Определяем лица людей на кадрах видеозаписи с помощью каскадов Хаара.
Переводим данные в численную разметку для машинного анализа.
Предобученная CNN проводит классификацию:
С помощью ключевых точек анализируем, открыты или закрыты глаза, через сравнение относительно крайних точек.
Необходимость высокого качества кадра.
Определение человеческих эмоций с помощью фонетической составляющей речи без привязки к ее смысловой составляющей, то есть по самому голосу.
Текстовая модальность начинается с автоматического распознавания речи: аудиопоток переводится в текст, который затем становится основой для дальнейшего анализа.
После транскрибации система оценивает эмоциональную окраску текста, выделяя позитивные, негативные и нейтральные паттерны в высказываниях.
Область искусственного интеллекта, объединяющая лингвистику и машинное обучение для понимания, интерпретации и генерации человеческой речи.
Технологии NLP позволяют компьютерам работать с текстовыми и голосовыми данными, включая перевод, анализ тональности, классификацию документов и чат-ботов, используя современные нейросети и трансформеры.
Мониторинг и анализ физиологического состояния.
С помощью специального оборудования или электронных устройств.
В этом направлении анализируются пульс, артериальное давление, активность мозга и лицевых мышц, колебания кровотока лицевых мышц и другие физиологические показатели.
Практическая реализация
beta Текущий развёрнутый контур после alpha-прототипа.
В beta-версии уже работают MainDataBase с S3-хранилищем и PostgreSQL, оркестрация задач, интерфейсный I-Service и базовый набор сервисов анализа.
Обновление beta-контура • январь 2026
Новый аналитический контур дополняет оценку эмоций показателями внимания аудитории и усиливает итоговый отчёт.
I-Service
Текущий интерфейс beta-версии: принимает видео, запускает анализ и возвращает результаты пользователю.
Mega-Service + Orchestrator
Принимает ролик, выделяет кадры, собирает очередь задач и контролирует выполнение обработки без перегрузки контура.
VideoFrameAnalysis
Находит лица на кадрах и направляет данные в профильные сервисы анализа для дальнейшей обработки и сохранения в БД.
Emotions + EyesActivity
Определяет эмоции и базовую активность аудитории: смотрит человек на спикера или нет.
Transcription
Преобразует речь спикера в текст для последующего анализа смысловой и эмоциональной составляющей выступления.
Report
Формирует базовый итоговый отчёт на основе обработки видео, транскрипции и результатов анализа аудитории.
Ближайшее развитие
gamma Следующий цикл развития текущей платформы.
В ближайшем релизе усиливаем интерфейсы, дробим сервисный слой и ускоряем пайплайн обработки под публичное использование.
I-Service
Обновлённый сценарий взаимодействия: загрузка, статусы задач и выдача результатов станут понятнее и стабильнее.
I-Service
Второй интерфейс для работы без Telegram: загрузка материалов, запуск задач и просмотр отчётов в браузере.
Upgrade Services
Разделение общего контура на специализированные сервисы под отдельные сценарии анализа и продуктовые кейсы.
Pipeline Upgrade
Более экономная и быстрая обработка видео: меньше дублей кадров, выше устойчивость очередей и лучшее распределение нагрузки.
Upgrade Services
Расширение речевого контура: более точная тональность, особенности подачи и глубинный анализ выступления.
Дальнейшее развитие
gamma+ Следующий слой развития после базового gamma-релиза.
После gamma-фазы продукт расширится в сторону персонализации отчётов, рекомендаций для спикеров и community-слоя проекта.
Report Builder
Гибкая сборка финального отчёта под разные роли: исследователь, заказчик и сам спикер.
Advisor Service
Персональные рекомендации по вовлечённости, подаче речи, эмоциям и реакции аудитории на выступление.
Community Layer
Единая среда для пользователей проекта, обмена кейсами, обсуждения выводов и роста общей экосистемы.
Хронология
Ключевые вехи развития «Пульса аудитории» — от замысла до публичного сервиса.
Формирование идеи проекта, обзор существующих решений в области мультимодального распознавания эмоций, выбор технологического стека.
Первый работающий прототип: базовая детекция лиц, распознавание эмоций по мимике, простой пайплайн обработки видео.
Запуск I-Service в виде Telegram-бота, настройка Mega-Service и Orchestrator для управления задачами обработки.
Развёрнутый beta-контур: MainDataBase, S3-хранилище, PostgreSQL, транскрипция речи, генерация отчётов, анализ вовлечённости.
Новый аналитический контур: показатели внимания аудитории, расширенный отчёт, улучшение качества анализа.
СейчасTelegram Bot 2.0, веб-приложение, разделение сервисов, оптимизация пайплайна, углублённый анализ речи и тональности.
Конструктор пользовательских отчётов, рекомендации спикерам, создание community-слоя проекта.
Контакты проекта