ПРОЕКТ СЗГУ

ПУЛЬС АУДИТОРИИ

Пульс аудитории – это инструмент повышения эффективности коммуникаций:
что и как говорить –
с научно-обоснованной базой.

Мультимодальное распознавание

Технология анализа

Мультимодальное распознавание эмоций

01
Подход, основанный на сочетании и взаимном дополнении нескольких способов распознавания в одной технологии.
02
Модули могут быть представлены параллельной оценкой смысловой и фонетической составляющей речи или наблюдением за выражениями лица с одновременной записью и анализом голоса.
03
Более сложные системы наряду с мимикой и речью пытаются анализировать жесты и окружающую обстановку.

Основные подходы

Методы распознавания

Основные подходы к распознаванию эмоций

01 Распознавание по мимике Нажмите, чтобы раскрыть подробнее

Описание подхода

Подход основан на анализе ключевых точек facial landmarks, которые размечают и привязывают к положению бровей, глаз, губ, носа и челюсти.

Классификаторы, используемые для распознавания эмоций по изменениям в микровыражениях лица, основаны на сверточных нейронных сетях (CNN).

Такие системы могут точно подмечать мельчайшие изменения в микровыражениях лица, оценивать их интенсивность и преобладающую эмоцию.

Детекция лиц

Определяем лица людей на кадрах видеозаписи с помощью каскадов Хаара.

Анализ и кодирование признаков

Переводим данные в численную разметку для машинного анализа.

Классификация эмоций

Предобученная CNN проводит классификацию:

Радость
Удивление
Грусть
Нейтральность
Злость
Отвращение
Страх

Литература

02 Распознавание эмоций по активности глаз Нажмите, чтобы раскрыть подробнее

Что анализируется

Длительность фиксации зрачков.
Амплитуда и динамика быстрых движений глаз.
Изменения в диаметре зрачков.
Частота моргания.

Реализовано у нас

С помощью ключевых точек анализируем, открыты или закрыты глаза, через сравнение относительно крайних точек.

Недостаток метода

Необходимость высокого качества кадра.

Литература

03 Распознавание эмоций по голосу Нажмите, чтобы раскрыть подробнее

Описание подхода

Определение человеческих эмоций с помощью фонетической составляющей речи без привязки к ее смысловой составляющей, то есть по самому голосу.

Основные голосовые характеристики

Громкость.
Скорость речи.
Тон.
Прерывистость пауз.
Интонация.
Ритмичность речи.

Valence-Arousal-Dominance (VAD)

arousal - интенсивность эмоциональной реакции при восприятии слова.
dominance - ощущение силы или слабости при восприятии слова.
valence - позитивность или негативность слова.

04 Распознавание эмоций по тексту речи Нажмите, чтобы раскрыть подробнее

Инструменты автоматического распознавания речи

Текстовая модальность начинается с автоматического распознавания речи: аудиопоток переводится в текст, который затем становится основой для дальнейшего анализа.

Определение тональности текста

После транскрибации система оценивает эмоциональную окраску текста, выделяя позитивные, негативные и нейтральные паттерны в высказываниях.

NLP - Natural Language Processing

Область искусственного интеллекта, объединяющая лингвистику и машинное обучение для понимания, интерпретации и генерации человеческой речи.

Технологии NLP позволяют компьютерам работать с текстовыми и голосовыми данными, включая перевод, анализ тональности, классификацию документов и чат-ботов, используя современные нейросети и трансформеры.

Литература

05 Распознавание эмоций по физиологическим сигналам Нажмите, чтобы раскрыть подробнее

Описание подхода

Мониторинг и анализ физиологического состояния.

С помощью специального оборудования или электронных устройств.

Основные анализируемые признаки

В этом направлении анализируются пульс, артериальное давление, активность мозга и лицевых мышц, колебания кровотока лицевых мышц и другие физиологические показатели.

Литература

Что реализовано

Практическая реализация

Что реализовано

beta Текущий развёрнутый контур после alpha-прототипа.

В beta-версии уже работают MainDataBase с S3-хранилищем и PostgreSQL, оркестрация задач, интерфейсный I-Service и базовый набор сервисов анализа.

NEW! Сервисы

Обновление beta-контура • январь 2026

Добавлен анализ вовлеченности

Новый аналитический контур дополняет оценку эмоций показателями внимания аудитории и усиливает итоговый отчёт.

01 Интерфейс

I-Service

Telegram Bot

Текущий интерфейс beta-версии: принимает видео, запускает анализ и возвращает результаты пользователю.

02 Пайплайн

Mega-Service + Orchestrator

Обработка видео

Принимает ролик, выделяет кадры, собирает очередь задач и контролирует выполнение обработки без перегрузки контура.

03 Пайплайн

VideoFrameAnalysis

Анализ видеокадров

Находит лица на кадрах и направляет данные в профильные сервисы анализа для дальнейшей обработки и сохранения в БД.

04 Сервисы

Emotions + EyesActivity

Локализация лиц и анализ эмоций

Определяет эмоции и базовую активность аудитории: смотрит человек на спикера или нет.

05 Сервисы

Transcription

Создание транскрипции

Преобразует речь спикера в текст для последующего анализа смысловой и эмоциональной составляющей выступления.

06 Сервисы

Report

Генерация отчёта

Формирует базовый итоговый отчёт на основе обработки видео, транскрипции и результатов анализа аудитории.

Ожидает внедрения

Ближайшее развитие

Ожидает внедрения

gamma Следующий цикл развития текущей платформы.

В ближайшем релизе усиливаем интерфейсы, дробим сервисный слой и ускоряем пайплайн обработки под публичное использование.

01 Интерфейс

I-Service

Telegram Bot 2.0

Обновлённый сценарий взаимодействия: загрузка, статусы задач и выдача результатов станут понятнее и стабильнее.

02 Интерфейс

I-Service

Web приложение

Второй интерфейс для работы без Telegram: загрузка материалов, запуск задач и просмотр отчётов в браузере.

03 Сервисы

Upgrade Services

Отдельные сервисы под задачи

Разделение общего контура на специализированные сервисы под отдельные сценарии анализа и продуктовые кейсы.

04 Пайплайн

Pipeline Upgrade

Оптимизированный анализ кадров

Более экономная и быстрая обработка видео: меньше дублей кадров, выше устойчивость очередей и лучшее распределение нагрузки.

05 Сервисы

Upgrade Services

Сервис углублённого анализа речи спикера + тональность

Расширение речевого контура: более точная тональность, особенности подачи и глубинный анализ выступления.

Планируется к разработке

Дальнейшее развитие

Планируется к разработке

gamma+ Следующий слой развития после базового gamma-релиза.

После gamma-фазы продукт расширится в сторону персонализации отчётов, рекомендаций для спикеров и community-слоя проекта.

01 Сервисы

Report Builder

Сервис конструктора пользовательского итогового отчёта

Гибкая сборка финального отчёта под разные роли: исследователь, заказчик и сам спикер.

02 Сервисы

Advisor Service

Аналитический сервис рекомендаций спикерам

Персональные рекомендации по вовлечённости, подаче речи, эмоциям и реакции аудитории на выступление.

03 Платформа

Community Layer

Создание community проекта

Единая среда для пользователей проекта, обмена кейсами, обсуждения выводов и роста общей экосистемы.

Путь проекта

Хронология

Путь проекта

Ключевые вехи развития «Пульса аудитории» — от замысла до публичного сервиса.

Сентябрь 2024

Замысел и исследования

Формирование идеи проекта, обзор существующих решений в области мультимодального распознавания эмоций, выбор технологического стека.

Декабрь 2024

Alpha-прототип

Первый работающий прототип: базовая детекция лиц, распознавание эмоций по мимике, простой пайплайн обработки видео.

Март 2025

Telegram-бот и оркестрация

Запуск I-Service в виде Telegram-бота, настройка Mega-Service и Orchestrator для управления задачами обработки.

Июнь 2025

Beta-контур

Развёрнутый beta-контур: MainDataBase, S3-хранилище, PostgreSQL, транскрипция речи, генерация отчётов, анализ вовлечённости.

Январь 2026

Анализ вовлечённости

Новый аналитический контур: показатели внимания аудитории, расширенный отчёт, улучшение качества анализа.

Сейчас

Q2 2026

Gamma-релиз

Telegram Bot 2.0, веб-приложение, разделение сервисов, оптимизация пайплайна, углублённый анализ речи и тональности.

Q4 2026

Платформа и community

Конструктор пользовательских отчётов, рекомендации спикерам, создание community-слоя проекта.

Будь в пульсе

Контакты проекта

Будь в пульсе с аудиторией

Telegram-канал

Новости и обновления проекта

t.me/+32KgLey5qH1hZDMy

Telegram-бот

Быстрый доступ к сервису

t.me/SzguEmoBot

ПУЛЬС АУДИТОРИИ

О проекте

Мультимодальное распознавание эмоций

Основные подходы к распознаванию эмоций

Описание подхода

Детекция лиц

Анализ и кодирование признаков

Классификация эмоций

Литература

Что анализируется

Реализовано у нас

Недостаток метода

Литература

Описание подхода

Основные голосовые характеристики

Valence-Arousal-Dominance (VAD)

Инструменты автоматического распознавания речи

Определение тональности текста

NLP - Natural Language Processing

Литература

Описание подхода

Основные анализируемые признаки

Литература

Что реализовано

Добавлен анализ вовлеченности

Telegram Bot

Обработка видео

Анализ видеокадров

Локализация лиц и анализ эмоций

Создание транскрипции

Генерация отчёта

Ожидает внедрения

Telegram Bot 2.0

Web приложение

Отдельные сервисы под задачи

Оптимизированный анализ кадров

Сервис углублённого анализа речи спикера + тональность

Планируется к разработке

Сервис конструктора пользовательского итогового отчёта

Аналитический сервис рекомендаций спикерам

Создание community проекта

Путь проекта

Замысел и исследования

Alpha-прототип

Telegram-бот и оркестрация

Beta-контур

Анализ вовлечённости

Gamma-релиз

Платформа и community

Будь в пульсе с аудиторией

Новости и обновления проекта

Быстрый доступ к сервису