Posted 18 ноября 2019, 04:20
Published 18 ноября 2019, 04:20
Modified 2 марта 2023, 14:31
Updated 2 марта 2023, 14:31
— Почему вы решили анализировать комментарии пользователей?
— Когда мы решили этим заняться, нас больше интересовала все-таки лингвистика. Задача стояла более скромная, чем профилирование людей. Нас интересовало, есть ли зависимость между речевым поведением человека и его психологическими параметрами.
— Как вы определяли эту зависимость?
— На первом этапе мы провели большой опрос среди тысячи человек и определили их тип личности. Этим занимался Сергей Щебетенко, сейчас он работает в московской «Вышке». Затем наши программисты выгрузили из «ВКонтакте» комментарии и записи этих людей — около 21 тыс. текстов. Полученные данные мы «накладывали» друг на друга и сравнивали. Всего оценка комментариев проводится по 150 параметрам.
— Вы можете сейчас в реальном времени проанализировать чей-то аккаунт? Например, мой.
— Нет. К чему-то «подкрутить» сервисы мы сейчас не можем. Для этого нужно писать дополнительную программу. Сейчас у нас даже нет интерфейса, все делается через командную строку. Но вообще мы и не приспосабливали сервис под функцию «Загрузите свой профиль, проверьте, кто вы». Это несложно сделать, но мы просто не ставили такой задачи перед собой.
— А как проверяли работоспособность программы?
— Мы брали определенный параметр, который программа знает и научилась определять на основании тех данных, что мы ей дали, например, недобросовестность. Затем загружался текст, который программа раньше «не читала». Результаты ее анализа сравнивались с итогами теста на определение типа личности. Точность оказалась на уровне 70%.
Вообще у меня есть теория, что в речи добросовестных людей меньше неточностей, она более заполнена. Человеку должно быть понятно, о чем говорит собеседник, поэтому смысловые пробелы у такого типа людей оставаться не должны.
— С первых попыток получили такую высокую точность?
— Нет. Сначала мы оценивали тексты по всем 150 параметрам — результаты были не очень. Затем с помощью математических методов мы решили задачу исключения языковых категорий, которые не значимы для каждой отдельной психологической черты: нейротизма, экстраверсии, доброжелательности и так далее. В результате был определен набор из 25–35 языковых параметров, значимых для каждой черты. Выявление таких «наборов» позволило нам увеличить точность профилирования — до 65–70% при довольно небольшом для подобных исследований материале.
— Ваша программа разработана в рамках госзадания министерства науки и высшего образования, сколько денег вам выделили?
— В течение трех лет нам выделяли по 9 млн рублей ежегодно. Всего 27 млн рублей. Часть средств ушло вузу, остальное потратили на зарплаты команде из 15–20 человек, покупку оборудования — появился новый сервер со 116 гб оперативной памяти, посещение конференций, в том числе зарубежных, подготовку публикаций для научных журналов. Нужно понимать, что это сугубо научный проект, а не прикладной. У нас основная отчетность — это публикация статей и патентование технологии.
— Вам не кажется, что вы разработали сервис для силовых структур?
— Возможно, это так. Но, наверняка, у них уже есть что-то подобное. Вообще повторить то, что мы сделали в плане написания программы — несложно. Самое трудное то, о чем я говорил раньше — определить и разбить на группы языковые параметры для разных психологических черт человека.
— Что дальше?
— Мы пока не совсем понимаем, куда будем выходить с этим продуктом, на какой рынок. С помощью нашей программы можно проанализировать какой-то контент и понять, кто на него отреагирует, какому типу личности это интересно. С другой стороны, не знаю, насколько рекламодателям важно знать, что их продукт привлекает интровертов или экстравертов…
В любом случае, чтобы довести продукт до ума, нужен инвестор. Сейчас есть достаточно крупная московская компания — агрегатор контента и социальных сетей, в сервисы которой мы бы хотели интегрировать нашу разработку. С их стороны такое желание тоже есть. Посмотрим, что из этого получится.
— Сколько времени нужно, чтобы «допилить» продукт?
— У нас есть вся инфраструктура, вычислительные мощности, алгоритмы работают безотказно, но базы данных недостаточно. У нас не так много текстов и результатов опросов для анализа. Если их будет раз в 10 больше, то показатель точности будет уже ближе к 90%. Чтобы этого добиться, нужно еще около трех лет — год на сбор данных, а остальное на «шлифовку» алгоритмов и подключение к анализу в онлайн-режиме.