Posted 18 ноября 2019,, 04:20

Published 18 ноября 2019,, 04:20

Modified 2 марта 2023,, 14:31

Updated 2 марта 2023,, 14:31

Зачем ученым анализировать ваши комментарии в соцсетях? Интервью с профессором-лингвистом ПГНИУ

Зачем ученым анализировать ваши комментарии в соцсетях? Интервью с профессором-лингвистом ПГНИУ

18 ноября 2019, 04:20
Дмитрий Загуменнов
Фото: Кирилл Козлов для Properm.ru
Лингвисты и математики ПГНИУ по заданию федеральных властей создали программу BFI CNN Detector, с помощью которой можно определить ваш психотип. Разработка ученых анализирует комментарии — что и как пишут люди в соцсетях, и «рисует» психолингвистический портрет. Как появилась эта программа и кому она может понадобиться, рассказал руководитель проекта, профессор кафедры теоретического и прикладного языкознания ПГНИУ Константин Белоусов.
Сюжет
ПГНИУ

— Когда мы решили этим заняться, нас больше интересовала все-таки лингвистика. Задача стояла более скромная, чем профилирование людей. Нас интересовало, есть ли зависимость между речевым поведением человека и его психологическими параметрами.

— Как вы определяли эту зависимость?

— На первом этапе мы провели большой опрос среди тысячи человек и определили их тип личности. Этим занимался Сергей Щебетенко, сейчас он работает в московской «Вышке». Затем наши программисты выгрузили из «ВКонтакте» комментарии и записи этих людей — около 21 тыс. текстов. Полученные данные мы «накладывали» друг на друга и сравнивали. Всего оценка комментариев проводится по 150 параметрам.

— Вы можете сейчас в реальном времени проанализировать чей-то аккаунт? Например, мой.

— Нет. К чему-то «подкрутить» сервисы мы сейчас не можем. Для этого нужно писать дополнительную программу. Сейчас у нас даже нет интерфейса, все делается через командную строку. Но вообще мы и не приспосабливали сервис под функцию «Загрузите свой профиль, проверьте, кто вы». Это несложно сделать, но мы просто не ставили такой задачи перед собой.

— А как проверяли работоспособность программы?

— Мы брали определенный параметр, который программа знает и научилась определять на основании тех данных, что мы ей дали, например, недобросовестность. Затем загружался текст, который программа раньше «не читала». Результаты ее анализа сравнивались с итогами теста на определение типа личности. Точность оказалась на уровне 70%.

Вообще у меня есть теория, что в речи добросовестных людей меньше неточностей, она более заполнена. Человеку должно быть понятно, о чем говорит собеседник, поэтому смысловые пробелы у такого типа людей оставаться не должны.

— С первых попыток получили такую высокую точность?

— Нет. Сначала мы оценивали тексты по всем 150 параметрам — результаты были не очень. Затем с помощью математических методов мы решили задачу исключения языковых категорий, которые не значимы для каждой отдельной психологической черты: нейротизма, экстраверсии, доброжелательности и так далее. В результате был определен набор из 25–35 языковых параметров, значимых для каждой черты. Выявление таких «наборов» позволило нам увеличить точность профилирования — до 65–70% при довольно небольшом для подобных исследований материале.

— Ваша программа разработана в рамках госзадания министерства науки и высшего образования, сколько денег вам выделили?

— В течение трех лет нам выделяли по 9 млн рублей ежегодно. Всего 27 млн рублей. Часть средств ушло вузу, остальное потратили на зарплаты команде из 15–20 человек, покупку оборудования — появился новый сервер со 116 гб оперативной памяти, посещение конференций, в том числе зарубежных, подготовку публикаций для научных журналов. Нужно понимать, что это сугубо научный проект, а не прикладной. У нас основная отчетность — это публикация статей и патентование технологии.

— Вам не кажется, что вы разработали сервис для силовых структур?

— Возможно, это так. Но, наверняка, у них уже есть что-то подобное. Вообще повторить то, что мы сделали в плане написания программы — несложно. Самое трудное то, о чем я говорил раньше — определить и разбить на группы языковые параметры для разных психологических черт человека.

— Что дальше?

— Мы пока не совсем понимаем, куда будем выходить с этим продуктом, на какой рынок. С помощью нашей программы можно проанализировать какой-то контент и понять, кто на него отреагирует, какому типу личности это интересно. С другой стороны, не знаю, насколько рекламодателям важно знать, что их продукт привлекает интровертов или экстравертов…

В любом случае, чтобы довести продукт до ума, нужен инвестор. Сейчас есть достаточно крупная московская компания — агрегатор контента и социальных сетей, в сервисы которой мы бы хотели интегрировать нашу разработку. С их стороны такое желание тоже есть. Посмотрим, что из этого получится.

— Сколько времени нужно, чтобы «допилить» продукт?

— У нас есть вся инфраструктура, вычислительные мощности, алгоритмы работают безотказно, но базы данных недостаточно. У нас не так много текстов и результатов опросов для анализа. Если их будет раз в 10 больше, то показатель точности будет уже ближе к 90%. Чтобы этого добиться, нужно еще около трех лет — год на сбор данных, а остальное на «шлифовку» алгоритмов и подключение к анализу в онлайн-режиме.

"