Язык мой — враг мой

О своем privacy можно будет забыть!

На хакерской конференции 29C3 Chaos Communication Congress в Гамбурге была презентована техника для определения личности анонимных пользователей, оставляющих комментарии на форумах или аналогичных сервисах.

Со слов разработчиков Сади Афроз и Эйлин Калискан Ислам эффективность их разработки достигает 80%, упор сделан на законы лингвистики и анализ содержания текста в частности определения места в нем служебных слов. Кроме того применяется стилометрия, как составная часть текстового анализа — каждый человек использует одинаковые коммуникативные конструкции в определенных ситуациях. Пока деанонимизатор работает только с английским языком.

Честно говоря, новость вызывает большие сомнения, показатель 80% считается очень высоким, даже для более простых задач структурного лингвистического анализа, например определения тональности текста или отношения автора к тому или иному предмету.

Здесь же речь идет о фактически создании «цифрового слепка» авторства высказываний. Возможно подобная методика будет работать эффективно для какой-то узкой выборки типов авторов и видов высказываний, но в общую эффективность на уровне 80% верится слабо. Поживём — увидим.

Источники:

http://events.ccc.de/congress/2012/wiki/Main_Page

http://science.d3.ru/comments/406084/

Tags: data mining