Как цифровые отпечатки используются для идентификации продавцов в даркнете.

НОВОСТИ
2019-03-22 15:24:15
0
2.4K

Редакция канала уже писала про методы анализа шаблонов поведения при использовании различних приложений в траффике Tor, аналитику фотографий (фотоаналитику) продуктов с маркетов даркнета, а также поведенческий анализ, для идентификации отдельных продавцов в темной сети. До сих пор все это было лишь отдельными исследованиями. Но вот исследования превращаются в разработки, которые в скором времени встанут на службу стражей порядка (правда, пока что, заграничных). Господа драгдиллеры, время призадуматься о стиле вашего письма и о качестве фотографий ваших продуктов.

В темной сети существует большое количество рынков, где пользователи торгуют незаконными ПАВ и множеством других нелегальных во многих странах товаров. За последние несколько лет правоохранительные органы начали анализировать сети поставщиков в даркнете, связывая их с реальными личностями. Тем не менее, поставщики на темных рынках зачастую используют несколько учетных записей, что затрудняет раскрытие их личности.

Но времена меняются. В недавно опубликованном исследовании от компании Microsoft предлагается подход, который опирается на стилометрию (анализ стилей письма) и фотоаналитику, чтобы найти связи между несколькими аккаунтами одних и тех же поставщиков на торговых площадках даркнет. В этой статье мы рассмотрим предложенный в документе подход и его эффективность в выявлении поставщиков на темных маркетах. И это уже реальность. Давайте не забывать, что у Microsoft слово с делом расходится редко, а значит, если они действительно об этом заговорили, то разработки уже есть в наличии. А еще можно припомнить, что данная корпорация является производителем самой популярной на данный момент ОС Windows. И уже не раз было доказано, что эта операционная система активно шпионит за своими пользователями.

Стилометрический анализ

Стилометрический анализ - это метод, направленный на поиск автора анонимного текста посредством анализа его стиля письма. В случае с площадками даркнета, тексты поставщиков представляют описания продуктов, написанные продавцом. Тем не менее, существует несколько проблем, связанных с применением методов анализа стилометрии на рынках даркнет. Во-первых, большинство описаний продуктов очень короткие. Например, средняя длина описаний продуктов на рынке Agora составляла всего 118 слов. Кроме того, описания продуктов часто создаются с по шаблону, и поставщики часто используют аналогичные описания для нескольких продуктов, изменив лишь несколько слов. Кроме того, большинство темных торговых площадок являются международными и в описаниях используется сразу несколько языков. Все эти проблемы затрудняют определение уникальных стилей письма продавцов.

Чтобы использовать анализ стилометрии для идентификации продавцов даркнета, авторы статьи создали список характеристик для моделирования уникальных стилей написания характерных продавцам. Эти характеристики включали процент слов, начинающихся с заглавной буквы, среднюю длину слова, общий процент заглавных букв, частоту стоп-слов, частоту пунктуации, гистограмму длины слова, часть речевой униграммы / биграммы / триграммы, символьной униграммы / биграммы / триграммы и цифровой униграммы / биграммы / триграммы (N-грамма это определенная фиксированная последовательность из n элементов, в данном контексте, характерный набор цифр, слогов, ошибок, цифр).

Библиотека NLTK была использована для выполнения токенизации предложений и слов. Stanford Log Linear Speech Tagger использовался для того, чтобы изучить особенности частей речи. Из-за высокой размерности вектора признаков (около 100 Кб) уменьшение размеров было выполнено посредством стохастического разложения по сингулярным значениям, чтобы уменьшить размер вектора признаков до 1 Кб.

Чтобы создать первичные достоверные данные для стилометрического анализа, описания продавцов, содержащих более чем 2 х Tr ' слов были разделены. Продавцы, с описаниями длиннее Tr, были добавлены в качестве отвлекающих факторов учебного набора. Были созданы две версии для первичных наборов данных - одна, рассматривает все описания продуктов (одно описание для каждого списка продуктов) и включает в себя дублированные предложения, а другая пропускает дублированные предложения. Недублированный набор данных используется для того, чтобы классифицировать стиль письма, а не повторяющиеся предложения. Рассматривался только текст на английском языке, а объекты HTML и символы Unicode были удалены.

Результаты показаны в Таблице (1), доказывая, что анализ стилометрии может дать высокий уровень точности, когда включен анализ повторяющихся предложения (0,936-0,990). Тем не менее, когда анализ повторяющихся предложений опущен, точность значительно падает до 0,580-0,846. Это снижение точности означает, что предыдущие высокие уровни являются вторичными по сравнению с дублированием предложений, а вовсе не из-за идентификации уникальности стилей письма.

Эти результаты доказывают, что тот подход, который хорошо показал себя на форумах даркнета в предыдущих исследованиях, явно имеет ограничения при использовании на торговых площадках даркнета. Это происходит главным образом потому, что поставщики обычно используют одинаковые шаблоны для создания описания своих товаров.

Анализ фотографий

Авторы статьи представили новый подход, который позволяет связать несколько учетных записей на рынках даркнет путем анализа фотографий предлагемых продуктов. Целью анализа является "фингерпринтинг" или создание "цифровых отпечатков" для выявления поставщиков в даркнет, основываясь на фотографиях их продуктов. Способ основан на том факте, что поставщики даркнета вынуждены фотографировать свои продукты, чтобы доказать, что они у них действительно есть в наличии. При этом могут быть идентифицированы стили фотографии. Для создания точных цифровых отпечатков авторы статьи разработали специальную систему, в которой использовались алгоритмы глубокого машинного обучения с использованием нейронных сетей для автоматического сбора отличительных признаков из фотографий поставщиков. Кроме того, идентификации цифровых отпечатков продавцов, публикующих небольшое количество фотографий, был применен метод трансферного обучения, опять же, с применением нейронной сети использующей большие наборы данных общих изображений, а затем для точной настройки модели с использованием уже собственных фотографий поставщика.

Предлагаемая система прошла тестирование на наборах данных с трех основных "забугорных" рынков даркнета (SilkRoad2, Evolution и Agora), на которых торгуют, в общей сложности, 7 641 продавца, выставивших в общей сложности 197 682 фотографии своих товаров. Во-первых, была проведена базовая оценка правдивости путем разделения фотографий предоставленных каждым продавцом на два случайных сегмента и проверки того, как система может точно связать две части вместе. Наиболее перспективная модель исследования показала точность около 97,5% на всех трех рынках. Также этот подход тестировался в сочетании со стилометрическим методом анализа.

Чтобы проверить эффективность предложенной модели, авторы статьи применили свой метод для идентификации ранее нераспознанных учетных записей Sybil. Используя внешнее доказательство и ручной анализ, авторы статьи доказывают, что предложенная ими система смогла идентифицировать 715 аккаунтов Sybil на разных рынках, а также выделить 23 акка Sybil на тех же рынках. Дальнейшие тематические исследования показывают понимание совместной деятельности учетных записей Sybil, которые варьируются от манипулирования ценами и мошенничества, до перепродажи и хранения товаров, а также дублирования фотографий других продацов. Например, авторам статьи удалось определить поставщиков на SilkRoad2 и Evolution, которые используют учетные записи Sybil исключительно для продажи небольшого количества продуктов по очень низким ценам. Доказано, что некоторые из этих поставщиков Sybil обманули своих клиентов, что подтверждается внешними данными.

Выводы

Помните тот прорыв искусственного интеллекта несколько лет назад, когда системы ИИ научились отличать котиков от собачек, а затем и одну породу домашних тварей от другой? Так вот теперь нейронные сети умеют отличать "орех" продавца Джона от "бодяженного" "ореха" продавца Смитта. Даже если Джон перепродал свое "дерьмо" продавцу Скотту. Да, да, Джон, Большой Брат знает, что ты килешуешь свой товар.

Выводы, господа драгдиллеры, не утешительные. Вас могут идентифицировать по стилю вашего письма, по орфогрфическим ошибкам, которые вы допускаете и даже по сочетаниям слов, которые используются в описании продуктов. И это не все. Царапинки на камерах телефонов или фотоаппаратов, то как свет (и цвет) от лампы падает на фотографируемые вами ПАВ тоже могут послужить поводом для идентификации.

Однако, идентификация - не деанонимизация, скажете вы. И ошибетесь.

Позвольте. Не стоит забывать про то, что Большой Брат читает все ваши переписки в социальных сетях, инстаграм, ваши смс, ваши блоги и признания в любви вашим зазнобам. Рано или поздно, сначала "за бугром", а потом и у нас, эти шаблоны начнут сравнивать. И не за горами то время, когда личная переписка в социальных сетях будет сопоставлена с описаниями продуктов, а фотографии голых торсов на горячем песочке с фотографиями брикетов "ореха".

Есть повод задуматься. Время еще тоже есть.

Чтобы быть в курсе всех свежих новостей нашего сайта, подписывайтесь на наш телеграм канал https://t.me/joinchat/AAAAAEN6RYDtq2uLaMOeLQ

0
2.4K
Написать комментарий

Добавить комментарий