Как определить сайт мошеннический или нет


7 способов, как проверить сайт на мошенничество онлайн

  • Подписаться
  • Лента публикаций
  • Последние публикации
  • Лучшие публикации
    • за все время

Не могу определить, поддельное это письмо или нет ... - CIA

Я получил электронное письмо примерно в 16:30 (EST) от учетной записи электронной почты @ ucia.gov. Это было в отношении стипендиальной программы ЦРУ, в которую я подал заявку, заявив, что им понравилось мое онлайн-приложение, и они хотели узнать обо мне больше. Проблема в том, что я не могу определить, на что я смотрю, мошенничество это или нет.


Позвольте мне перечислить причины, по которым я не думаю, что это может быть мошенничество:
(1) Это из @ucia.электронная почта правительства. В этом нет ничего подозрительного. Я нажимаю кнопку ответа, и в поле все еще указывается тот же адрес электронной почты.
(2) Они просят меня отправить информацию на другой адрес электронной почты, но все еще в учетной записи @ ucia.gov. Я не могу представить, как это подделать, верно? Если бы они подделывали электронное письмо, они бы хотели, чтобы я ответил на исходное письмо, или чтобы я перешел на какой-нибудь веб-сайт, который можно было бы различить в поле адреса. Конечно, адрес "ucia.gov" меня сначала напугал.Почему это не cia.gov? Я попросил. Что ж, Google, похоже, дал мне законные ответы на учетные записи электронной почты ucia.gov.
(3) Я подавал заявки раньше, но слышу ответ впервые. На этот раз я также использую новый адрес электронной почты. Крайний срок подачи заявок - 31 октября, и я получил своевременный ответ 1 ноября. Я не могу представить, что при таких обстоятельствах это могло быть мошенничеством. (С другой стороны, когда я обратился в АНБ на аналогичную должность, они прислали мне по почте запрос на дополнительную информацию, которую я должен был разместить на их веб-сайте.)
(4) Прикрепленный документ, который они хотели, чтобы я заполнил, не заставлял мое антивирусное программное обеспечение предупреждать меня, когда я его сканировал.

С другой стороны, есть подозрения об этом:
(1) Я должен сдать документы до 7 утра 4 ноября, то есть в понедельник. Я получил это письмо в пятницу вечером, когда рабочий день заканчивался. Поэтому у меня нет времени связываться с ЦРУ по телефону или электронной почте, чтобы проверить законность этого письма.
(2) Они просят расшифровки стенограмм и заполнить дополнительный документ.Что ж, я полагаю, что расшифровки стенограммы могут быть неофициальными, если они хотят, чтобы я их прикрепил, но мне интересно, могут ли мои расшифровки быть использованы для кражи личности? У них есть мое имя, оценки, дата окончания, специальность ... и мой студенческий билет. Но там нет ничего, что можно было бы использовать для кражи личных данных, верно?
(3) В дополнительном документе я должен указать в конце свое имя и номер социального страхования. Конечно, я указал свое социальное обеспечение на веб-сайте ЦРУ для своей заявки и понимаю, что это может быть полезно для целей подачи документов.Но просто записать его в .doc и отправить по электронной почте?
(4) Сам документ кажется довольно инфантильным. Я поступаю в аспирантуру, и меня спрашивают, какой из моих любимых курсов в университете? С другой стороны, похоже, что они используют, возможно, одну и ту же «форму дополнительной информации» по всем направлениям? Они упоминают, что если вы поступали в старшую школу, то говорили о том, почему вы хотите выбрать определенную специальность.
(5) Здесь и там есть случайные вещи, которые вызывают предупреждения.Письмо подписано как:
«С уважением

Студенческие программы»
Без имени. Без запятой. В документе есть грамматическая ошибка, например, пропущено «to» вместо того, что должно быть словом в инфинитиве. Слово «майор», как и в случае с основным предметом в колледже, находится в середине предложения, но буква «м» пишется с заглавной буквы. Они спрашивают, почему я хочу работать в «этой организации». В самом деле? Неописуемые термины? Это не помогает мне чувствовать себя более комфортно.

Я имею в виду, письмо выглядит невероятно мошенническим.Но, несмотря на все это, я до сих пор не могу понять, как это могло быть мошенническим письмом, учитывая первые три положительных момента, которые я высказал. Я что-то упустил?

.

Обнаружение мошенничества с кредитными картами с помощью машинного обучения | автор: Лукас Фрей

Ловля плохих парней с помощью науки о данных

В этой статье описывается мой проект машинного обучения о мошенничестве с кредитными картами. Если вас интересует код, вы можете найти мою записную книжку здесь.

Источник: https://giphy.com/gifs/glitch-money-shopping-d3mmdNnW5hkoUxTG

С тех пор, как я начал свой путь в науку о данных, я думал о том, как использовать науку о данных во благо, одновременно создавая ценность.Таким образом, когда я наткнулся на этот набор данных на Kaggle, посвященный обнаружению мошенничества с кредитными картами, меня сразу же зацепило. Набор данных содержит 31 функцию, 28 из которых анонимизированы и имеют маркировку от V1 до V28. Остальные три характеристики - это время и сумма транзакции, а также то, была ли эта транзакция мошеннической или нет. Перед загрузкой в ​​Kaggle анонимные переменные были модифицированы в форме PCA (анализа основных компонентов). Кроме того, в наборе данных не было пропущенных значений.Имея это базовое описание данных, давайте перейдем к исследовательскому анализу данных.

Так как почти все предикторы были анонимными, я решил сосредоточиться на времени неанонимных предикторов и сумме транзакции во время моего EDA. Набор данных содержит 284 807 транзакций. Средняя стоимость всех транзакций составляет 88,35 долларов США, в то время как самая крупная транзакция, записанная в этом наборе данных, составляет 25 691,16 долларов США. Однако, как вы уже могли догадаться, основываясь на среднем и максимальном значении, распределение денежной стоимости всех транзакций сильно смещено вправо.Подавляющее большинство транзакций относительно небольшие, и лишь небольшая часть транзакций приближается к максимуму.

Время записывается в секундах с момента первой транзакции в наборе данных. Следовательно, мы можем сделать вывод, что этот набор данных включает все транзакции, зарегистрированные в течение двух дней. В отличие от распределения денежной стоимости транзакций, оно является бимодальным. Это указывает на то, что примерно через 28 часов после первой транзакции произошло значительное падение объема транзакций.Хотя время первой транзакции не указано, было бы разумно предположить, что падение объема произошло ночью.

А как насчет распределения классов? Сколько транзакций являются мошенническими, а сколько нет? Как и следовало ожидать, большинство транзакций не являются мошенническими. Фактически, 99,83% транзакций в этом наборе данных не были мошенническими, в то время как только 0,17% были мошенническими. Следующая визуализация подчеркивает этот значительный контраст.

Наконец, было бы интересно узнать, есть ли какие-либо существенные корреляции между нашими предикторами, особенно в отношении нашей переменной класса.Один из наиболее наглядных способов определить это - использовать тепловую карту.

Как видите, некоторые из наших предикторов, похоже, коррелируют с переменной класса. Тем не менее, для такого большого количества переменных, кажется, существует относительно небольшая значимая корреляция. Вероятно, это можно объяснить двумя факторами:

  1. Данные были подготовлены с использованием PCA, поэтому наши предикторы являются основными компонентами.
  2. Огромный дисбаланс классов может исказить важность определенных корреляций в отношении нашей переменной класса.

Прежде чем продолжить наш анализ, важно не забыть, что, хотя анонимные функции были масштабированы и, кажется, сосредоточены вокруг нуля, наши функции времени и количества - нет. Если их не масштабировать, некоторые алгоритмы машинного обучения, которые присваивают веса характеристикам (логистическая регрессия) или полагаются на измерение расстояния (KNN), работают намного хуже. Чтобы избежать этой проблемы, я стандартизировал столбцы времени и суммы. К счастью, пропущенных значений нет, и поэтому нам не нужно беспокоиться о вменении пропущенных значений.

Теперь наступает сложная часть: создание набора обучающих данных, который позволит нашим алгоритмам улавливать конкретные характеристики, которые делают транзакцию более или менее вероятной для мошенничества. Использование исходного набора данных не может быть хорошей идеей по очень простой причине: поскольку более 99% наших транзакций не являются мошенническими, алгоритм, который всегда предсказывает, что транзакция не является мошеннической, достигнет точности выше 99 %. Тем не менее, это противоположно тому, чего мы хотим.Нам не нужна точность 99%, которая достигается за счет того, что транзакция не помечается как мошенническая, мы хотим обнаруживать мошеннические транзакции и маркировать их как таковые.

Есть два ключевых момента, на которых нужно сосредоточиться, чтобы помочь нам решить эту проблему. Во-первых, мы собираемся использовать случайную недостаточную выборку для создания обучающего набора данных со сбалансированным распределением классов, который заставит алгоритмы обнаруживать мошеннические транзакции как таковые для достижения высокой производительности. Говоря о производительности, мы не будем полагаться на точность.Вместо этого мы собираемся использовать область рабочих характеристик приемника под кривой или показатель производительности ROC-AUC (я привел ссылку для дальнейшего чтения ниже этой статьи). По сути, ROC-AUC выдает значение от нуля до единицы, при этом единица соответствует высшему баллу, а ноль - худшему. Если алгоритм имеет показатель ROC-AUC выше 0,5, он обеспечивает более высокую производительность, чем случайное угадывание.

Чтобы создать сбалансированный набор данных для обучения, я взял все мошеннические транзакции из нашего набора данных и подсчитал их.Затем я случайным образом выбрал одинаковое количество не мошеннических транзакций и объединил их. После перетасовки этого недавно созданного набора данных я решил еще раз вывести распределения классов, чтобы визуализировать разницу.

Обнаружение выбросов - сложная тема. Компромисс между сокращением количества транзакций и, следовательно, объема информации, доступной для моих алгоритмов, и наличием экстремальных выбросов, искажающих результаты ваших прогнозов, нелегко решить и в значительной степени зависит от ваших данных и целей.В моем случае я решил сосредоточиться исключительно на функциях с корреляцией 0,5 или выше с переменной класса для удаления выбросов. Прежде чем приступить к фактическому удалению выбросов, давайте взглянем на визуализацию этих функций:

Ящичковые диаграммы дают нам хорошее представление о том, нужно ли нам беспокоиться о выбросах, поскольку все транзакции за пределами 1,5-кратного IQR (межквартильный диапазон ) обычно считаются выбросами. Однако удаление всех транзакций за пределами 1,5-кратного IQR резко уменьшит размер обучающих данных, который для начала не очень велик.Таким образом, я решил сосредоточиться только на экстремальных выбросах за пределами 2,5-кратного IQR.

Визуализация наших классов будет довольно интересной и покажет нам, четко ли они разделимы. Однако невозможно построить 30-мерный график, используя все наши предикторы. Вместо этого, используя технику уменьшения размерности, такую ​​как t-SNE, мы можем проецировать эти распределения более высокой размерности в визуализации более низкой размерности. Для этого проекта я решил использовать t-SNE, алгоритм, с которым я раньше не работал.Если вы хотите узнать больше о том, как работает этот алгоритм, см. Здесь.

Проецируя наш набор данных в двумерное пространство, мы можем построить диаграмму разброса, показывающую кластеры мошеннических и не мошеннических транзакций:

На часть, которую вы, вероятно, ждали все это время: обучающая машина алгоритмы обучения. Чтобы иметь возможность проверить производительность наших алгоритмов, я сначала выполнил разделение на поезд 80/20, разделив наш сбалансированный набор данных на две части.Чтобы избежать переобучения, я использовал очень распространенный метод повторной выборки - k-кратную перекрестную проверку. Это просто означает, что вы разделяете свои обучающие данные на k частей (складок), а затем подгоняете свою модель к k-1 складкам, прежде чем делать прогнозы для k-й удерживающей складки. Затем вы повторяете этот процесс для каждой складки и усредняете полученные прогнозы.

Чтобы лучше понять, какой алгоритм лучше всего работает с нашими данными, давайте быстро проверим некоторые из самых популярных алгоритмов классификации:

  • Логистическая регрессия
  • Линейный дискриминантный анализ
  • K ближайших соседей (KNN)
  • Деревья классификации
  • Классификатор опорных векторов
  • Классификатор случайных лесов
  • Классификатор XGBoost

Результаты выборочной проверки можно визуализировать следующим образом:

Как мы видим, есть несколько алгоритмов, которые значительно превосходят другие по эффективности .Какой алгоритм выбрать? Как упоминалось выше, этот проект был направлен не только на достижение максимальной точности, но и на создание ценности для бизнеса. Следовательно, выбор случайного леса вместо XGBoost может быть разумным подходом для достижения более высокой степени полноты и лишь небольшого снижения производительности. Чтобы еще больше проиллюстрировать, что я имею в виду, вот визуализация нашей модели случайного леса, которую можно легко использовать для очень простого объяснения того, почему было принято определенное решение:

Обнаружение мошенничества - сложная проблема, которая требует значительного планирования перед используя алгоритмы машинного обучения.Тем не менее, это также приложение науки о данных и машинного обучения во благо, которое гарантирует, что деньги клиента в безопасности и их нелегко подделать.

Дальнейшая работа будет включать всестороннюю настройку алгоритма случайного леса, о котором я говорил ранее. Наличие набора данных с неанонимными функциями сделало бы это особенно интересным, поскольку вывод важности функции позволил бы увидеть, какие конкретные факторы наиболее важны для обнаружения мошеннических транзакций.

Как всегда, если у вас есть какие-либо вопросы или обнаруженные ошибки, не стесняйтесь обращаться ко мне. Ссылка на блокнот с моим кодом приведена в начале статьи.

.

Как IE определяет, является ли сайт сайтом в Интернете или во внутренней сети?

Переполнение стека
  1. Около
  2. Товары
  3. Для команд
  1. Переполнение стека Общественные вопросы и ответы
  2. Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
  3. Вакансии Программирование и связанные с ним технические возможности карьерного роста
  4. Талант Нанимайте технических специалистов и создавайте свой бренд работодателя
  5. Реклама Обратитесь к разработчикам и технологам со всего мира
  6. О компании
.

информатика - Как определить, является ли язык контекстным или нет?

Переполнение стека
  1. Около
  2. Товары
  3. Для команд
  1. Переполнение стека Общественные вопросы и ответы
  2. Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
  3. Вакансии Программирование и связанные с ним технические возможности карьерного роста
  4. Талант Нанимайте технических специалистов и создавайте свой бренд работодателя
.

Смотрите также

Поделиться в соц. сетях

Опубликовать в Facebook
Опубликовать в Одноклассники
Вы можете оставить комментарий, или ссылку на Ваш сайт.

Оставить комментарий