пїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ пїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅпїЅ
Слишком длинный поисковый запрос.
По вашему запросу ничего не найдено :(
Убедитесь, что запрос написан правильно, или посмотрите другие
наши статьи:
Интернет может быть опасным. Спросите любого хорошего IT-специалиста, и он вам обязательно расскажет о важности обеспечения безопасности и компактности систем, чтобы можно было гарантировать, что новые системы смогут безопасно предоставлять требуемые услуги. И хотя автоматизация этого процесса имеет большое значение для сокращения времени адаптации, настоящим испытанием для системы является способность предоставлять услуги стабильно и без каких-либо пауз на постоянной основе.
Существуют автоматизированные средства, которые могут гарантировать, то ваши сервисы Windows будут такими же безопасными и будут безотказно работать также, как и в день их установки. Однако, поскольку все организации имеют разные потребности и разные бюджеты, то для них некоторые инструменты могут быть недоступны, например, такие как Microsoft System Center Configuration Manager. Но это не должно мешать IT-отделу использовать свою инфраструктуру для обеспечения правильной работы систем.
Ниже приведены несколько принципов управления, которые можно легко реализовать при любом уровне квалификации и любом бюджете, чтобы помочь вашему IT-отделу контролировать свои серверы Windows и убедиться, что они управляются эффективно и безопасно, а также что они оптимизированы для обеспечения максимально возможной производительности.
Аудит политики авторизации
Все серверы должны быть закрыты для всех локальных и интерактивных входов в систему. Это означает, что никто не должен входить на сервер физически и использовать его, как если бы это был рабочий стол, независимо от его уровня доступа. Такое поведение в какой-то момент в будущем может привести к катастрофе. Помимо контроля интерактивных входов в систему, IT-отдел должен иметь политику аудита и других типов доступа к своим серверам, включая, помимо прочего, доступ к объектам, права доступа и другие изменения, которые могут быть внесены в сервер с авторизаций и без нее.
Централизация журналов событий
Серверы Windows имеет множество возможностей ведения журналов, которые доступны по умолчанию. Существуют настройки, с помощью которых можно расширить или ограничить эти возможности ведения журналов, включая увеличение размеров файлов журналов, независимо от того, перезаписываются ли они или нет, даже в, казалось бы, свойственных для них моментах. Централизация всех этих различных журналов в одном месте упрощает доступ к ним и их просмотр для IT-персонала. Можно воспользоваться каким-либо сервером системных журналов и упростить эти журналы, обозначив категории для определенных записей, например, пометить все неудачные попытки авторизации. Также полезным может быть доступность поиска по журналу и возможность для сервера системного журнала иметь интеграцию с инструментами исправления для устранения любых обнаруженных проблем.
Контрольные и базовые показатели производительности
Мы все знаем, как определить, когда сервер или сервис совсем не работают. Но как ваш IT-отдел определяет, работает ли сервер или сервис должным образом? Вот почему полезно получить контрольные показатели ваших серверов и определить базовые показатели их работы с различными интервалами (пиковые и непиковые). Имея такую информацию, можно определить, как оптимизировать параметры программного и аппаратного обеспечения, как это влияет на работу сервисов в течение дня и какие ресурсы нужно добавить, удалить или просто переместить, чтобы обеспечить минимальный уровень обслуживания. Это также помогает определить вероятное направление атак или индикаторы компрометации при обнаружении аномалий, которые могут негативно отразиться на производительности.
Ограничение удаленного доступа
Как администраторы, все мы любим удаленный доступ, не так ли? Я это знаю, поскольку сам почти каждый день использовал протокол удаленного рабочего стола (RDP – remote desktop protocol) для устранения проблем в удаленных системах на протяжении десятков лет своей карьеры. И несмотря на то, что был пройден долгий путь по усилению безопасности за счет усиленного шифрования, факт остается фактом: RDP (как и любые другие приложения удаленного доступа), если их не контролировать, могут позволить злоумышленникам проникнуть на ваши серверы и, что еще хуже, на сеть компании. К счастью, доступ к серверам можно ограничить несколькими способами, например, настроить правила брандмауэра для ограничения доступа к серверам из удаленных подключений, установить требования для использования VPN-туннелирования для защиты связи между сетевыми ресурсами или настроить проверку подлинности на основе сертификатов с целью проверки того, что подключаемая система – как к, так и от – отвергнута или ей можно доверять.
Настройка сервисов
Прошло уже много времени с тех пор, как большинство ролей и сервисов были включены в Windows Server по умолчанию, независимо от того, нужны они организации или нет. Это, очевидно, представляет собой грубейшую ошибку безопасности и до сих пор остается проблемой, хотя и более контролируемой в современных версиях серверов. Тем не менее, ограничение поверхности атаки ваших серверов служит для устранения потенциальных направлений компрометации, и это хорошо. Оцените потребности вашей среды и зависимостей программного обеспечения и сервисов. Это может помочь разработать план по отключению или удалению ненужных сервисов.
Периодический контроль
Периодический контроль тесно связан с вашей сетью и угрозами безопасности. Вы должны следить за состоянием своего сервера, чтобы выявлять любые потенциальные проблемы до того, как они перерастут в серьезную угрозу для производительности устройств и услуг, которые они предоставляют. Такой контроль помогает IT-специалистам заранее определять, нуждаются ли какие-либо серверы в обновлении или ресурсах, или же отдел должен приобрести дополнительные серверы для добавления в кластер, чтобы, опять же, поддерживать работу сервисов.
Управление Patch-файлами
Эта рекомендация должна быть элементарной для всех, кто занимается IT, независимо от опыта и навыков. Если в этом списке и есть что-то, что нужно всем серверам, так это именно управление patch-файлами, или исправлениями. Настройка процесса обновления операционной системы и программного обеспечения имеет первостепенное значение, от простых обновлений, устраняющих ошибки, до корректирующих исправлений, закрывающих бреши в безопасности. Это на самом деле важно, поскольку в интегрированных средах, где используется несколько продуктов Microsoft, некоторые версии ПО и сервисов просто не будут работать до тех пор, пока базовая ОС Windows Server не будет обновлена до минимального уровня. Так что, имейте это в виду, когда будете планировать цикл тестирования и обновлений.
Технические средства контроля
Независимо от того, внедряете ли вы устройства безопасности, такие как система предотвращения вторжений в сеть, или вашим кластерным серверам нужны балансировщики нагрузки, используйте данные, полученные в ходе мониторинга, и базовые показатели для оценки потребностей различных серверов и предоставляемых ими услуг. Это поможет определить, какие системы требуют дополнительных элементов управления, таких как веб-сервер, на котором будет запущено корпоративное веб-приложение для HR-записи. Установка брандмауэра веб-доступа (WAF – web access firewall) предназначена для выявления известных веб-атак, таких как межсайтовый скриптинг (XSS-атаки) или атаки с использованием структурированного языка запросов (SQL-инъекции) на серверную часть базы данных SQL, которая обеспечивает ее работу.
Блокировка физического доступа
По личному опыту знаю, что большинство организаций, от средних до крупных, осознают, что свои серверы необходимо изолировать из соображений безопасности и ОВК. И это здорово! Однако нехорошо получается, когда небольшие компании просто оставляют свои серверы открытыми вместе с обычными рабочими столами. Это действительно ужасно, потому что в таком случае сервер и связи со сторонними устройствами могут быть подвержены множеству потенциальных атак и угроз. Большая просьба – размещайте серверы в хорошо охраняемых помещениях с достаточной вентиляцией и ограничьте доступ в это помещение, разрешите его только тем, кому это действительно необходимо.
Аварийное восстановление
Резервные копии… резервные копии… резервные копии! Эта тема уже настолько избита, но все же мы здесь. Мы по-прежнему знаем, что некоторые организации не принимают никаких надлежащих шагов для правильного и безопасного резервного копирования своих ценных данных. А когда происходит неизбежное – сервер падает, данные теряются, а помочь некому. Но помочь можно было бы, если бы существовал план аварийного восстановления, который бы определял, какие данные нужно защитить, как, когда и где следует создавать резервные копии, а также документированные шаги по их восстановлению. По сути это очень простой процесс: 3-2-1 – три резервные копии, два отдельных носителя и, по крайней мере, одна копия за пределами рабочего места.
Этот список ни в коем случае не позиционируется как исчерпывающий, и IT-специалисты должны самостоятельно изучить каждый пункт, чтобы определить, какие решения лучше всего подходят для их конкретных потребностей. Помимо этого, крайне желательно, чтобы IT-отдел советовался с высшим руководством по разработке политики проведения регулярных оценок рисков. Это поможет IT-отделу определить, где лучше всего размещать ресурсы (финансовые, технические и аппаратное/программное обеспечение), чтобы они использовались максимально эффективно.
Классический стандарт связующего дерева работает нормально, но в настоящее время для современных сетей он слишком медленный 🐌
В настоящее время мы наблюдаем в наших сетях все больше и больше маршрутизации. Протоколы маршрутизации, такие как OSPF и EIGRP, намного быстрее адаптируются к изменениям в сети, чем spanning-tree. Чтобы не отставать от скорости этих протоколов маршрутизации, была создана еще одна разновидность связующего дерева... (rapid spanning tree) быстрое связующее дерево.
Rapid spanning tree - это не революция spanning tree, а его эволюция. Некоторые вещи были изменены для того, что бы ускорить процесс, но с точки зрения конфигурации - это то же самое, что классический spanning tree . Я называю оригинальное spanning tree "классическим spanning tree".
Азы Rapid spanning tree
Помните состояние портов spanning tree? У нас есть блокирующее, прослушивающее, обучающее и пересылающее состояние порта. Это первое различие между spanning tree и rapid spanning tree. Rapid spanning tree имеет только три состояния портов:
Отбрасывание;
Обучение;
Пересылка.
Вы уже знакомы с состоянием порта в режиме обучения и пересылки, но отбрасывание - это новое состояние порта. В основном он объединяет в себе блокировку и прослушивание состояния порта.
Вот хороший обзор с различными состояниями портов для spanning tree и rapid spanning tree. В таблице отображено состояние портов: активны ли они и узнают ли они MAC-адреса или нет.
Помните ли вы все остальные роли портов, которые есть у spanning tree? Давайте сделаем небольшой обзор, и будет показано отличие от rapid spanning tree.
Коммутатор с лучшим ID моста (priority + MAC -адрес) становится корневым мостом. Другие коммутаторы (non-root) должны найти кратчайший путь стоимости к корневому мосту. Это корневой порт. Здесь нет ничего нового, все это работает аналогично и в rapid spanning tree.
На каждом сегменте может быть только один назначенный порт, иначе мы получим петлю. Порт станет назначенным портом, если он сможет отправить лучший BPDU. Коммутатор А, как корневой мост, всегда будет иметь лучшие порты, поэтому все интерфейсы будут назначены. Интерфейс fa0/16 на коммутаторе B будет назначенным портом в моем примере, потому что он имеет лучший идентификатор моста, чем коммутатор C. Здесь все еще нет ничего нового по сравнению с классическим связующим деревом.
Коммутатор C получает лучшие BPDU на своем интерфейсе fa0/16 от коммутатора B, и таким образом он будет заблокирован. Это альтернативный порт, и это все еще то же самое, что и для rapid spanning tree.
Вот вам новый порт, взгляните на интерфейс fa0/17 коммутатора B. Он называется резервным портом и является новым для rapid spanning tree. Однако вы вряд ли увидите этот порт в производственной сети. Между коммутатором B и коммутатором C был добавлен хаб. Обычно (без промежуточного концентратора) оба fa0/16 и fa0/17 будут назначены портами. Из-за хаба интерфейсы fa0/16 и fa0/17 коммутатора B теперь находятся в одном домене коллизий. Fa0/16 будет выбран в качестве назначенного порта, а fa0/17 станет резервным портом для интерфейса fa0/16. Причина, по которой коммутатор B видит интерфейс fa0/17 в качестве резервного порта, заключается в том, что он получает свои собственные BPDU на интерфейсах fa0/16 и fa0/17 и понимает, что у него есть два соединения с одним и тем же сегментом. Если вы удалите хаб, то fa0/16 и fa0/17 будут назначены портами точно так же, как classic spanning tree.
BPDU отличается для rapid spanning tree. В classic spanning tree поле flags использовало только два бита:
Topology change.;
Topology change acknowledgment.;
Теперь используются все биты поля flags. Роль порта, который создает BPDU, будет добавлена с помощью поля port role, оно имеет следующие параметры:
Unknown;
Alternate / Backup port;
Root port;
Designated port.
Эта BPDU называется BPDUv2. Коммутаторы, работающие со старой версией spanning tree, проигнорируют эту новую версию BPDU. Если вам интересно ... rapid spanning tree и старое spanning tree совместимы! Rapid spanning tree способно работать с коммутаторами, работающими под управлением более старой версии spanning tree.
Что поменялось
BPDU теперь отправляются каждый hello time. Только корневой мост генерирует BPDU в classic spanning tree, и они ретранслировались non-root, если они получали его на свой корневой порт. Rapid spanning tree работает по-разному...все коммутаторы генерируют BPDU каждые две секунды (hello time). Это hello timeпо умолчанию, но вы можете его изменить.
classic spanning tree использует максимального время жизни (20 секунд) для BPDU, прежде чем они будут отброшены. Rapid spanning работает по-другому! BPDU теперь используются в качестве механизма поддержания активности, аналогичного тому, что используют протоколы маршрутизации, такие как OSPF или EIGRP. Если коммутатор пропускает три BPDU от соседнего коммутатора, он будет считать, что подключение к этому коммутатору было потеряно, и он немедленно удалит все MAC-адреса.
Rapid spanning tree будет принимать низшие BPDU. Classic spanning tree игнорирует их. Скорость перехода (время сходимости) является наиболее важной характеристикой rapid spanning tree. Classic spanning tree должно было пройти через состояние прослушивания и обучения, прежде чем оно переведет интерфейс в forwarding состояние, это занимает 30 секунд (таймер по умолчанию). Classic spanning было основано на таймерах.
Rapid spanning не использует таймеры, чтобы решить, может ли интерфейс перейти в forwarding состояние или нет. Для этого он будет использовать переговорный (negotiation) механизм. Чуть позже я покажу вам, как это работает.
Помните ли вы понятие portfast? Если мы включим portfast во время запуска classic spanning tree, оно пропустит состояние прослушивания и обучения и сразу же переведет интерфейс в forwarding состояние. Помимо перевода интерфейса в forwarding состояние, он также не будет генерировать изменения топологии, когда интерфейс переходит в состояние UP или DOWN. Мы все еще используем portfast для rapid spanning tree, но теперь он называется пограничным портом (edge port).
Rapid spanning tree может только очень быстро переводить интерфейсы в forwarding состояние на edge ports (portfast) или интерфейсы типа point-to-point. Он будет смотреть на link type, и есть только два ink types:
Point-to-point (full duplex);
Shared (half duplex).
Обычно мы используем коммутаторы, и все наши интерфейсы настроены как full duplex, rapid spanning tree видит эти интерфейсы как point-to-point. Если мы введем концентратор в нашу сеть, то у нас будет half duplex, который рассматривается как shared interface к rapid spanning-tree.
Позвольте мне описать механизм быстрой синхронизации spanning tree, используя рисунок выше. Коммутатор А сверху - это корневой мост. Коммутатор B, C и D- некорневые мосты (non-root).
Как только появится связь между коммутатором А и коммутатором B, их интерфейсы будут находиться в режиме блокировки. Коммутатор B получит BPDU от коммутатора A, и теперь будет происходить согласование, называемое синхронизацией.
После того, как коммутатор B получил BPDU от корневого моста, он немедленно блокирует все свои порты, не обозначенные в списке non-edge. Non-edge порты - это интерфейсы для подключения к другим коммутаторам, пока edge порты- интерфейсы, настроены как portfast. Как только коммутатор B блокирует свои non-edge порты, связь между коммутатором A и коммутатором B переходит в forwarding состояние.
Коммутатор B также выполнит операцию синхронизации как с коммутатором C, так и с коммутатором D, чтобы они могли быстро перейти в forwarding состояние.
Главное, что следует усвоить здесь, заключается в том, что rapid spanning tree использует этот механизм синхронизации вместо механизма "таймера", который использует classic spanning tree (прослушивание → обучение → forwarding).
Давайте увеличим масштаб механизма синхронизации rapid spanning tree, подробно рассмотрев коммутатор A и коммутатор B. Сначала интерфейсы будут заблокированы до тех пор, пока они не получат BPDU друг от друга. В этот момент коммутатор B поймет, что коммутатор A является корневым мостом, потому что он имеет лучшую информацию BPDU. Механизм синхронизации начнется, потому что коммутатор А установит proposal bit в поле flag BPDU.
Коммутатор B получает предложение от коммутатора A и понимает, что он должен что-то сделать. Он заблокирует все свои non-edge интерфейсы и запустит синхронизацию в направлении коммутатора C и коммутатора D.
Как только коммутатор B перевед свои интерфейсы в режим синхронизации, это позволит коммутатору А узнать об этом, отправив соответствующее соглашение.
Это соглашение является копией proposal BPDU, где proposal bit, был switched off, а agreement bit - switched on. Интерфейс fa0/14 на коммутаторе B теперь перейдет в режим forwarding.
Как только коммутатор A получит соглашение от коммутатора B, он немедленно переведет свой интерфейс fa0/14 в режим пересылки. А как насчет интерфейса fa0 / 16 и fa0 / 19 на коммутаторе B?
Точно такой же механизм синхронизации будет иметь место и сейчас на этих интерфейсах. Коммутатор B направит предложение по своим интерфейсам fa0/16 и fa0/19 в сторону коммутатора C и коммутатора D.
Коммутатор C и коммутатор D не имеют никаких других интерфейсов, поэтому они отправят соглашение обратно на коммутатор B.
Коммутатор B переведет свои интерфейсы fa0/16 и fa0/19 в режим forwarding, и на этом мы закончим. Этот механизм синхронизации - всего лишь пара сообщений, летающих туда-сюда, и очень быстро, это намного быстрее, чем механизм на основе таймера classic spanning tree!
Что еще нового в rapid spanning tree?
Есть еще три вещи:
UplinkFast;
Механизм изменения топологии;
Совместимость с классическим связующим деревом.
Когда вы настраиваете classic spanning tree, вы должны включить UplinkFast самостоятельно. Rapid spanning tree использует UpLinkFast по умолчанию, вам не нужно настраивать его самостоятельно. Когда коммутатор теряет свой корневой порт, он немедленно переводит свой альтернативный порт в forwarding.
Разница заключается в том, что classic spanning tree нуждалось в multicast кадрах для обновления таблиц MAC-адресов всех коммутаторов.
Нам это больше не нужно, потому что механизм изменения топологии для rapid spanning tree отличается. Так что же изменилось в механизме изменения топологии?
С classic spanning tree сбой связи вызвал бы изменение топологии. При использовании rapid spanning tree сбой связи не влияет на изменение топологии. Только non-edge интерфейсы (ведущие к другим коммутаторам), которые переходят в forwarding состояние, рассматриваются как изменение топологии. Как только коммутатор обнаружит изменение топологии это произойдет:
Он начнет изменение топологии при значении таймера, которое в два раза превышает hello time. Это будет сделано для всех назначенных non-edge и корневых портов.;
Он будет очищать MAC-адреса, которые изучаются на этих портах.;
До тех пор, пока происходит изменение топологии, во время активности таймера, он будет устанавливать бит изменения топологии в BPDU, которые отправляются из этих портов. BPDU также будет отправлен из своего корневого порта.;
Когда соседний коммутатор получит этот BPDU с установленным битом изменения топологии, произойдет следующее:
Он очистит все свои MAC-адреса на всех интерфейсах, кроме того, на котором он получил BPDU с включенным изменением топологии.;
Он запустит изменение топологии во время самого таймера и отправит BPDU на все назначенные порты и корневой порт, установив бит изменения топологии.;
Вместо того, чтобы отправлять изменения топологии вплоть до корневого моста, как это делает classic spanning tree, изменение топологии теперь быстро распространяется по всей сети.
И последнее, но не менее важное, давайте поговорим о совместимости. Rapid spanning tree и classic spanning tree совместимы. Однако, когда коммутатор, на котором работает Rapid spanning tree, связывается с коммутатором, на котором работает classic spanning tree, все функции скоростной передачи данных не будут работать!
В приведенном выше примере у меня есть три коммутатора. Между коммутатором A и коммутатором B мы запустим rapid spanning tree. Между коммутатором B и коммутатором C мы вернемся к classic spanning tree.
Во время собеседования на должность специалиста Data Science (науки о данных) интервьюер будет задавать вопросы из различных областей. Например, статистика, программирование, анализ данных, предварительная обработка данных или моделирование. В этой статье собрали для вас самые распространенные вопросы, которые вам могут встретиться на интервью.
Вопрос №1. Что такое логистическая регрессия?
Логистическая регрессия — это популярный алгоритм, который используется для решения задач классификации. В этом вопросе вам нужно объяснить, что такое логистическая регрессия, как она работает, и привести пример проблемы в области науки о данных, которую вы решили с помощью логистической регрессии. Основное применение этого метода связано с задачами бинарной классификации, где зависимая переменная может принимать только два значения, например, «да» или «нет».
Вопрос №2. Зачем нужны метрики оценки? Что такое матрица запутанности?
Модели машинного обучения необходимо оценивать, чтобы проверить их эффективность. Метрики позволяют понять, насколько хорошо модель справляется с поставленной задачей, и помогают сравнивать различные модели между собой.
Матрица запутанности (или матрица неточностей) — это инструмент, который используется для визуализации и оценки качества модели классификации. Она показывает, как часто модель путает различные классы.
Вопрос №3. Объясните разницу между контролируемым и неконтролируемым обучением
Контролируемое и неконтролируемое машинное обучение отличаются по типу используемых данных и механизму обратной связи.
Контролируемое обучение работает с известными и маркированными данными, имеет механизм обратной связи. Включает разные алгоритмы, такие как деревья решений, логистическую регрессию и метод опорных векторов.
Неконтролируемое обучение использует немаркированные данные без обратной связи и включает алгоритмы, такие как кластеризация методом k-средних, иерархическая кластеризация и априорный алгоритм.
Вопрос №4. Объясните, что такое дерево решений?
Дерево решений — это еще один алгоритм контролируемого обучения, который можно использовать для задач регрессии или классификации.
Вопрос №5. Расскажите про кросс-валидацию
Кросс-валидация — это метод оценки качества моделей машинного обучения. Он помогает избежать переобучения и недообучения, обеспечивая более точную и надежную оценку производительности модели.
Вопрос №6. Что такое нормальное распределение?
Нормальное распределение или распределение Гаусса — непрерывное распределение вероятностей в виде симметричной колоколообразной формой. Оно описывает, как часто различные значения случайной величины встречаются в выборке, с пиком в центре, где сосредоточено большинство значений, и уменьшающейся вероятностью по мере удаления от центра. Нормальное распределение определяется двумя параметрами: математическим ожиданием (средним значением) и стандартным отклонением, которое определяет ширину распределения.
Вопрос №7. Объясните метод случайного леса (Random Forest)
Random forest - один из самых популярных алгоритмов машинного обучения. Он использует ансамбль деревьев для решения задач классификации и регрессии. Алгоритм строит множество деревьев решений на случайно выбранных подвыборках обучающих данных и использует разные комбинации признаков для каждого дерева, что повышает разнообразие моделей и снижает риск переобучения.
Вопрос №8. Расскажите, что такое одномерный, двумерный или многомерный анализ
Эти три типа анализов используются для обобщения переменных в наборе данных и помогают получить некоторые выводы. Они различаются по количеству переменных, которые они рассматривают.
Одномерный анализ (или унивариантный) фокусируется на изучении одной переменной, позволяя понять её распределение, центральные тенденции и вариации.
Двумерный анализ (или бивариантный) исследует взаимосвязь между двумя переменными. Он позволяет выявлять корреляции и зависимости, используя методы, такие как корреляционный анализ и диаграммы рассеяния.
Многомерный анализ (или многофакторный) рассматривает более чем две переменные одновременно, что позволяет исследовать сложные взаимосвязи и взаимодействия между ними.
Вопрос №9. Как справиться с недостающими данными?
Некоторые наборы данных могут содержать недостающие данные или значения. Это может вызвать проблемы при обучении моделей машинного обучения.
Важно упомянуть некоторые методы, которые можно использовать для обработки недостающих данных. Вы также можете поделиться своим опытом, как вы справлялись с недостающими данными в своем последнем проекте.
Вопрос №10. В чем преимущества уменьшения размерности?
Снижение размерности — это техника, позволяющая уменьшить количество признаков или переменных в наборе данных.
Преимущества:
Снижаются требования к памяти и времени обработки, что делает модели более эффективными.
Увеличивается скорость и точность моделей машинного обучения.
Визуализация данных становится проще, когда они представлены в низкоразмерных пространствах, таких как 2D или 3D, что облегчает анализ и интерпретацию результатов.
Вопрос №11. Как справиться с выбросами?
Выброс — это точка данных, которая значительно отклоняется от остальных. К примеру, можно использовать визуализацию. Это один из самых простых способов обнаружения выбросов — это использование графиков, таких как ящики с усами (box plots) или диаграммы рассеяния. Эти визуализации позволяют наглядно увидеть отклонения.
Вопрос №12. Что такое ансамблевое обучение?
В машинном обучении ансамблевое обучение — это процесс использования нескольких алгоритмов для получения лучшего прогноза, чем можно было бы получить с помощью одного алгоритма.
Вопрос №13. Объясните, в чем разница между машинным и глубоким обучением?
Машинное обучение и глубокое обучение отличаются по своей природе и подходам. Машинное обучение позволяет обучать компьютерные системы без необходимости их явного программирования. В свою очередь, глубокое обучение является подвидом машинного обучения, который основывается на принципах работы нейронных сетей, аналогичных структуре человеческого мозга. Этот процесс напоминает, как наш мозг решает задачи: он обрабатывает запросы через различные уровни иерархий концепций и связанных вопросов для нахождения ответа.
Вопрос №14. Чем различаются переобучение (Overfitting) и недообучение (Underfitting)?
Переобучение и недообучение — две основные проблемы в процессе машинного обучения.
Переобучение происходит, когда модель слишком хорошо подстраивается под данные, запоминая их шум и особенности, что приводит к высокой ошибке на тестовых данных. Это означает, что модель не может обобщать информацию на новые, невидимые данные.
Недообучение, наоборот, возникает, когда модель не успевает выучить закономерности в данных. Это приводит к высокой ошибке как на обучающей, так и на тестовой выборках. Такое может происходить из-за слишком простой модели или недостаточного количества итераций обучения.
Вопрос №15. Что такое регуляризация и почему она полезна?
Регуляризация — это метод в машинном обучении, который помогает предотвратить переобучение модели, добавляя дополнительные ограничения или штрафы к функции потерь. Она позволяет модели лучше обобщать информацию, используя ранее изученные примеры для работы с новыми, невидимыми данными.
Основные методы регуляризации включают Lasso-регрессию (норма L1) и гребневую регрессию (норма L2), которые помогают игнорировать менее важные признаки и тем самым улучшать качество предсказаний.
Вопрос №16. Расскажите про систематическую ошибку отбора (Selection Bias)
Это тип смещения, возникающий в результате неравномерного выбора участников для исследования или анализа. Она возникает, когда характеристики группы, включенной в исследование, систематически отличаются от тех, кто не участвует, что может привести к искажению результатов и неверным выводам.
Вопрос №17. Объясните разницу между валидационным и тестовым наборами
Валидационный и тестовый наборы — это два разных типа данных, которые используют для оценки моделей машинного обучения. Они выполняют разные функции.
Валидационный набор используется для настройки модели и выбора гиперпараметров. Он помогает определить, как хорошо модель обобщает информацию на новых данных, и позволяет вносить изменения в модель, чтобы улучшить её производительность.
Тестовый набор предназначен для окончательной оценки модели после её обучения и настройки. Он используется для проверки, насколько хорошо модель работает на данных, которые она не видела ранее, и предоставляет объективную оценку её производительности.
Вопрос №18. В чем разница между регрессией и классификацией?
Регрессия и классификация — это контролируемое обучение, а единственное различие заключается в их результатах. Регрессия используется для прогнозирования непрерывных числовых значений. Классификация, с другой стороны, предназначена для предсказания дискретных категорий.
Вопрос №19. Что такое искусственные нейронные сети?
Это математические модели, вдохновленные структурой и функцией человеческого мозга, которые используются для обработки и анализа данных. Нейронные сети способны обучаться на основе данных, выявляя сложные паттерны и зависимости, что делает их эффективными для решения задач, таких как распознавание образов, классификация и прогнозирование.
Вопрос №20. Что такое нормализация? В чем разница между нормализацией и стандартизацией?
Нормализация и стандартизация — это методы, используемые для предварительной обработки данных перед применением алгоритмов машинного обучения.
Разница между нормализацией и стандартизацией заключается в том, что нормализация изменяет данные так, чтобы они находились в заданном диапазоне, тогда как стандартизация преобразует данные так, чтобы они имели нулевое среднее и единичное стандартное отклонение. Стандартизация используется, когда данные имеют нормальное распределение и помогает устранить влияние масштабов различных признаков.
