Теория и методология
Поисковые методы
Регрессия
Сетевой анализ
100

Дайте определение случайной переменной

1. Результат многократных экспериментов в неизменных условиях

2. Переменная, значение которой нельзя заранее предсказать

3. Переменная, содержащая детерминированную и стохастическую компоненты

100

Какой метод позволяет снижать размерность данных?

Метод главных компонент.

100

В линейной регрессии получен коэффициент 2 с p-value 0.05. Что это говорит о связи между зависимой и независимой переменной?

Прямая значимая связь.

100

Назовите два способа задать граф (иначе говоря, два формата данных).

Таблица рёбер и матрица соседства.

200

Назовите три ключевых параметра распределения

Центр, разброс, форма (закон)

200

Назовите хотя бы две разных меры расстояния в кластер-анализе

Евклидово, взвешенное евклидово, Пирсона, Чебышёва, процент несогласия...

200

Расшифруйте аббревиатуру BLUE

Best Linear Unbiased Estimator

200

Мера betweenness centrality обозначает...

То, насколько вершина служит связью между разными частями графа.

300

Как соотносятся между собой кумулятивная функция распределения и функция плотности вероятности?

Как производная и интеграл.

300

Как определить, сколько главных компонент оставить?

По диаграмме осыпи

300

Перечислите способы устранения нелинейности связи между переменными

Лестница Тьюки, трансформации Бокса-Кокса (возведение в степень, логарифмирование), удаление выбросов

300

Что такое "плотность сети"?

Отношение реального числа рёбер к максимально возможному

400

Опишите отличия в понимании генеральной совокупности прикладной статистикой и математической статистикой.

Прикладная статистика: вся популяция.

Матстат: все возможные результаты эксперимента в тех же условиях.

400

Назовите хотя бы три алгоритма агломерации объектов в кластер-анализе и кратко опишите их различия

Ближайший сосед, дальний сосед, центроид, метод Варда

400

Назовите предпосылки OLS-регрессии.

Линейная связь, нормальное распределение, отсутствие автокорреляции остатков, гомоскедастичность, непрерывность зависимой переменной.

400

Что такое "preferential attachment"?

Принцип, согласно которому в естественных графах новые вершины присоединяются к наиболее центральным.

500

Опишите основные принципы и ключевые понятия экспериментальной методологии.

Контрольная группа, тритмент-группа, average treatment effect, изоляция тритмент-эффекта

500

Объясните, что такое chain-linking phenomenon при агломерации методом ближайшего соседа.

Точки присоединяются к кластерам по одной, из-за чего не получается увидеть структуру данных.

500
Назовите основные инструменты диагностики линейной регрессии и принципы их интерпретации.

Parameters of fit: R^2, p-values

gvlma: линейность, нормальность, непрерывность, гомоскедастичность

plot: scale-location, residuals vs. fitted, leverage (Cook's distance)


500

Что такое ассортативность?

Корреляция между парами связанных вершин, рассчитанная либо на основании центральности, либо на основании взаимности, либо на основании других характеристик узлов.