Дайте определение случайной переменной
1. Результат многократных экспериментов в неизменных условиях
2. Переменная, значение которой нельзя заранее предсказать
3. Переменная, содержащая детерминированную и стохастическую компоненты
Какой метод позволяет снижать размерность данных?
Метод главных компонент.
В линейной регрессии получен коэффициент 2 с p-value 0.05. Что это говорит о связи между зависимой и независимой переменной?
Прямая значимая связь.
Назовите два способа задать граф (иначе говоря, два формата данных).
Таблица рёбер и матрица соседства.
Назовите три ключевых параметра распределения
Центр, разброс, форма (закон)
Назовите хотя бы две разных меры расстояния в кластер-анализе
Евклидово, взвешенное евклидово, Пирсона, Чебышёва, процент несогласия...
Расшифруйте аббревиатуру BLUE
Best Linear Unbiased Estimator
Мера betweenness centrality обозначает...
То, насколько вершина служит связью между разными частями графа.
Как соотносятся между собой кумулятивная функция распределения и функция плотности вероятности?
Как производная и интеграл.
Как определить, сколько главных компонент оставить?
По диаграмме осыпи
Перечислите способы устранения нелинейности связи между переменными
Лестница Тьюки, трансформации Бокса-Кокса (возведение в степень, логарифмирование), удаление выбросов
Что такое "плотность сети"?
Отношение реального числа рёбер к максимально возможному
Опишите отличия в понимании генеральной совокупности прикладной статистикой и математической статистикой.
Прикладная статистика: вся популяция.
Матстат: все возможные результаты эксперимента в тех же условиях.
Назовите хотя бы три алгоритма агломерации объектов в кластер-анализе и кратко опишите их различия
Ближайший сосед, дальний сосед, центроид, метод Варда
Назовите предпосылки OLS-регрессии.
Линейная связь, нормальное распределение, отсутствие автокорреляции остатков, гомоскедастичность, непрерывность зависимой переменной.
Что такое "preferential attachment"?
Принцип, согласно которому в естественных графах новые вершины присоединяются к наиболее центральным.
Опишите основные принципы и ключевые понятия экспериментальной методологии.
Контрольная группа, тритмент-группа, average treatment effect, изоляция тритмент-эффекта
Объясните, что такое chain-linking phenomenon при агломерации методом ближайшего соседа.
Точки присоединяются к кластерам по одной, из-за чего не получается увидеть структуру данных.
Parameters of fit: R^2, p-values
gvlma: линейность, нормальность, непрерывность, гомоскедастичность
plot: scale-location, residuals vs. fitted, leverage (Cook's distance)
Что такое ассортативность?