Kartavec · BlackStoneShadow · Jun 4, 2024 · Jun 10, 2024 · Jun 10, 2024 · Jun 17, 2024
diff --git a/Summary/ReadMe.md b/Summary/ReadMe.md
@@ -0,0 +1,58 @@
+Курсовой проект для курса "Python для Data Science"
+
+Материалы к проекту (файлы):
+train.csv
+test.csv
+
+Задание:
+Используя данные из train.csv, построить
+модель для предсказания цен на недвижимость (квартиры).
+С помощью полученной модели предсказать
+цены для квартир из файла test.csv.
+
+Целевая переменная:
+Price
+
+Метрика:
+R2 - коэффициент детерминации (sklearn.metrics.r2_score)
+
+Сдача проекта:
+1. Прислать в раздел Задания Урока 10 ("Вебинар. Консультация по итоговому проекту")
+ссылку на программу в github (программа должна содержаться в файле Jupyter Notebook 
+с расширением ipynb). (Pull request не нужен, только ссылка ведущая на сам скрипт).
+2. Приложить файл с названием по образцу SShirkin_predictions.csv
+с предсказанными ценами для квартир из test.csv (файл должен содержать два поля: Id, Price).
+В файле с предсказаниями должна быть 5001 строка (шапка + 5000 предсказаний).
+
+Сроки и условия сдачи:
+Дедлайн: сдать проект нужно в течение 72 часов после начала Урока 10 ("Вебинар. Консультация по итоговому проекту").
+Для успешной сдачи должны быть все предсказания (для 5000 квартир) и R2 должен быть больше 0.6.
+При сдаче до дедлайна результат проекта может попасть в топ лучших результатов.
+Повторная сдача и проверка результатов возможны только при условии предыдущей неуспешной сдачи.
+Успешный проект нельзя пересдать в целях повышения результата.
+Проекты, сданные после дедлайна или сданные повторно, не попадают в топ лучших результатов, но можно узнать результат.
+В качестве итогового результата берется первый успешный результат, последующие успешные результаты не учитываются.
+
+Примечание:
+Все файлы csv должны содержать названия полей (header - то есть "шапку"),
+разделитель - запятая. В файлах не должны содержаться индексы из датафрейма.
+
+Рекомендации для файла с кодом (ipynb):
+1. Файл должен содержать заголовки и комментарии
+2. Повторяющиеся операции лучше оформлять в виде функций
+3. Не делать вывод большого количества строк таблиц (5-10 достаточно)
+4. По возможности добавлять графики, описывающие данные (около 3-5)
+5. Добавлять только лучшую модель, то есть не включать в код все варианты решения проекта
+6. Скрипт проекта должен отрабатывать от начала и до конца (от загрузки данных до выгрузки предсказаний)
+7. Весь проект должен быть в одном скрипте (файл ipynb).
+8. При использовании статистик (среднее, медиана и т.д.) в качестве признаков,
+лучше считать их на трейне, и потом на валидационных и тестовых данных не считать 
+статистики заново, а брать их с трейна. Если хватает знаний, можно использовать кросс-валидацию,
+но для сдачи этого проекта достаточно разбить данные из train.csv на train и valid.
+9. Проект должен полностью отрабатывать за разумное время (не больше 10 минут),
+поэтому в финальный вариант лучше не включать GridSearch с перебором 
+большого количества сочетаний параметров.
+10. Допускается применение библиотек Python и моделей машинного обучения,
+которые были в курсе Python для Data Science. Градиентный бустинг изучается
+в последующих курсах, поэтому в этом проекте его применять не следует.
+Самая сложная из допустимых моделей - RandomForestRegressor из sklearn.