Что такое Machine Learning

Machine Learning — это область искусственного интеллекта, которая позволяет компьютерам учиться на данных. scikit-learn — основная библиотека ML в Python.

▸Типы ML

Supervised Learning — обучение с учителем (есть правильные ответы)

Unsupervised Learning — обучение без учителя (нет правильных ответов)

Reinforcement Learning — обучение с подкреплением

Регрессия

▸Линейная регрессия

python

1from sklearn.linear_model import LinearRegression
2from sklearn.model_selection import train_test_split
3from sklearn.metrics import mean_squared_error, r2_score
4import numpy as np
5
6# Данные
7X = np.array([[1], [2], [3], [4], [5]])
8y = np.array([2, 4, 5, 4, 5])
9
10# Разделение на train/test
11X_train, X_test, y_train, y_test = train_test_split(
12    X, y, test_size=0.2, random_state=42
13)
14
15# Обучение модели
16model = LinearRegression()
17model.fit(X_train, y_train)
18
19# Предсказание
20y_pred = model.predict(X_test)
21
22# Оценка
23mse = mean_squared_error(y_test, y_pred)
24r2 = r2_score(y_test, y_pred)
25print(f"MSE: {mse}, R2: {r2}")

▸Полиномиальная регрессия

python

1from sklearn.preprocessing import PolynomialFeatures
2from sklearn.pipeline import make_pipeline
3
4model = make_pipeline(
5    PolynomialFeatures(degree=2),
6    LinearRegression()
7)
8model.fit(X_train, y_train)

Классификация

▸Логистическая регрессия

python

1from sklearn.linear_model import LogisticRegression
2from sklearn.metrics import accuracy_score, classification_report
3
4# Данные
5X = [[1, 2], [2, 3], [3, 4], [4, 5]]
6y = [0, 0, 1, 1]
7
8# Модель
9model = LogisticRegression()
10model.fit(X_train, y_train)
11
12# Предсказание
13y_pred = model.predict(X_test)
14
15# Оценка
16accuracy = accuracy_score(y_test, y_pred)
17print(classification_report(y_test, y_pred))

▸Random Forest

python

1from sklearn.ensemble import RandomForestClassifier
2
3model = RandomForestClassifier(n_estimators=100, random_state=42)
4model.fit(X_train, y_train)
5
6# Важность признаков
7importances = model.feature_importances_

Кластеризация

▸K-Means

python

1from sklearn.cluster import KMeans
2from sklearn.metrics import silhouette_score
3
4# Данные
5X = [[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]]
6
7# Кластеризация
8kmeans = KMeans(n_clusters=2, random_state=42)
9labels = kmeans.fit_predict(X)
10
11# Оценка
12silhouette = silhouette_score(X, labels)
13print(f"Silhouette Score: {silhouette}")

Предобработка данных

▸Масштабирование

python

1from sklearn.preprocessing import StandardScaler, MinMaxScaler
2
3# StandardScaler (среднее=0, std=1)
4scaler = StandardScaler()
5X_scaled = scaler.fit_transform(X)
6
7# MinMaxScaler (от 0 до 1)
8scaler = MinMaxScaler()
9X_scaled = scaler.fit_transform(X)

▸Кодирование категорий

python

1from sklearn.preprocessing import LabelEncoder, OneHotEncoder
2
3# Label Encoding
4le = LabelEncoder()
5y_encoded = le.fit_transform(['cat', 'dog', 'bird'])
6
7# One-Hot Encoding
8ohe = OneHotEncoder()
9X_encoded = ohe.fit_transform([['cat'], ['dog'], ['bird']])

▸Заполнение пропусков

python

1from sklearn.impute import SimpleImputer
2
3# Заполнение средним
4imputer = SimpleImputer(strategy='mean')
5X_imputed = imputer.fit_transform(X)
6
7# Заполнение медианой
8imputer = SimpleImputer(strategy='median')

Pipeline

python

1from sklearn.pipeline import Pipeline
2from sklearn.preprocessing import StandardScaler
3from sklearn.linear_model import LogisticRegression
4
5# Создание pipeline
6pipeline = Pipeline([
7    ('scaler', StandardScaler()),
8    ('classifier', LogisticRegression())
9])
10
11# Обучение
12pipeline.fit(X_train, y_train)
13
14# Предсказание
15y_pred = pipeline.predict(X_test)

Кросс-валидация

python

1from sklearn.model_selection import cross_val_score, GridSearchCV
2
3# Кросс-валидация
4scores = cross_val_score(model, X, y, cv=5)
5print(f"Mean accuracy: {scores.mean():.2f} (+/- {scores.std():.2f})")
6
7# Grid Search
8param_grid = {
9    'n_estimators': [100, 200],
10    'max_depth': [None, 10, 20]
11}
12grid_search = GridSearchCV(
13    RandomForestClassifier(),
14    param_grid,
15    cv=5,
16    scoring='accuracy'
17)
18grid_search.fit(X_train, y_train)
19print(f"Best params: {grid_search.best_params_}")

Сохранение моделей

python

1import joblib
2
3# Сохранение
4joblib.dump(model, 'model.pkl')
5
6# Загрузка
7model = joblib.load('model.pkl')

Заключение

scikit-learn — основная библиотека ML в Python. Понимание основных алгоритмов, предобработки данных и оценки моделей критически важно для работы с данными. На собеседовании спрашивают про типы ML, метрики оценки, переобучение и кросс-валидацию.

#python#machine-learning#scikit-learn#ml#data-science

Python≈ 15 мин чтения24 марта 2024 г.

Machine Learning с scikit-learn: основы

Введение в ML с scikit-learn: регрессия, классификация, кластеризация, оценка моделей.

Что такое Machine Learning

▸Типы ML

Supervised Learning — обучение с учителем (есть правильные ответы)

Unsupervised Learning — обучение без учителя (нет правильных ответов)

Reinforcement Learning — обучение с подкреплением

Регрессия

▸Линейная регрессия

python

1from sklearn.linear_model import LinearRegression
2from sklearn.model_selection import train_test_split
3from sklearn.metrics import mean_squared_error, r2_score
4import numpy as np
5
6# Данные
7X = np.array([[1], [2], [3], [4], [5]])
8y = np.array([2, 4, 5, 4, 5])
9
10# Разделение на train/test
11X_train, X_test, y_train, y_test = train_test_split(
12    X, y, test_size=0.2, random_state=42
13)
14
15# Обучение модели
16model = LinearRegression()
17model.fit(X_train, y_train)
18
19# Предсказание
20y_pred = model.predict(X_test)
21
22# Оценка
23mse = mean_squared_error(y_test, y_pred)
24r2 = r2_score(y_test, y_pred)
25print(f"MSE: {mse}, R2: {r2}")

▸Полиномиальная регрессия

python

1from sklearn.preprocessing import PolynomialFeatures
2from sklearn.pipeline import make_pipeline
3
4model = make_pipeline(
5    PolynomialFeatures(degree=2),
6    LinearRegression()
7)
8model.fit(X_train, y_train)

Классификация

▸Логистическая регрессия

python

1from sklearn.linear_model import LogisticRegression
2from sklearn.metrics import accuracy_score, classification_report
3
4# Данные
5X = [[1, 2], [2, 3], [3, 4], [4, 5]]
6y = [0, 0, 1, 1]
7
8# Модель
9model = LogisticRegression()
10model.fit(X_train, y_train)
11
12# Предсказание
13y_pred = model.predict(X_test)
14
15# Оценка
16accuracy = accuracy_score(y_test, y_pred)
17print(classification_report(y_test, y_pred))

▸Random Forest

python

1from sklearn.ensemble import RandomForestClassifier
2
3model = RandomForestClassifier(n_estimators=100, random_state=42)
4model.fit(X_train, y_train)
5
6# Важность признаков
7importances = model.feature_importances_

Кластеризация

▸K-Means

python

1from sklearn.cluster import KMeans
2from sklearn.metrics import silhouette_score
3
4# Данные
5X = [[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]]
6
7# Кластеризация
8kmeans = KMeans(n_clusters=2, random_state=42)
9labels = kmeans.fit_predict(X)
10
11# Оценка
12silhouette = silhouette_score(X, labels)
13print(f"Silhouette Score: {silhouette}")

Предобработка данных

▸Масштабирование

python

1from sklearn.preprocessing import StandardScaler, MinMaxScaler
2
3# StandardScaler (среднее=0, std=1)
4scaler = StandardScaler()
5X_scaled = scaler.fit_transform(X)
6
7# MinMaxScaler (от 0 до 1)
8scaler = MinMaxScaler()
9X_scaled = scaler.fit_transform(X)

▸Кодирование категорий

python

1from sklearn.preprocessing import LabelEncoder, OneHotEncoder
2
3# Label Encoding
4le = LabelEncoder()
5y_encoded = le.fit_transform(['cat', 'dog', 'bird'])
6
7# One-Hot Encoding
8ohe = OneHotEncoder()
9X_encoded = ohe.fit_transform([['cat'], ['dog'], ['bird']])

▸Заполнение пропусков

python

1from sklearn.impute import SimpleImputer
2
3# Заполнение средним
4imputer = SimpleImputer(strategy='mean')
5X_imputed = imputer.fit_transform(X)
6
7# Заполнение медианой
8imputer = SimpleImputer(strategy='median')

Pipeline

python

1from sklearn.pipeline import Pipeline
2from sklearn.preprocessing import StandardScaler
3from sklearn.linear_model import LogisticRegression
4
5# Создание pipeline
6pipeline = Pipeline([
7    ('scaler', StandardScaler()),
8    ('classifier', LogisticRegression())
9])
10
11# Обучение
12pipeline.fit(X_train, y_train)
13
14# Предсказание
15y_pred = pipeline.predict(X_test)

Кросс-валидация

python

1from sklearn.model_selection import cross_val_score, GridSearchCV
2
3# Кросс-валидация
4scores = cross_val_score(model, X, y, cv=5)
5print(f"Mean accuracy: {scores.mean():.2f} (+/- {scores.std():.2f})")
6
7# Grid Search
8param_grid = {
9    'n_estimators': [100, 200],
10    'max_depth': [None, 10, 20]
11}
12grid_search = GridSearchCV(
13    RandomForestClassifier(),
14    param_grid,
15    cv=5,
16    scoring='accuracy'
17)
18grid_search.fit(X_train, y_train)
19print(f"Best params: {grid_search.best_params_}")

Сохранение моделей

python

1import joblib
2
3# Сохранение
4joblib.dump(model, 'model.pkl')
5
6# Загрузка
7model = joblib.load('model.pkl')

Заключение

#python#machine-learning#scikit-learn#ml#data-science

🛠

Попробуйте наш инструмент

Закрепите знания с помощью интерактивных упражнений

Перейти →

Что такое Machine Learning

▸Типы ML

Регрессия

▸Линейная регрессия

▸Полиномиальная регрессия

Классификация

▸Логистическая регрессия

▸Random Forest

Кластеризация

▸K-Means

Предобработка данных

▸Масштабирование

▸Кодирование категорий

▸Заполнение пропусков

Pipeline

Кросс-валидация

Сохранение моделей

Заключение

Попробуйте наш инструмент

Похожие статьи

React: полное руководство для собеседования

JavaScript: глубокий анализ для собеседования

Node.js и backend: что спрашивают на собеседовании

DevOps: от основ до продвинутого уровня

Что такое Machine Learning

▸Типы ML

Регрессия

▸Линейная регрессия

▸Полиномиальная регрессия

Классификация

▸Логистическая регрессия

▸Random Forest

Кластеризация

▸K-Means

Предобработка данных

▸Масштабирование

▸Кодирование категорий

▸Заполнение пропусков

Pipeline

Кросс-валидация

Сохранение моделей

Заключение

Попробуйте наш инструмент

Похожие статьи

React: полное руководство для собеседования

JavaScript: глубокий анализ для собеседования

Node.js и backend: что спрашивают на собеседовании

DevOps: от основ до продвинутого уровня