Introduction Au Machine Learning : Comprendre La Régression Linéaire

Le problème le plus simple et le plus ancien en machine learning est la régression linéaire. Après avoir expliquer le principe théorique, on verra comment faire de la régression en pratique avec Python. Vous verrez c'est très simple. Je ne sais même pas si on peut parler de machine learning, mais bon ça fait plus stylé 😎 Mais attention! Malgré sa simplicité le modèle de régression est encore très utilisé pour des applications concrètes. C'est pour cela que c'est l'un des premiers modèles que l'on apprend en statistiques. Fonctionnement de la régression linéaire Le principe de la régression linéaire est très simple. On a un ensemble de points et on cherche la droite qui correspond le mieux à ce nuage de points. C'est donc simplement un travail d'optimisation que l'on doit faire. En dimension 2, le problème de régression linéaire a l'avantage d'être facilement visualisable. Voilà ce que ça donne. Illustration de la régression linéaire en dimension 2 (Source: Towards data science) La régression linéaire est souvent utiliser comme un moyen de détecter une éventuelle dépendance linéaire entre deux variables.

Régression linéaire python 3
Regression linéaire python

Régression Linéaire Python 3

Nous présentons le résultat directement ici: où 'représente la transposée de la matrice tandis que -1 représente l'inverse de la matrice. Connaissant les estimations des moindres carrés, b ', le modèle de régression linéaire multiple peut maintenant être estimé comme: où y 'est le vecteur de réponse estimé. Remarque: La dérivation complète pour obtenir les estimations des moindres carrés dans la régression linéaire multiple peut être trouvée ici. Vous trouverez ci-dessous la mise en œuvre de la technique de régression linéaire multiple sur l'ensemble de données de tarification des maisons de Boston à l'aide de Scikit-learn. from sklearn import datasets, linear_model, metrics boston = datasets. load_boston(return_X_y = False) X = y = from del_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0. 4, random_state = 1) reg = nearRegression() (X_train, y_train) print ( 'Coefficients: \n', ef_) print ( 'Variance score: {}'. format ((X_test, y_test))) ( 'fivethirtyeight') tter(edict(X_train), edict(X_train) - y_train, color = "green", s = 10, label = 'Train data') tter(edict(X_test), edict(X_test) - y_test, color = "blue", s = 10, label = 'Test data') (y = 0, xmin = 0, xmax = 50, linewidth = 2) (loc = 'upper right') ( "Residual errors") La sortie du programme ci-dessus ressemble à ceci: Coefficients: [-8.

Regression Linéaire Python

La qualité de prédiction est généralement mesurée avec le RMSE (racine de la somme des carrés des erreurs). Les données et le modèle Dans le cadre de cet exemple, on va utiliser des données simples reliant un nombre de ventes et l'investissement dans différents médias. Le modèle de régression multiple a une variable dépendante y mesurant le nombre de ventes et 3 variables indépendantes mesurant les investissements en terme de publicité par média. Téléchargez les données: Le chargement des données et des bibliothèques S'agissant de données au format csv, il est simple de les importer dans R. Nous utilisont la fonction read_csv2 de R. Voici le code pour importer les données: ventes = ("") summary(ventes) Python n'a pas nativement de fonction pour importer des données au format csv. Nous allons donc utiliser la bibliothèque pandas afin d'importer les données. Cette bibliothèque est comprise dans Anaconda. Nous utiliserons aussi numpy et matplotlib pour les visualisations. Voici donc le code pour importer les données: import numpy as np import pandas as pd import as plt #importer les données donnees = ad_csv('', index_col=0) () L'application du modèle de régression linéaire Nous créons un objet reg_ventes issu du modèle linéaire lm() (la régression linéaire est un cas particulier du modèle linéaire général).

Vérifiez votre travail Voici un exemple pour vous permettre de vérifier votre travail!

July 31, 2024, 8:35 pm