내용 |
boston 집값 데이터셋은 scikit-learn 버전 1.2부터 제거되었습니다.
이 코드를 대신하려면 다음처럼 직접 보스턴 데이터셋을 불러오거나...
import pandas as pd
import numpy as np
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
X = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2] ])
y = raw_df.values[1::2, 2]
캘리포니아 집값 데이터셋을 사용할 수 있습니다.
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()
X, y = housing.data, housing.target
또는 다음처럼 statsmodels 패키지를 이용해서 불러올 수 있습니다.
import statsmodels.api as sm
Boston = sm.datasets.get_rdataset("Boston", package="MASS")
X = Boston.data.iloc[:, :-1]
y = Boston.data.iloc[:, -1]
from sklearn.model_selection import train_test_split
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.3)
|