多项选择题
根据企业信息进行风险等级预测,有代码如下:import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierimport numpy as npframe = pd.read_csv('C:\\temp\\audit_risk.csv', header=0)y = frame[frame.columns[len(frame.columns) - 1]]frame.drop(frame.columns[len(frame.columns) - 1], axis=1, inplace=True)X = frameX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.9, random_state=1)estimator = KNeighborsClassifier()estimator.fit(X_test, y_test)y_predicted = estimator.predict(X_train)print(np.mean(y_train == y_predicted))
请问下面的说法正确的有:
A、代码虽然可以运行,但是有错误,不能把测试集合作为训练集合使用
B、代码虽然可以运行,而且也有没有很好的理解训练集合和测试集合,但是结果其实是正确的
C、代码有错误,不可能正确运行
D、代码有错误,但是可以运行,但是过少的训练集合会导致训练效果非常差
E、训练集合和测试集合是人为的划分,只要保证训练的数据量大于测试的数量,问题不是很大,结果也没本质的区别,因此上述代码除了增加阅读难度外,其实效果正确