首页 > sklearn 阅读数:35

scikit-learn第一个机器学习程序

下面以银行审批客户贷款申请为例,学习如何运用 scikit-learn 库的决策树模型来预测是否批准客户的贷款申请。

【例 1】现有一个“货款申请.xls”文件,该文件中存储了申请贷款人的“年龄”“是否有工作”“批准”等3列信息,其中,“年龄”列分为青年、中年和老年共 3 种情况,分别用数字 0、1、2 表示;“是否有工作”列分为“无工作”和“有工作”两种情况,分别用数字 0、1 表示;“批准”列的取值是根据决策树模型确定的,如果批准用数字“1”表示,不批准用数字“0”表示。要求用机器学习方法来预测一个无工作青年人和一个有工作老年人的贷款申请是否能获得批准。

其示例代码test 1.py如下。
# -*- coding: utf-8 -*-
import pandas as pd
#导入sklearn库中的决策树tree
from sklearn import tree
#导入数据集
df = pd.read_excel('d:\data\贷款申请表.xls',sheet_name='loans')
print(df)

#取特征(features),标签(labels)
feature=df.loc[0:,'年龄':'工作']
labels =df['批准']
print(feature)
print(labels)
#创建决策树对象
clf = tree.DecisionTreeClassifier()

clf = clf.fit(feature,labels)
#预测无工作青年人和有工作老年人申请贷款能否批准
print('无工作青年人',clf.predict([[0,0]]))
print('有工作老年人',clf.predict([[2,1]]))

运行结果如下。

无工作青年人 [0]
有工作老年人 [1]