[关闭]
@rianusr 2019-08-13T02:07:29.000000Z 字数 488 阅读 1888

机器学习02:监督学习03:逻辑回归

06-机器学习


1 提出问题

- 分类问题:预测的目标是类别值
- 回归问题:预测的目标是连续值
问题:为什么要用“回归”的方法来解决“分类”的问题?

image_1ce8o7p3o1uk218aj13o2sdc1q02j.png-296.1kB
image_1ce8oa61mg57thm1pra1kjur1s30.png-157.3kB
线性函数数不太适合拟合离散性变量(0-1型变量)
image_1ce8nu0e91om5189poaf15id1feq9.png-162.7kB
设想这样一种曲线sigmoid函数来拟合离散变量值
image_1ce8oe1nh8oi4h18221raomos3d.png-196kB
逻辑回归是一种广义的线性回归模型,P的logit变换
image_1ce8o2idm2mh1r331rfgp4mvfa26.png-208.7kB
image_1ce8ojnavcqp1flnk9gdookl53q.png-99.3kB

2.逻辑回归模型参数求解

2.1模型的构成

3 逻辑回归的正则化方法:

3.1过拟合产生的原因:

- 特征数量过大(参数过多)
- 正则化方法:砍掉一些参数

image_1ce8pqg58ce21coh1qrb1oda1uhtp.png-325.2kB
image_1ce8pqtjtt2gg1r1mqp1rimrtq16.png-91.1kB
image_1ce8prsmf1rvp1b4j1ocs3ngi9h1j.png-254.7kB

3.2 逻辑回归代码:关键参数

image_1cea83brbu35q6f1h0gh31cnq9.png-411.3kB
image_1cea85u13ldl1e4o1u73v60nnom.png-271.7kB
image_1cea86i78gr332a15il82liv113.png-346.9kB
image_1cea88e7t14iq1t0r1d2afb2ndm1g.png-255.5kB
image_1cea8hb3p1959911brq299lf41t.png-290.1kB
image_1cea8ja681upk118mu4gkjt1g702a.png-281.2kB
image_1cea8m3n3jr2j0g95n1pce1hsb2n.png-280.3kB

3.3 逻辑回归模型的自动化调参

image_1cea8qt7orj5c8s1o3618u3cvk34.png-291.4kB
代码演示:
image_1cea8uhnh1cdbs1s68nc63j5h3h.png-182.9kB
image_1cea8vr4bhrp63huhn1mm96ft3u.png-145.8kB
自动调参,就是给定一定组合的参数,自动选择一个
image_1cea92dse1hsfe7f1spab8f674b.png-61.5kB

逻辑回归中的多分类问题

image_1cea963vmg4i1mi81kp01uhq1obe4o.png-156.1kB
多分类问题转为二分类问题
image_1cea9b0eu1supva9l71psk47i55.png-225.2kB
有多少个类就有多少个二分类模型,然后:
image_1cea9crv11h2fi7suia1muv1mv35i.png-168.1kB
机器学习的一个经典问题:
image_1cea9elvn196i14a218tj1dqdh4d5v.png-387.5kB
代码演示:
image_1cea9fvsiqjlaha1ve31beg6st6c.png-140.6kB
image_1cea9k3ju17ql5lrm4ujh51ii76p.png-101.7kB
image_1cea9kkq71l6niasbk4a771ige76.png-20.7kB

类别型特征变量的转换

image_1cea9mrg71scm8mj1qp15u210gb7j.png-290.7kB
image_1cea9nc5oujp1m5d12g6t4utes80.png-92.5kB
one-hot编码
image_1cea9pg9ub4s5984rm19k5dne8d.png-226.2kB
image_1cea9sjhs33b1fd81e07tss11gn8q.png-56.9kB
结果:
image_1cea9tm0mlp117furos14bun9297.png-62.7kB
image_1cea9vcj3h64m4pg8mmi21pi39k.png-128.9kB

连续型特征变量的转换

image_1ceaa2bs71i2a1d3k1fqv1b7578ba1.png-229.6kB
实际情况下并不是一直线性相关
image_1ceaa49411mtm16br5tqe1512mrae.png-127.1kB
image_1ceaa63lobrp19rafo81efc1gpcar.png-120.6kB
代码演示:
image_1ceaa79h913c5188b18gn71gq9nb8.png-107.9kB
image_1ceaa91bj5iuu99iu513fr1e5hbl.png-45.7kB

特征变量的组合

image_1ceaaaj8f8c01cro1tm6197018kic2.png-134.9kB
image_1ceaadbpl1am117nu1t0th501hincf.png-235.4kB
总结:
image_1ceaae7te1ms11pr71l541f4emfhcs.png-123.8kB
image_1ceaafonv11t4cel1j6n1n0n51sd9.png-79.7kB

预测概率转换为分数

image_1ceabdtgupq3cp319risrqrnadm.png-155.6kB
image_1ceabhbfr1cd8181d165316k91msej.png-183.9kB
image_1ceabk51k13crgs4gdd1679v1ff0.png-154.2kB
总结:
image_1ceabr86b1e8l1cim17idh161lv0fd.png-290.5kB

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注