@bergus 2015-10-24T12:08:49.000000Z 字数 1160 阅读 2005

机器学习之K近邻算法（KNN）

python 算法 KNN 机械学习

苛求真理的欲望让我想要了解算法的本质，于是我开始了机械学习的算法之旅

from numpy import *  
import operator  
from collections import Counter
#KNN需要测试集，训练集，标签和k值
#测试集：你需要测试的数据
#训练集：给定的标准数据
#标签：每个标准数据的类别
#k值 ：测试集和训练集相比较下前K个最相识的训练集的值
# 用KNN算法找出测试集的类别
#1，求出已知类别训练集中的点与当前点之间的距离
#2，对所求距离以此递增排序
#3，选取与当前点距离最小的k个点
#4，确定前k个点所在类别的出现频率
#5，返回前k个点出现频率最高的类别作为当前点的预测分类
def kNNClassify(testSet, trainSet, labels, k=3):  
    rows = trainSet.shape[0] #shape[0]得到训练集的行数
    #求距离
    distSet = tile(testSet, (rows, 1)) - trainSet #得到距离矩阵
    distance = sum(distSet ** 2 , axis = 1) ** 0.5 # 求出距离
    #排序     
    #得到排序后数据原位置的下标，排序后位置是不变的 
    #从而使得排序后的结果和trainSet的标签一一对应
    #然后就可以通过排序结果反向得到标签值
    sortedDistIndices = argsort(distance) 
    #选取k个最小值 
    classCount = Counter()# 保存类别
    #记录k值内相同标签出现的次数
    [classCount.update([labels[sortedDistIndices[i]]]) for i in xrange(k)]
    ## 得到出现次数最多的标签类别 
    return sorted(classCount.iteritems(), key=lambda d:d[1], reverse = True )[0][0]
if __name__ == '__main__':
    #然后我们在命令行中测试
    trainSet = array([
            [1.0, 0.9], 
            [1.0, 1.0], 
            [0.1, 0.2], 
            [0.0, 0.1]])  
    labels = ['A', 'A', 'B','B'] # 4个标签,2种类别
    testSet = array([1.2, 1.0])  
    label = kNNClassify(testSet, trainSet, labels, k=3)  
    print "输入:", testSet, "分类: ", label  
    testSet = array([0.1, 0.3])  
    label = kNNClassify(testSet, trainSet, labels, k=3) 
    print "输入:", testSet, "分类: ", label

输入: [ 1.2  1. ] 分类:  A
输入: [ 0.1  0.3] 分类:  B

内容目录

- - API 2
  - 活动报名 APIs v1
  - API 设计文档
- - API设计 2
  - HTTP API 设计指南
  - REST API设计最佳实践
- - API设计软件 1
  - API BluePrint
- - Cmd 1
  - python Cmd实例之网络爬虫应用
- - Dockerfile 2
  - Docker 2 -- 关于Dockerfile
  - dockerfile
- - KNN 1
  - 机器学习之K近邻算法（KNN）
- - KPI 1
  - KPI绩效考核为何在国内不管用？
- - Makefile 1
  - Sphinx Makefile
- - Sphinx 1
  - Sphinx Makefile
- - StringIO 1
  - python中的StringIO模块
- - ZipFile 1
  - python笔记之ZipFile模块
- - blog 1
  - zybuluo 博客平台文档
- - bools.py 1
  - python三元表达式
- - cmd 1
  - python笔记之Cmd模块
- - cmd模块 1
  - python cmd模块练习
- - consul 4
  - 测试环境使用方案
  - 17mei Docker Consul 运行服务注册查看所有当前服务配置
  - consul 简单教程
  - consul 简单教程
- - django 1
  - django settings最佳配置
- - docker 13
  - docker微服务最佳实践
  - 数据库操作
  - 测试环境使用方案
  - Docker持续交付说明
  - Docker 所有种类容器运行方法
  - postgresql数据库
  - docker MongoDB搭建
  - docker平台搭
  - docker备份
  - 搭建基于Docker的MongoDB复制集群环境
  - docker安装
  - Ｄocker 后台进程参数
  - Docker 2 -- 关于Dockerfile
- - docker-machine 1
  - docker-machine
- - dtcp 1
  - dtcp格式定义
- - firefox 1
  - 火狐插件推荐
- - flask 3
  - flask-sqlalchemy 关系表简单操作
  - python表单校验摘录
  - flask 后台表单验证模块
- - gbk 1
  - UNICODE,GBK,UTF-8区别
- - github 1
  - github 资源
- - golang 1
  - golang 代理服务器
- - groovy 1
  - groovy 弹出菜单
- - hashlib 1
  - 快速入门
- - http 1
  - HTTP请求错误大全
- - ipc 1
  - 进程间通信IPC、LPC、RPC
- - itertools 2
  - python模块之itertools模块
  - python笔记之itertools模块
- - javascript 1
  - 修改jquery的remote让前段显示服务器错误信息
- - jquery 1
  - 修改jquery的remote让前段显示服务器错误信息
- - json 2
  - pjson
  - Python处理JSON
- - kity 2
  - Kity 动画 API 设计
  - Kity Graphic Layer API
- - leveldb 1
  - python leveldb 文档
- - linux 1
  - 利用 ssh 的用户配置文件 config 管理 ssh 会话
- - lpc 1
  - 进程间通信IPC、LPC、RPC
- - mac 1
  - mac 使用手册
- - mesos 1
  - mesos集群搭建
- - mht 1
  - 将一个网络链接保存为mht格式的文件
- - mime 1
  - 将一个网络链接保存为mht格式的文件
- - mongodb 4
  - docker MongoDB搭建
  - mongodb操作
  - 搭建基于Docker的MongoDB复制集群环境
  - mongodb3 权限认证问题总结
- - nodejs 1
  - webpack配置
- - nsq 1
  - 基于nsq的rpc探索和远程代码执行demo
- - openvpn 1
  - ubuntu 搭建 OPENVPN
- - oracle 1
  - 运营报告 oracle 数据库字段设计
- - pipetools 1
  - pipetools类库代码研究
- - plan_morning 1
  - plan_morning
- - postgresql 1
  - postgresql数据库
- - pycharm 1
  - pycharm 密钥
- - pyshell 2
  - python执行外部程序模块pyshell
  - pyshell
- - python 37
  - 基于nsq的rpc探索和远程代码执行demo
  - python leveldb 文档
  - pjson
  - python三元表达式
  - 基于数据挖掘的智能任务发布系统的设计与实现
  - 有两个序列a,b，大小都为n,序列元素的值任意整数，无序；要求：通过交换a,b 中的元素，使[序列a 元素的和]与[序列b 元素的和]之间的差最小。
  - Ubuntu下安装PyV8
  - python快速排序
  - 让人耳目一新的Python库
  - Python处理JSON
  - python执行外部程序模块pyshell
  - python模块之itertools模块
  - pyzmq简单的在线聊天室
  - django settings最佳配置
  - python cmd模块练习
  - python shutil模块
  - flask-sqlalchemy 关系表简单操作
  - python表单校验摘录
  - flask 后台表单验证模块
  - python笔记之Cmd模块
  - python笔记之subprocess模块
  - 快速入门
  - python笔记之调用系统命令
  - python笔记之ZipFile模块
  - python笔记之提取网页中的超链接
  - python笔记之itertools模块
  - python笔记之bisect模块
  - python笔记之编程风格大比拼
  - python笔记之常用模块用法分析
  - python笔记之中缀语法和管道实现
  - 将一个网络链接保存为mht格式的文件
  - 快速原型开发总结
  - 机器学习之K近邻算法（KNN）
  - python中的StringIO模块
  - python多进程多点分片下载器
  - python Cmd实例之网络爬虫应用
  - pyshell
- - python模块 8
  - python模块之itertools模块
  - python shutil模块
  - python笔记之Cmd模块
  - python笔记之subprocess模块
  - 快速入门
  - python笔记之ZipFile模块
  - python笔记之itertools模块
  - python笔记之bisect模块
- - pyv8 1
  - Ubuntu下安装PyV8
- - restful 2
  - HTTP API 设计指南
  - REST API设计最佳实践
- - rpc 2
  - 基于nsq的rpc探索和远程代码执行demo
  - 进程间通信IPC、LPC、RPC
- - shell 1
  - pyshell
- - shutil 1
  - python shutil模块
- - simplejson 1
  - pjson
- - smb 1
  - 搭建简单的smb服务器
- - software 1
  - ubuntu 下载器
- - spyder 1
  - spyder
- - sqlalchemy 1
  - flask-sqlalchemy 关系表简单操作
- - ssh 1
  - 利用 ssh 的用户配置文件 config 管理 ssh 会话
- - sublime 1
  - !/bin/zsh
- - subprocess 1
  - python笔记之subprocess模块
- - test 1
  - test
- - ubuntu 4
  - 我的linux操作习惯
  - ubuntu 搭建 OPENVPN
  - ubuntu 下载器
  - ubuntu内核升级
- - utf-8 1
  - UNICODE,GBK,UTF-8区别
- - vim 1
  - 我的vim配置
- - webpack 1
  - webpack配置
- - wtf 1
  - python表单校验摘录
- - zmq 1
  - pyzmq简单的在线聊天室
- - zybuluo 1
  - zybuluo 博客平台文档
- - 三元表达式 1
  - python三元表达式
- - 下载器 2
  - ubuntu 下载器
  - python多进程多点分片下载器
- - 中缀语法 1
  - python笔记之中缀语法和管道实现
- - 书籍推荐 1
  - 书籍推荐
- - 代理 1
  - golang 代理服务器
- - 代码分析 1
  - pipetools类库代码研究
- - 任务发布平台 1
  - 基于数据挖掘的智能任务发布系统的设计与实现
- - 优化 1
  - flask 优化
- - 养生 1
  - 腹式呼吸
- - 内核升级 1
  - ubuntu内核升级
- - 团队合作 1
  - Github 团队协作
- - 备忘录 1
  - repaire boot in ubuntu
- - 多进程 1
  - python多进程多点分片下载器
- - 学习笔记 1
  - 随时笔记
- - 密钥 1
  - pycharm 密钥
- - 工具 2
  - 日常使用工具
  - 常用工具推荐
- - 常用模块 1
  - python笔记之常用模块用法分析
- - 微服务 4
  - 微服务系统设计的思考
  - docker微服务最佳实践
  - 微服务架构漫谈
  - 17mei 微服务的坑，检查点，以及一些操作细节
- - 心理学 1
  - 混蛋逻辑
- - 快速原型 1
  - 快速原型开发总结
- - 快速开发 1
  - 快速原型开发总结
- - 快速排序 1
  - python快速排序
- - 插件 2
  - 火狐插件推荐
  - 常用工具推荐
- - 数据库 4
  - 数据库操作
  - postgresql数据库
  - 数据
  - mongodb3 权限认证问题总结
- - 数据库设计 1
  - 运营报告 oracle 数据库字段设计
- - 文档驱动开发 1
  - 文档驱动开发编程规范
- - 方便 1
  - 常用工具推荐
- - 旅游 1
  - 旅游攻略
- - 显示服务器错误信息 1
  - 修改jquery的remote让前段显示服务器错误信息
- - 最佳操作 1
  - 我的linux操作习惯
- - 服务器 1
  - 服务器
- - 未处理 1
  - dockerfile
- - 机械学习 1
  - 机器学习之K近邻算法（KNN）
- - 权限 1
  - mongodb3 权限认证问题总结
- - 模块 1
  - pjson
- - 毕业设计 1
  - 基于数据挖掘的智能任务发布系统的设计与实现
- - 活动 1
  - 活动报名 APIs v1
- - 混蛋逻辑 1
  - 混蛋逻辑
- - 热点问题 1
  - 时评
- - 爬虫 4
  - 大众点评爬虫
  - python笔记之提取网页中的超链接
  - 爬虫网站分析
  - python Cmd实例之网络爬虫应用
- - 眼睛行业广告 1
  - 眼镜
- - 算法 3
  - 有两个序列a,b，大小都为n,序列元素的值任意整数，无序；要求：通过交换a,b 中的元素，使[序列a 元素的和]与[序列b 元素的和]之间的差最小。
  - python快速排序
  - 机器学习之K近邻算法（KNN）
- - 管道 1
  - python笔记之中缀语法和管道实现
- - 类库推荐 1
  - 让人耳目一新的Python库
- - 系统命令 1
  - python笔记之调用系统命令
- - 系统设计 1
  - 微服务系统设计的思考
- - 编码 1
  - UNICODE,GBK,UTF-8区别
- - 编程规范 1
  - 文档驱动开发编程规范
- - 编程风格 1
  - python笔记之编程风格大比拼
- - 网站 1
  - 爬虫网站分析
- - 网络链接 1
  - 将一个网络链接保存为mht格式的文件
- - 美容 1
  - 油性皮肤的保养
- - 聊天室 1
  - pyzmq简单的在线聊天室
- - 腹式呼吸 1
  - 腹式呼吸
- - 表单验证 1
  - flask 后台表单验证模块
- - 认证 1
  - mongodb3 权限认证问题总结
- - 请求错误 1
  - HTTP请求错误大全
- - 资源列表 1
  - 资源列表
- - 进程通信 1
  - 进程间通信IPC、LPC、RPC
- - 迷惑，忙碌，收获 1
  - 为什么我如此忙碌却毫无收获
- - 邻里问题 1
  - 城市邻里陌生问题解决方案
- - 配置 1
  - django settings最佳配置
- - 问卷 1
  - 问卷最新讨论
- - 问题 1
  - 面试经典问题解答
- - 面试 2
  - 面试经典问题解答
  - 面试总结
- - 项目环境 1
  - 新项目整理
- - 未分类 3
  - 在此处输入标题
  - 董事长、总裁和CEO的权力详解
  - 欢迎使用 Cmd - 在线 Markdown 编辑阅读器
- 以下【标签】将用于标记这篇文稿：
选择主题
- 经典白
- 护眼黄
- 薄荷绿
- 东京夜
- 经典黑

添加新批注

在作者公开此批注前，只有你和作者可见。

私有
公开
删除

回复批注