kaggle_泰坦尼克幸存者可视化

Posted on 2019-9-23 | In Machine learning |

Words count in article: 1k | Reading time ≈ 4

泰坦尼克数据是kaggle中最经典的数据之一，本文通过对原数据的处理，利用决策树实现对幸存者的预测可视化。主要掌握的知识点：

数据的导入及清洗
缺失值如何处理
删除不必要的属性
如何将文字转成数字，让sklearn进行处理

导入相关模块和包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier   # 决策树的类
from sklearn.model_selection import GridSearchCV, train_test_split, cross_val_score  # 网格搜索，TTS， 交叉验证

导入数据及查看信息

pandas中怎么导入数据：pd.read_csv("file_path")
观察数据信息
- head()查看前n行数据，默认是前5行
- info()查看数据的各种属性和标签
数据中部分属性存在缺失值

选择排序

Posted on 2019-9-23 | In Machine learning , 排序算法 |

Words count in article: 475 | Reading time ≈ 1

选择排序

思想

将数据分成两个部分：前面排好序和后面待排序的
从没有排序的数据选择出一个最小的数据，放在前面排好序的后面
不稳定

时间复杂度

最坏时间复杂度：$O(n^2)$
最优时间复杂度：$O(n^2)$

基于决策树的红酒分类可视化

Posted on 2019-9-22 | In Machine learning , 实例 |

Words count in article: 1.9k | Reading time ≈ 9

本文中讲解是的利用决策树的方法将sklearn中自带的红酒数据进行划分和可视化显示，学习决策树的几个重要参数。

决策树在sklearn的应用

决策树Decision Tree是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规
则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。

解决两个重点问题

如何从数据中找出最佳节点和最佳分枝
如何让决策树停止生长，防止过拟合

sklearn中的决策树

决策树相关的类都在tree模块下面，总共5个

朴素贝叶斯法

Posted on 2019-9-21 | In Machine learning |

Words count in article: 795 | Reading time ≈ 3

概率和统计

概率和统计是两个相近的概率，研究的内容不同：

概率：已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等）
统计：有已知的数据，要利用这堆数据去反推出合适的模型和参数

概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。

贝叶斯理论是统计学中一个非常重要的也是出名的理论。贝叶斯学派强调的是概率的“主观性”。

频率学派强调频率的“自然属性”，认为应该使用事件在重复试验中发生的频率作为事件发生的概率估计

贝叶斯学派认为事件是具有随机性的，随机性的根源在于不同的人对事件的认知状态不同。

栗子：一个人掷硬币，迅速将硬币捂住，他本人是知道正面朝上，由近及远的3个人看到了模糊的信息，坐的越远，信息越少。

频率派：该硬币出现正、反的概率各是50%
贝叶斯派：掷硬币的人知道正面朝上的概率是100%，对离他最近的人来说是80%，最远的人是50%

Golang之旅17-结构体可见性和JSON序列化

Posted on 2019-9-21 | In go |

Words count in article: 878 | Reading time ≈ 3

结构体可见性

结构体中字段大写开头表示可公开访问，小写表示私有（仅在定义当前结构体的包中可访问）

不管是结构体还是结构体字段名，大写可以公开访问
小写则只能当前的包内访问

JSON序列化

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。JSON键值对是用来保存JS对象的一种方式

键值对中的键名写在前面，用双引号包裹起来
键值之间使用冒号分开
多个键值对之间用英文逗号分开

Golang之旅16-嵌套结构体

Posted on 2019-9-21 | In go |

Words count in article: 434 | Reading time ≈ 2

内容

嵌套结构体
不同的结构体之间的命名冲突
结构体的继承实现

嵌套结构体

一个结构体中可以嵌套包含另一个结构体或结构体指针

Golang之旅15-方法和接收者

Posted on 2019-9-21 | In go |

Words count in article: 704 | Reading time ≈ 2

方法和接收者

方法Method是种作用域特殊类型变量的函数，特定类型的变量称为接收者receiver。接收者类似Python中的self。方法的定义格式

1
2
3

func (接收者变量 接收者类型) 方法名(参数列表) (返回参数) {
    函数体
}

接受者变量：接收者参数变量命令，直接采用接收者类型名的第一个小写字母，Person类型的p，Student类型的s
接收者类型：接收者类型和参数类似，可以是指针类型和非指针类型
接收者的类型可以是任何类型，不仅是结构体，任何类型都可以拥有方法。
其他格式和普通函数相同

指针类型接收者

由一个结构体指针组成
调用方法时修改接收者指针的任意成员变量，在方法结束后，修改都是有效的。

k8s之旅-1

Posted on 2019-9-20 | In linux , 微服务 |

Words count in article: 1.7k | Reading time ≈ 6

三大主流的调度系统

Docker Swarm
- Docker 公司的容器编排系统，使用的是标准的Docker API
- 每个主机运行一个Docker Swarm代理，一个主机运行一个Docker Swarm管理者
- 管理者负责指挥和调度主机上的容器
- 使用的标准的Dokcer接口
kubernets
- kubernets是自成体系的管理者工具，可以实现容器调度、资源管理、服务发现等
- 容器集群管理系统，用于管理云平台上多个主机上容器的应用
- 提供了应用部署、规划、更新、维护的一整套机制
- 没有固定的容器格式，使用自己的API和命令行窗口CLI进行容器编排
- 支持除了Docker的其他容器，比如：rkt
- 使用自己的API，命令系统是另一套系统
Apache Mesos
- 分布式系统内核的开源集群管理器
- 出现早于上面两种方案，开源同时使用其他框架来支持容器化和非容器化的工作负载
- 能够扩展到上千个节点，现代化可扩展型的数据处理应用都可以在Mesos上运行，包含Hadoop、Kafka、Spark等

Go语言实战-2

Posted on 2019-9-20 | In go |

Words count in article: 458 | Reading time ≈ 1

Go

Go语言解决的问题：C和C++执行速度快，Python擅长快速开发，Go兼具二者特点。

编译速度快
内置并发机制
自带垃圾回收机制
用户不用自己管理内存
Go语言使用接口作为代码复用的基础模块

goroutine

goroutine像线程，占用内存少；使用一个线程来执行多个goroutine
Go语言会自动在配置的一组逻辑处理器上调度执行goroutine

Golang之旅14-struct2

Posted on 2019-9-20 | In go |

Words count in article: 432 | Reading time ≈ 1

指针类型的结构体

通过new关键字进行结构体的实例化，得到是结构体的地址。指向结构体指针的类似于其他指针变量，格式

1	var struct_pointer Books //定义指针变量，前面加上号

定义解释：

指针变量存储结构体变量的地址
查看结构体变量地址，可以将&符号置于结构体变量前面
访问结构体中的成员通过.的方式