归档: 2017 | 全栈说

2017

12

20

NLTK之词频

FreqDist类官方文档：nltk.probability.FreqDist 介绍：词的概率分布类，包含一些概率学的方法。所在文件：probability.py ，大约在63~427行创建定义：__init__(self, sampl

2017-12-20 研

NLP

19

NLTK常用操作和语料库

安装NLTK按照官方步骤：Installing NLTK 在安装完nltk后，通过下述命令可查看nltk版本： import nltk print nltk.__doc__ 输出： The Natural Language Toolkit

2017-12-19 研

NLP

05

docker模拟多机环境

Docker基础这里不多说，借助docker官方文档可以学习到大部分内容，而且很详细。在线阅读：GitBook 或 Github。离线阅读。 pdf 版本下载 epub 版本下载本次配置中用到的镜像： nginx:1.12-

2017-12-05 软件技术

devopps docker

04

Week11:Photo OCR & Conclusion

OCR问题通俗一点讲就是图像识别中的文字识别。比方说给一张图，请识别图中的文字。滑动窗口探测法该方法用于识别出图中哪些区域还有所指定的目标物体。它选一个特定的尺寸的图片进行二分训练，判断这个尺寸的图片中是否含有要找的目标。例如行人探

2017-12-04 研

机器学习

02

Week10:Learning with large datasets

大规模机器学习大规模是指训练集数据很多，比如有1亿组数据。大数据有一句话叫做“最后胜利的人不是因为他有好的算法，而是他用有大量数据”，因为随着数据量的增加，机器学习算法的准确度都会变得很高。批量梯度下降先看梯度下降方程，以线性回归为例

2017-12-02 研

机器学习

01

Week9:Anomaly Detection & Recommender Systems

序Coursera的课程还有2周就要结束了，我这周基本上是每天学一周的内容，而下周就要开始正式接触NLP了。身边也有一起学习Ng这套课程的人，但是学到一半没到就放弃了，我在学习过程中也问过自己，Ng这套11年的课程放在现在还有价值么？这是

2017-12-01 研

机器学习

11

30

Week8-2:Dimensionality Reduction

维数约简假如你负责一项机器学习项目，最开始你需要收集数据集，也许把收集任务下发给各部门后，收集上来的数据特征有上千个，你是全部用呢？还是只用一部分呢？如果只用一部分，应该如何选择呢？首先我们肯定是不能全用的，因为特征太多会拖慢训练速度。

2017-11-30 研

机器学习

29

Week8-1: Clustering

序模仿coursera的结构，把第八周分成两部分。前面七周学习内容，我们经常用到训练这个词，就像妈妈教小孩子说话一样，是属于监督学习，数据集是有标记的，这样我们才能根据 $x$ 来预测 $y$。对于无监督学习，给出的数据集是无标记的，可以

2017-11-29 研

机器学习

28

Week7: Support Vector Machines

序因为时间上的限制，本周必须要把Course的课程看完，之后开始步入实战，所以周二就搞定了第七周的内容。支持向量机（Support Vector Machines）这个词很早就听过，今天总算是学到了这个知识点。线性可分和非线性可分什么是线

2017-11-28 研

机器学习

27

Week 6:Machine Learning System Design

序接Exercise5的内容，他们都是第六周的内容。这一部分主要讲如何设计一个机器学习系统。垃圾邮件分类器假设你正要去实现一个垃圾邮件分类器，你会怎么做？这是一个二分类问题，我已经学习了线性回归、逻辑回归、神经网络。最快速、准确的方式应该

2017-11-27 研

机器学习