资源列表
iris_data
- Iris Data Set(鸢尾属植物数据集)是我现在接触到的历史最悠久的数据集,它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析。在这个数据集中,包括了三类不同的鸢尾属植物:Iris Setosa,Iris Versicolour,Iris Virginica。每类收集了50个样本,因此这个数据集一共包含了150个样本。
爬取豆瓣电影Top250
- 通过python语言,利用爬虫、词云等模块,爬取豆瓣电影评分前250(Climbing the top 250 of Douban Movie)
python_s
- 计算两个文本间的相似度,并且返回相速度值,用于确定两个文本将的距离(Compute the similarity between two short txts)
HMM-homework
- 隐马尔科夫实现,包含forward-hmm, Viterbi-hmm, Baum-Welch-hmm(Hidden Markov implementation, including forward-hmm, Viterbi-hmm, Baum-Welch-hmm)
python
- 风控建评分卡模型程序,常用于消费金融,P2P,银行业(Code for Score card model)
my_apriori
- 很好用的关联规则挖掘经典算法,推荐使用。包括支持度、置信度、提升度,输出结果到excel文件(Good use of association rules mining classic algorithm, recommended)
python分布式爬虫打造搜索引擎
- python分布式爬虫打造搜索引擎源代码及讲师源代码(Python distributed crawler to build search engine)
数据分析修炼手册
- 一位数据分析行业的前辈的总结 前言 1 数据分析师如何分类? 2 数据分析师的具体工作职责和工作内容有哪些? 3 如何在业余时间成为数据分析师? 3 数据分析实战与运用 6 如何用Excel做数据分析? 8 如何用Tableau做数据可视化? 14(A summary of the seniors of data analysis)
利用Python进行数据分析
- 数据挖掘python语言的学习资料,包括常用算法的实现和工具的使用(Data Mining Pthon Language Learning Materials, including the Implementation of Common Algorithms and the Use of Tools)
Xgboost
- xgb建模脚本-保险赔偿预测(史上最全xgbooots建模语句)(XGB modeling scr ipt-insurance compensation prediction (the most complete xgbooots modeling statement in history))
mvstats
- 将ggplot2的作图结果合并为一个图,可以定义cols的值从而调整输出的结果(Combining the graphical results of ggplot2 into a graph defines the values of cols to adjust the output)
R语言画地图
- 使用R语言画中国行政地图,并添加数据、美化。(Draw Chinese administrative map with R language, add data and beautify.)