mathhunの日記

Haskellと機械学習の勉強日記。PRML読みます。

2013-11-01から1ヶ月間の記事一覧

正規分布 vs t分布 - 外れ値に影響されやすい度グラフ化してみた

PRML 図2.16を再現してみた。まずはグラフから 上は外れ値なし、下はあり。赤が正規分布で青はt分布。外れ値なしでは2つのグラフはほぼ重なる。このグラフは乱数を何度か取り直してあえて重なりが少なくなるものを選んだが、たいていはほぼ完全に一致する。 …

解いてみる(3)「機械学習基礎」簡単な問題を 解いて理解しよう!後篇

R

「機械学習基礎」簡単な問題を解いて理解しよう!後篇|【Tech総研】後編 問題 異常(外れ値)検出で、選んではいけない玉を見つけ出せ! 100個の玉のうち、貴重な石でできた玉がどれなのか教えてほしい。 判定が微妙なものがあれば、怪しい玉も含めて3つぐ…

解いてみる(2)「機械学習基礎」簡単な問題を 解いて理解しよう!前篇

R

「機械学習基礎」簡単な問題を解いて理解しよう!前篇|【Tech総研】 第2問 「採ってきたキノコと、隊員が食べたキノコのデータを送るから、 食べても大丈夫なキノコを教えてほしい」コード library(ggplot2) iq.data <- read.csv("CodeIQ_data.txt", sep=" …

解いてみる(1)「機械学習基礎」簡単な問題を 解いて理解しよう!前篇

R

「機械学習基礎」簡単な問題を解いて理解しよう!前篇|【Tech総研】解答出てるけど解いてみる。 1問目 与えられた学習データを基に、二値分類を行うもの。難易度★1なので特に工夫しなくても正解が出たコード library(e1071) mycoins <- read.csv("CodeIQ_my…

ブログを始めるきっかけのスライド

技術ブログ書くきっかけになったスライド抜粋 前書いていたのもあるけどゼロからスタート真似したい点は 「質より量」「量でごまかす」「慣れるまでこっそり&大量に書く」 => 自分用メモでいいのでとにかく書く。続ける。「スキルなし・実績なし」 32歳窓際…

人間API

データサイエンティストに必要な3つのスキル 線形代数(と多変数微分) 何がなんでもきちんとしたデータを取ってこれるスクリプティング能力 データに疎い人たちの期待値を上手に設定し、彼らを味方につける政治力 らしい。 「データサイエンティスト」なん…

R で wordcloud

R

Rでwordcloud描いてみた。 ネタは英語版Wikipediaから適当に MathematicsとGaussとLinear Algebraから。 library(tm) library(wordcloud) library(SnowballC) library(RColorBrewer) ws <- Corpus(DirSource("~/tmp/wordcloud")) #ws <- tm_map(ws, removeWh…

PRML 2章 ベータ分布のグラフを描く

Rに慣れるため本にあるグラフをひたすら描いてみる。 png("beta01.png",height=600,width=800) fbeta <- function(x) { dbeta(x,5,5) } curve(fbeta,0,1,col="1") fbeta <- function(x) { dbeta(x,2,2) } curve(fbeta,0,1,col="2",add=T) fbeta <- function(…

PLML 2章 二項分布のグラフを描く

PRML二章から読む。 とりあえず手始めに図2.1をRで書いてみる。 plot(0:10, dbinom(0:10, 10, 0.25), pch=19, type="b") ヒストグラム風に描画する方法が分からないから点と線で。 乱数で出すバージョンも描いてみる。 > x <- rbinom(1000, 10, 0.25); table…

ブログ始める(また)

機械学習勉強日記を始める