データサイエンス

データベース

SQL テーブルの作り方

テーブルの作り方 テーブルを作るには、"CREATE TABLE"を使う。 1列ごとの、列名・型・制約などを記述して、それぞれをカンマで区切ることでテーブルを定義する。 データの型 利用可能なデータ型は、DBMS製品によ...
Notes

[ノート]遺伝子工学

遺伝子工学とは 遺伝子工学とは、遺伝子(DNA)を人工的に操作する技術の総称。 新たな生物活性を持つ遺伝子を工作する。 遺伝子工学の操作を組替えDNA実験という。 組み換え実験操作 in vivo ラテン語で「生体内で」...
統計学

多重比較補正-多重比較の問題への対処-

多重比較の問題 検定回数を増やすと、検定全体としての第1種の誤り(Type I error)が起こる確率が高くなる問題。 FWER(FamilyWise Error Rate)は、検定全体で少なくとも1回はType Ⅰ erro...
統計学

HAC標準誤差によるt検定

HAC標準誤差によるt検定 回帰分析における最小2乗法の推定量は、誤差項が次の過程を満たす時に最小分散線形不偏量推定(BLUE)になる。 \(E = 0\) \(V = \sigma^2\) \(Cov = 0\) H...
統計学

不均一分散一致標準誤差(HC Standard Error)によるt検定

回帰分析のロバストなt検定 線形回帰分析では、誤差項が均一分散であることが仮定されている。 誤差項が不均一分散であるとき、標準誤差に誤りが生じる。 誤差項が不均一分散の線形回帰分析では、誤った標準誤差から、回帰係数のt値を求めるこ...
統計学

Breusch-Pagan(BP)検定[不均一分散の検定]

Heteroskedasticityの検定-Breusch-Pagan(BP)検定 Heteroskedasticity(不均一分散性)は、線形回帰分析の誤差項において、度々問題が生じる。 この不均一分散性を評価するときに、不均一分...
統計学

パラメトリック検定とノンパラメトリック検定

パラメトリック検定とノンパラメトリック検定 パラメトリック検定とノンパラメトリック検定の違いは、母集団が正規分布に従っていると仮定できる(する)か否かです。 パラメトリック検定は、母集団が正規分布 ノンパラメトリック検定は、母集団...
データサイエンス

PythonでConvex-Hull(凸包)を用いたバウンディングボックスを求める

Convex-Hull(凸包)を用いたBoundingBoxの求め方 Convex-Hull(凸包アルゴリズム)は、各プロットが内在するような最小の図形である。 ここでは、2次元の散布図でConvex-Hullを求めて、次にBoun...
統計学

ジャック・ベラ検定[正規性の検定]

ジャック・ベラ検定 標本データが正規分布に従う尖度と歪度を有しているかを調べる適合度検定である。 python 参考 ジャック–ベラ検定
統計学

コルモゴロフ-スミルノフ検定(KS検定)[正規性の検定]

コルモゴロフ-スミルノフ検定 2つの標本が同じ確率分布からサンプリングしたものかを調べるための検定である。 ここでは、正規分布に関する検定を試す Python 有意水準を0.05とすると 標準正規分布からの...
統計学

シャピロ-ウィルク検定[正規性の検定]

シャピロ-ウィルク検定 シャピロ-ウィルク検定は、標本が正規母集団からサンプリングされたものであるかを検定する。 帰無仮説\(H_0:\)正規母集団からのサンプリングである 有意水準が\(\alpha=0.05\)と設定すると...
統計学

正規Q-Qプロット[正規性]

正規Q-Qプロット 正規Q-Qプロットは、データが正規分布から得られたかどうかを視覚的に捉えることができる。 データが正規分布に従う場合の期待値をy軸にとる。 データそのものをx軸にとる プロットがほぼ一直線上に整列している...
時系列解析

定常性とは[時系列分析]

勉強中 定常性とは 時系列は時間とともに不規則な変動をしている。これを確率的なモデルとして表現する。 定常性とは、同時分布や基本統計量の時間普変性に関数するもの 単純に、 定常は、この変動の仕方が時間的に変化しない。 非...
時系列解析

自己相関の検定-かばん検定-[時系列分析]

かばん検定 $$ Q=n(n+2) \sum_{j=1}^{h} \frac{\hat{\rho}_{j}^{2}}{n-j} $$ 参考
時系列解析

ARMAモデル[時系列分析]

ARMA過程 ARMA過程は、AutoRegressive Moving Averageの略で、日本語に訳すと自己回帰移動平均です。 ARMAは、AR過程とMA過程を組み合わせたものです。 AR(p)とMA(q)を組み合わせたもの...
時系列解析

MAモデル[時系列分析]

MA過程 MA過程は、Moving Averageの略で、日本語に訳すと移動平均過程であす。 MA過程は、確率的な過程で、ホワイトノイズによって決まる過程です。 長期間にわたる自己相関をモデル化するためには、多くのパラメータが必要...
データサイエンス

ARモデル[時系列分析]

AR過程 AR過程(ARモデル)のARは、AutoRegressiveの略で、日本語に訳すと自己回帰です。 このモデルは、自身の過去に回帰されたモデルで表現される。 1次ARモデルは、AR(1)と書かれ、次の式で表す。 $$...
データベース

データベースとは

データベースとは データベースとは、表の集まりです。 ある特定の条件に当てはまる「データ」を複数集めて、あとで使いやすい形に整理した情報のかたまりです。 分割された複数の表の間にリンクを持ち、それぞれに不整合が生じないよう...
時系列解析

時系列の自己相関係数

時系列の自己相関係数 自己共分散では、値が単位に依存してしまう問題がある。 これを解決するのが、単位依存しない自己相関係数である。 k次の自己相関係数は次のように定義されている。 $$ \begin{align} \rh...
時系列解析

時系列の自己共分散

時系列の自己共分散 自己共分散は、時系列分析特有のものである。 同一の時系列データにおける異なる時点間の共分散である。 k次の自己共分散は、次のように定義されている。 $$ \begin{align} \gamma_{k...
時系列解析

時系列のボラティリティ(分散と標準偏差)

時系列のボラティリティ 期待値が平均的にどの程度ばらつきを持つのかを表す統計量を、分散という。 この分散の平方根を標準偏差と呼ぶ。 時系列分析、特にファイナンス分野では、この標準偏差はボラティリティと呼ばれている。 ...
時系列解析

時系列の期待値

時系列の期待値 時系列データの期待値の計算方法は、一般的な期待値と同じです。 $$ \mu_t = E(y_t) $$ 不偏推定量は、 $$ \bar{y} = \frac{1}{T}\sum^{T}_{t=1}y_t ...
画像処理とOpenCV

SegmentationとCNNのメモ

更新していく予定です。 セグメンテーションのCNNを使った手法をメモしていきます。 SegmentationとCNNのメモ FCN(Fully Convolution Network) 論文 SegNe...
画像処理とOpenCV

ResNetをPytorchで実装したいからメモする

ResNetをPytorchで実装したいからメモする 今更ながら、ResNetを勉強します。 Pytorchで実装(写経+理解)します。 ResNet 構造 ...
データサイエンス

カテゴリデータのPython前処理まとめ

カテゴリデータのPython前処理まとめ 随時更新予定 Label Encoding One-Hot エンコーディング pandasを使います。 ダミー変数化 One-Hotとダミー化とp...
タイトルとURLをコピーしました