４．整列のアルゴリズム.

４．整列のアルゴリズム

整列（ソート）データデータ k,a,l,c,d,s ５，３，８，１，６，２１，１１ソートアルゴリズムソートアルゴリズム
１，３，５，６，８，１１，２１ a,c,d,k,l.s

内部整列と外部整列 CPU CPU 高速アクセス高速アクセスデータの一部全データメモリメモリ低速アクセス全データディスク

仮定と要求内部整列どのデータにも均等な時間でアクセスできる。できるだけ高速に整列したい。（理想的なRAMモデル上のアルゴリズムではこっち）外部整列 CPU－メモリ間のデータ転送速度より、ディスク－メモリ間のデータ転送速度が極端に遅い。全体の整列をできるだけ高速にしたい。（ディスクーメモリ間のデータ転送をあまり行わないようにする。）

ソートアルゴリズムの種類バブルソート挿入ソート選択ソートヒープソート：教科書に掲載クイックソートマージソートバケットソート
基数ソート

ソートアルゴリズムの分類原理比較による比較によらないバブルソート O(n^2) 選択ソートバケットソート時間量（速度）
挿入ソート基数ソートクイックソート計算量はO(n) ヒープソート O(n log n) だけど条件付きマージソート

入出力形態５３８１４ 13 9 ２入力：配列A A[0] A[1] A[i] A[n-1] n 個２３４５８ 9
(終了状態）：配列A A[0] A[1] A[n-1] n 個連結リストで入力されるとしてもいいのですが、配列に入力データがあるとして説明します。

バブルソート方針隣同士比べて、小さいほうを上（添字の小さい方）に順にもっていく。先頭の方は、ソートされている状態にしておく。
これらを繰り返して、全体をソートする。

バブルソートの動き１ A ５１５５５５５５５３３３３３１３ 1 ３３ 2 ８８８８１８８８１１１１８１ 3 ２２４４２２２ 4 ４非交換４４４４４ 5 13 ２ 13 13 13 ２ 13 13 13 13 6 9 交換 9 9 9 9 9 9 9 7 ２

バブルソートの動き２ソート済み A １１１１１１１１５２２２２２ 1 ２２繰り返し交換適用５ 2 ３３
１１１５２２２２２ 1 ２２繰り返し交換適用５ 2 ３３３３３３３３５４４４８４４ 3 ８４５５５ 4 ２５５４ 5 ４８８８８８８ 9 9 9 9 9 9 9 6 13 13 13 13 13 13 7 9 13 13

バブルソートの実現１ /*交換用の関数 A[i]とA[j]を交換する。*/
void swap(int i ,int j, datatype *A) { datatype temp; /* データの一次保存用*/ temp=A[i]; A[i]=A[j]; A[j]=temp; return; }

バブルソートの実現2 /* バブルソート*/ void bubble(datatype *A) { int i,j; /* カウンタ*/
/* バブルソート*/ void bubble(datatype *A) { int i,j; /* カウンタ*/ for(i=0;i<n;i++) for(j=n-1;j>i;j--) if(A[j-1]>A[j]) swap(j-1,j,A); } return;

バブルソートの計算量１回目の外側のループで、n-1回の比較と交換２回目 n-2 ・ｎ-1回目の外側のループで、1回の比較と交換
よって、時間量のアルゴリズム

選択ソート方針先頭から順に、その位置に入るデータを決める。（最小値を求める方法で選択する。）
その位置のデータと選択されたデータを交換する。これらを繰り返して、全体をソートする。ソート済み残りのデータで最小値を選択

選択ソートの動き１（最小値発見）探索済み A ５５５５５５５５１３ 1 ３３３３３３３３ 2 ８８８
５５５５５５５５１３ 1 ３３３３３３３３ 2 ８８８８８８８８８未探索１ 3 １１１１１１１５ 4 ４４４４４４４４４ 5 13 13 13 13 13 13 13 13 13 6 9 9 9 9 9 9 9 9 9 7 ２２２２２２２２２ min=0 min=１ min=１ min=3 min=3 min=3 min=3 min=3

選択ソートの動き２ A 済１１１１１１１１２２２２２３２２ 1 2 ３３３３３８８３最小値発見４４４４４ 3 ５５５５５５５５ 4 ４４４ 5 13 13 ８８８ 13 13 13 9 9 9 9 9 6 9 9 9 ８８３８ 13 13 13 7 ２ min=7 min=7 min=4 min=4 min=7 min=6 min=7

選択ソートの実現１（最小値を求めるアルゴリズム）
/*選択用の関数、A[i]からA[j]をまでの最小値を求める*/ int select_min(int i ,int j, datatype *A) { int k; /* カウンタ */ int min; /* 仮の最小値の添字*/ min=i; for(k=i;k<=j;k++) if(a[min]>a[k]){min=k;} } return k;

選択ソートの実現2 /* 選択ソート*/ void select(datatype *A) { int i; /* カウンタ*/
/* 選択ソート*/ void select(datatype *A) { int i; /* カウンタ*/ int min; /* 最小値の添字*/ for(i=0;i<n;i++) min=select_min(i,n-1,A); swap(i,min,A); } return; なお、説明の都合上、関数select_minを作ったが、関数呼び出しで余分に時間がとられるので、実際は２重ループにするほうが速いと思われる。（でも、オーダーでは、同じ。）

選択ソートの計算量１回目のselect_minで、n-1回の比較２回目 n-2 ・ｎ-1回目のselect_minで、1回の比較
よって、回の比較交換は、ｎ回時間量のアルゴリズム

挿入ソート方針先頭の方は、ソート済みの状態にしておく。未ソートのデータを、ソート済みの列に挿入し、ソート済みの列を１つ長くする。
これらを繰り返して、全体をソートする。未ソートデータソート済み

挿入ソートの動きソート済 A ５３３１１１１１３５５３ 1 ３３３２ 2 ５４８８８４４３未ソート１１１８５ 3 ５５４８８８ 4 ４４４４５ 5 9 ８ 13 13 13 13 13 13 13 6 9 9 9 9 9 9 9 ２ 7 ２２２２２２ 13

挿入ソートの実現１（挿入位置を求める） /*挿入位置を見つける関数、 A[0]からA[i-1]までソート済みのとき、
int find_pos(int i ,datatype *A) { int j; /* カウンタ */ for(j=0;j<i;j++) if(A[j]>A[i]){break;} } return j;

挿入ソートの実現2 /* 挿入ソート*/ void insert(datatype *A) { int i,j; /* カウンタ*/
/* 挿入ソート*/ void insert(datatype *A) { int i,j; /* カウンタ*/ int pos; /* 挿入位置の添字*/ for(i=0;i<n;i++) pos=find_pos(i,A); for(j=n-1;j<pos;j--) swap(j-1,j,A); } return;

挿入ソートの計算量 n-1回目の外側のループで、n-1回の比較あるいは交換 n-2回目 n-2回の・ 1回目 1回の比較あるいは交換
1回目回の比較あるいは交換よって、比較と交換回数の合計は、時間量のアルゴリズム（挿入ソートを元に高速化した、シェルソートっていうものもあるが省略。）

ヒープソート方針ヒープを使ってソートする。先頭から順にヒープに挿入し、データ全体をヒープ化する。
最大値を取り出して、最後のデータにする。 13 2 １４ 9 4 5 3 ２ 6 3 ８ 5 7 １

ヒープソートの動き前半１配列ヒープ 1 2 3 4 5 6 7 ５ 13 A ３８１４ 9 ２ 5 ５ 13 ３８１４ 9 ２ヒープ未ヒープ 5 ５ 13 ３８１４ 9 ２１ヒープ未ヒープ 3

ヒープソートの動き前半２配列ヒープ 1 2 3 4 5 6 7 ８ 13 A ８３５１４ 9 ２ 2 １ 3 5 ヒープ
８ 13 A ８３５１４ 9 ２ 2 １ 3 5 ヒープ未ヒープちょっと省略１ 2 5 ４２ 3 13 ８ 9 4 6 1 2 3 4 5 6 7 A 13 ４ 9 ２３５８１ 7 ヒープ

ヒープソートの動き後半１ 13 1 2 3 4 5 6 7 2 １ 9 ４ A 13 ４ 9 ２３５８１ 4 5 3 ２ 6 3 ヒープ 5 ８ 7 最大要素を、ヒープから削除し後ろに挿入１ 9 2 1 2 3 4 5 6 7 １４８ 9 A ４８２３５１ 13 4 5 3 ２ 6 3 5 １ヒープソート済

ヒープソートの動き後半２ 1 2 3 4 5 6 7 ８８ 2 A ４５２３１ 9 13 １４ 5 ヒープソート済 4 5 3 ２ 3 １ちょっと省略３８ A １２４５ 9 13 ソート済

ヒープソートの実現 void heap_sort(datatype *A) { int i; /* カウンタ */
datatype max; /*最大値*/ /* ヒープ化 */ for(i=0;i<n;i++){insert_heap(A[i],A);} /* 最大値を順に後ろに挿入*/ for(i=n-1;i>=0;i--) max=delete_max(A); A[i]=max; } return ;

ヒープソートの計算量ヒープ化の部分操作insert_heap(A) １回あたり、時間量 n回行うので、時間量最大値発見と移動の部分
操作delete_max(A) １回あたり、時間量 n回行うので、時間量これらは、１づつ行われるので、時間量のアルゴリズム（実は、ヒープ化の部分は、の時間量で実現する方法もあるが、省略）

マージソート方針問題を小分けにして、あとで組み合わせる。（分割統治法）小分けした問題は、再帰的にソートする。
もしソートされた２つの配列があれば、それらのそれらを組み合わせて、大きいソートの列をつくる。（マージ操作） B １３５８３８ A １２４５ 9 13 C ２４ 9 13

マージの動き B １３５８ A C ２４ 9 13 B １３５８ A １ C ２４ 9 13 ソート済み B １３５８ A １２ C ２４ 9 13

分割もし２つのソート列があったら、マージ操作によって、長いソート列がえられることがわかった。どうやって、２つのソート列を作るのか？
おなじ問題で、問題のサイズが小さくなっていることに注意する。列を二等分にして、再帰的にソートする。

マージソート動き前半（分割） 3 1 2 4 5 6 7 13 A ５３８１４ 9 ２ A[0]からA[3]までソートして。
13 A ５３８１４ 9 ２ A[0]からA[3]までソートして。 A[4]からA[7]までソートして。 1 2 3 4 5 6 7 13 ５３８１４ 9 ２ m_sort(0,1,A) m_sort(2,3,A) 1 2 3 6 7 4 5 ５３ 13 9 ２８１４ 6 1 3 2 5 7 4 13 ５３８１４ 9 ２

マージソート動き後半（マージ） 1 2 3 4 5 7 6 13 ５３８１４ 9 ２ marge 6 4 5 7 2 3 1 6 7
5 7 6 13 ５３８１４ 9 ２ marge 6 4 5 7 2 3 1 6 7 13 ２ 9 ４１８３５ 1 2 3 4 5 6 7 ８１３５２４ 9 13 5 1 2 3 4 6 7 A 9 １２３４５８ 13

マージの実現 /* 配列Bと配列Cを配列Aにマージする。概略です。細かい部分は省略*/
void marge(int posA,datatype *A,datatype *B ,int numB,datatype *C,int numC) { int iA=0,iB=0,iC=0; /* カウンタ*/ while(iA<=numB+numC-1) if(B[iB]<C[iC]) A[posA+iA]=B[iB]; iB++; } else A[posA+iA]=C[iC]; iC++ iA++; return;

マージソートの実現 /*概略です。細かい部分は省略*/
void marge_sort(int left,int right,datatype *A) { int mid; /* 配列の中央 */ datatype B[n],C[n]; /*作業用の配列*/ if(left==right)return; mid=(left+right)/2; marge_sort(left,mid,A); marge_sort(mid,right,A); /*ここに、A[left]からA[mid]を配列Bに、 A[mid]からA[right]を配列Cにコピーする処理を書く。 */ marge(left,A,mid-left,B,right-mid,C); return; }

マージソートの計算量解析を簡単にするため、データを個あると仮定します。まず、マージの計算量を考えます。
解析を簡単にするため、データを個あると仮定します。まず、マージの計算量を考えます。明らかに、出来上がるソート列の長さに比例した時間量です。マージソートの時間量をとします。以下の再帰式を満たします。これを解いて、

クイックソート方針問題を小分けにして、あとで組み合わせる。（分割統治法）前半部分は特定要素（ピボット）より小さく、
後半部分はピボットより大きく分割する。ピボットの位置を確定し、小分けした問題は、再帰的にソートする。 1 2 3 4 5 6 7 ５ 13 A ３８１４ 9 ２ピボット４ A ３２１５ 13 9 ８小さい大きい

説明上の注意全てのデータが異なるとして、説明します。クイックソートのアルゴリズムでは、ピボットの選び方にあいまいさがあります。
（自由度といったほうがいいかも。）ここでは、ソート範囲の最初の要素をピボットとして説明します。実際に、プログラミングするときは、もっといろんな状況を考えましょう。

クイックソートの動き前半（分割）５ 13 A ３８１４ 9 ２ピボットより大きい値を探すピボットより小さい値を探す５ 13
探索が交差したら終了。ピボットと前半最後の要素を交換し、あとは再帰呼び出し。５ 13 A ４３２１ 9 ８

クイックソートの動き後半（再帰） 1 2 3 4 5 6 7 ５ 13 A ４３２１ 9 ８ A[0]からA[4]までをソートして
５ 13 A ４３２１ 9 ８ A[0]からA[4]までをソートして A[5]からA[7]までをソートして q_sort(0,3,A) 1 2 3 4 5 6 7 ５ A ４３２１ 13 9 ８位置確定 3 1 2 5 6 7 A １３２４ 13 9 ８以下省略

クイックソートの実現１（分割） /*概略です。細かい部分は省略*/
int partition(int left,int right,datatype *A) { int i,j; /*カウンタ*/ i=left+1; j=right; for(;;) while(A[i]<A[left]){i++;} while(A[j]>A[left]){j--;} if(i>=j){break;} swap(i,j,A); } return(i);

クイックソートの実現2(再帰） /*概略です。細かい部分は省略*/
void quick_sort(int left,int right,datatype *A) { int pos; /*分割位置 */ pos=partition(left,right,A); swap(left,pos,A); quick_sort(left,pos-1,A); quick_sort(pos+1,right,A); return; }

クイックソートの計算量クイックソートは、最悪時の計算量と平均の計算量が異なります。これらは、ピボットの選び方にもよりますが、
どんな選び方によっても最悪のデータ初期配置があります。ここでは、最悪計算量と、平均計算量の両方を考えます。

クイックソートの最悪計算量まず、関数partition（i,j,A）の1回の時間量は、 j-i+1に比例した時間量です。
再帰の同じ深さで、parttition()の時間量を総計するとになります。いつも０個、ピボット、残りのように分割されるのが最悪の場合です。つまり、ピボットとしていつも最小値が選択されたりするのが最悪です。（他にも最悪の場合はあります。）このときでも、partition（i,j,A）の実行には、j-i+1回の演算が必要です。これは、結局選択ソートの実行と同じようになり、最悪時間量のアルゴリズムです。

クイックソートの平均計算量初期状態として、通りの並びがすべて等確率だとしましょう。クイックソートの時間量をとします。
初期状態として、通りの並びがすべて等確率だとしましょう。クイックソートの時間量をとします。ピボットが番目のときには、以下の漸化式を満たす。小さい方の分割を再帰的にソートする分大きい方の分割を再帰的にソートする分 partition()分ピボットの順位は、n通り全て均等におこるので、それらを総和して、nで割ったものが平均時間量２分探索木のときの解析と同様にして、

ちょっと寄り道（一個一個が大きいデータを処理する工夫）
配列A A[0] A[1] A[i] A[n-1] A[j] 名前、生年月日、住所、経歴、趣味 A[j] A[i] 交換は大変

大きいデータを処理する工夫２工夫：大きいデータは動かさずに、たどり方だけがわかればいい。 data1 data2 配列A A[0] A[1] A[i] A[n-1] 1 i n-1 配列B B[0] B[1] B[i] B[n-1] 添字の配列Bだけを操作して、配列Aは動かさない。 swap(0,i); （data1が最小値のとき。） data2 data1 配列A A[0] A[1] A[i] A[n-1] i 1 n-1 配列B B[0] B[1] B[i] B[n-1]

大きいデータを処理する工夫3 イメージ data1 data2 配列A A[0] A[1] A[i] A[n-1] data1 data2 配列A A[0] A[1] A[i] A[n-1] ソート順は、下の情報からえられる。（配列の添字の利用だけでなく、ポインタでも同様のことができる。）

問題とアルゴリズム（復習p.18参照）具体的なアルゴリズムを作ることは、問題の難しさ（問題固有の計算量）の上界を与えています。
最適なアルゴリズムの存在範囲アルゴリズムがない問題は、難しさがわからない。ソート問題の難しさバブルソート発見ソート問題の難しさマージソート発見ソート問題の難しさ

問題と下界一方、問題の難しさの範囲を下の方から狭めるには、問題を解くアルゴリズムが無いことを示さないといけない。
実は、１つのアルゴリズムを作ることより、アルゴリズムが存在しないことを示すことの方が難しい。最適なアルゴリズムの存在範囲ソート問題の難しさ？ソート問題の難しさ？アルゴリズムが存在しない。ソート問題の場合は、なんとか示せます。

アルゴリズムと決定木（比較によるソートの下界証明の準備）
決定木の根：初期状態決定木の節点：それまでの計算の状態決定木の枝：アルゴリズムの進行による状態の遷移決定木の葉：終了状態初期状態状態遷移いままでの、データ構造の木ではなくて、概念的、抽象的なもの。根からの道が、アルゴリズムの実行順に対応し、根から葉までの道の長さが時間量に対応します。終了状態

３要素バブルソートの決定木 A:a b c 1:true 0:false A:a c b A:a b c 1 1 1 1 結果の可能性
b a c b c a c a b c b a 結果の可能性 A:a b c 配列Aの内容 1:true 0:false A[1]<A[2]? (b<c?) a c b c a b c b a A:a c b a b c b a c b c a A:a b c 1 1 A[0]<A[1]? (b<c?) A[0]<A[1]? (a<c?) a c b c a b c b a a b c b a c b c a A:c a b A:b a c A:a c b A:a b c 1 1 A[1]<A[2]? (a<c?) A[1]<A[2]? (a<c?) b c a b a c c a b c b a A:b c a A:b a c A:c a b A:c b a

ソート問題の下界どんな入力でもきちんとソートするには、決定木にn!個以上の葉がなければならない。それで、アルゴリズムの比較回数は、
決定木の高さで定まる。最悪時間が良いアルゴリズムは高さが低く、悪いアルゴリズムは高さが高い。高さがｈの決定木では、高々個の葉しかない。よって、よって、ソートアルゴリズムでは少なくともの時間量が必要である。

ソート問題の難しさソート問題の難しさ決定木による証明アルゴリズム開発（マージソートヒープソート等）こんなことを考えるのが、
計算量理論の分野です。

比較によらないソートバケットソートデータが上限のある整数のような場合に用いる。データの種類が定数種類しかない場合には、
ハッシュ関数で整数に変えてから用いてもよい。基数ソート大きい桁の数に対して、桁毎にバケットソートをしてソートする。

バケットソートとりあえず、簡単のために、データは、１．重複がなく、２．０からｍ－１の整数という性質を満足するとしましょう。
（例えば、学籍番号の下２桁とか。）方針ｍ個のバケット（配列）を用意して、データを振り分けていく。データそのものを配列の添字として使う。

バケットソートの動き１ 2 4 3 6 1 配列A A[0] A[1] A[i] A[n-1] -1 -1 -1 -1 -1 -1 -1
3 6 1 配列A A[0] A[1] A[i] A[n-1] -1 -1 -1 -1 -1 -1 -1 -1 配列B B[0] B[1] B[2] B[3] B[m-1] 6 1 2 4 3 配列A A[0] A[1] A[i] A[n-1] -1 -1 -1 3 -1 -1 -1 -1 配列B B[0] B[1] B[2] B[3] B[m-1] 6 1 2 4 3 配列A A[0] A[1] A[i] A[n-1] -1 -1 -1 3 -1 -1 6 -1 配列B B[0] B[1] B[2] B[3] B[6] B[m-1]

バケットソートの実現 /*概略です。細かい部分は省略入力データの配列の型がintであることに注意*/
void bucket_sort(int *A,int *B) { int i; /*カウンタ*/ for(i=0;i<n;i++) B[A[i]]=A[i]; } return;

バケットソートの動き２(添字を用いた場合）
2 4 3 6 1 配列A A[0] A[1] A[i] A[n-1] -1 -1 -1 -1 -1 -1 -1 -1 配列B B[0] B[1] B[2] B[3] B[m-1] 3 6 1 2 4 配列A A[0] A[1] A[i] A[n-1] -1 -1 -1 -1 -1 -1 -1 配列B B[0] B[1] B[2] B[3] B[m-1] 3 1 6 2 4 配列A A[0] A[1] A[i] A[n-1] -1 -1 -1 3 -1 -1 -1 1 配列B B[0] B[1] B[2] B[3] B[6] B[m-1]

バケットソートの実現2 /* 配列の添字を用いて、間接的にソート*/ void bucket_sort(int *A,int *B) {
int i; /*カウンタ*/ for(i=0;i<n;i++) B[A[i]]=i; } return; i番目のデータの参照は、A[B[i]]で行う。

バケットソート（重複あり）方針重複した分を、リストとして繋ぐ。（外部ハッシュ法参照。）後の基数ソートへの利用では、
重複データのリストへの挿入順序が大事。（外部ハッシュでは、余り重要ではなかったが。）

バケットソートの動き３（重複あり） A B C 2 6 3 1 ４ 1 2 1 2 １ 2 5 2 4 １ 3 3 3 2 4 2 4 1 4 2 5 2 7 5 2 5 6 6 ４ 7 5 7 5 先入れ先出しのキューにしておいたほうがいいです。

バケットソートの実現3（重複あり） /* リストの細かい実現は省略*/
void bucket_sort(int *A,struct cell **B,int *C) { int i,j; /*カウンタ*/ /*配列Bへ挿入*/ for(i=0;i<n;i++){enque(B[A[i]],=i);} /*ソート順に配列Cへ挿入*/ i=0; for(j=0;j<m;j++){ while(B[j]が空でない){ C[i]=A[deque(B[j])]; i++; } return;

バケットソートの計算量配列1回のアクセスには、定数時間で実行できる。（RAMモデルの能力を最大限に使っていることに注意しましょう。）
繰り返し回数は、明らかにデータ数ｎ回です。また、配列Bの準備や、走査のために、の時間量必要です。最悪時間量のアルゴリズムです。

基数ソート方針大きい桁の数に対して、桁毎にバケットソートをしてソートする。下位桁から順にバケットソートする。

基数ソートの動き（３桁） A A A A 650 2 2 221 250 650 106 23 1 1 1 1 215 2 23 2 221 2 2 33 3 2 3 2 3 221 3 47 0桁でソート 23 4 106 4 372 4 4 106 １桁でソート 226 2桁でソート 5 226 5 23 5 5 126 6 250 6 33 6 126 6 215 7 126 7 215 7 33 7 221 372 106 47 226 8 8 8 8 47 226 650 250 9 9 9 9 215 126 250 372 10 10 10 10 372 33 47 650 11 11 11 11

基数ソートの実現 /*細かい実現は省略*/ void radix_sort(int *A) { int i,j; /*カウンタ*/
for(k=0;k<max_k;k++) bbucket_sort(A,k); /*バケットソートを第ｋ桁でソートして、もとの配列に戻すように拡張する。*/ } return;

基数ソートの計算量バケットソートを桁数分行えばよいので、ｋ桁数を基数ソートするには、最悪時間量のアルゴリズムです。また、
桁必要です。種類のデータを区別するには、のときには、結局の時間量を持つアルゴリズムです。だから、バケットソートや基数ソートは、データ範囲mや、桁数kに注意しましょう。

４．整列のアルゴリズム.

Similar presentations

Presentation on theme: "４．整列のアルゴリズム."— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

４．整列のアルゴリズム.

Similar presentations

Presentation on theme: "４．整列のアルゴリズム."— Presentation transcript:

Similar presentations

About project

フィードバック