Geminiを用いた効果的なコードクローン分析方法

Slides:

Advertisements

Similar presentations

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 識別子名のタグクラウドを用いた.

Advertisements

Software Engineering Laboratory, Department of Computer Science, Graduate School of Information Science and Technology, Osaka University 保守支援を目的としたコードクローン情報検索ツール.

背景ソフトウェアの大規模化・複雑化生産性と品質の向上 ↓ オブジェクト指向分析設計の適用開発ツールの投入.

大杉直樹†, 神谷年洋‡, 門田暁人†, 松本健一† †奈良先端科学技術大学院大学情報工学科 {naoki-o, akito-m,

コードクローン履歴閲覧環境を用いたクローン評価の試み

AGMアルゴリズムを用いたギャップを含むコードクローン情報の生成

剽窃他人の作品や論文を盗んで，自分のものとして発表すること．プログラムが剽窃される事例もある． Aさんのプログラム Xさんのプログラム

研究の背景コードクローンソースコード中に存在する一致または類似したコード片

リファクタリングのための変更波及解析を利用したテスト支援ツールの提案

川口真司松下誠井上克郎大阪大学大学院情報科学研究科

プログラム実行履歴を用いたトランザクションファンクション抽出手法

アイテムセットマイニングを利用したコードクローン分析作業の効率向上

大規模ソースコード集合を対象とした類似関数集合群の抽出

ソースコードの変更履歴におけるメトリクス値の変化を用いたソフトウェアの特性分析

コードクローン分析ツールGeminiを用いたコードクローン分析手順

コードクローンの分布情報を用いた特徴抽出手法の提案

ギャップを含むコードクローンのフィルタリング手法の提案

ソースコードの同時修正支援における関数クローン検出ツールの有効性調査

コードクローンに含まれるメソッド呼び出しの変更度合の分析

コードクローンに含まれるメソッド呼び出しの変更度合の調査

識別子の命名支援を目的とした動詞-目的語関係の辞書構築

識別子の共起関係に基づく類似コード検索法の提案と欠陥検出への適用

ソードコードの編集に基づいたコードクローンの分類とその分析システム

オブジェクト指向プログラムにおけるエイリアス解析手法の提案と実現

利用関係に基づく類似度を用いたJavaコンポーネント分類ツールの作成

クローンセットに対する主要編集者の分析法の提案と調査

重複コードと非重複コードにおける修正頻度の比較

コードクローン検出ツールを用いたソースコード分析システムの試作とプログラミング演習への適用

リファクタリング支援のためのコードクローンに含まれる識別子の対応関係分析

ソフトウェア保守性を評価するメトリクス間の関連分析

ソースコードの特徴量を用いた機械学習によるメソッド抽出リファクタリング推薦手法

コードクローン統合分析ツール ICCA 肥後芳樹† ，吉田則裕† ，神谷年洋‡，楠本真二† ，井上克郎†

コードクローンの動作を比較するためのコードクローン周辺コードの解析

コードクローンに対する一貫性のない変更に起因する欠陥の検出

Token Comparison Approach to Detect Code Clone-related Bugs

柔軟に変更可能な字句解析機構を持つコードクローン検出ツールの開発

ソースコードの静的特性を用いた Javaプログラム間類似度測定ツールの試作

UMLモデルを対象としたリファクタリング候補検出の試み

プログラム実行履歴を用いたコードクローン検出手法

コードクローン検出に基づくデザインパターン適用支援手法の提案と実現

コードクローン編集者数に着目した開発履歴の分析

グラフマイニングアルゴリズムを用いたギャップを含むクローン抽出手法の提案

コード片に共通した特性を自動抽出するソースコード閲覧ツールの試作

多様なプログラミング言語に対応可能なコードクローン検出ツール CCFinderSW

ソフトウェア保守のためのコードクローン情報検索ツール

コードクローンの理解支援を目的としたコードクローン周辺コードの解析

コードクローン分類の詳細化に基づく集約パターンの提案と評価

コーディングパターンのあいまい検索の提案と実装

コードクローン間の依存関係に基づくリファクタリング支援環境の実装

コードクローンの分布情報を用いた特徴抽出手法の提案

オブジェクトの協調動作を用いたオブジェクト指向プログラム実行履歴分割手法

メトリクス値の変化に基づくコードクローンの編集傾向分析

大阪大学大学院情報科学研究科コンピュータサイエンス専攻井上研究室

保守請負時を対象とした労力見積のためのメトリクスの提案

コードクローン間の依存関係に基づくリファクタリング支援手法の提案と実現

アスペクト指向言語のための視点に応じた編集を可能にするツール

クローン検出ツールを用いたソフトウェアシステムの類似度調査

オープンソースソフトウェアに対するコーディングパターン分析の適用

メソッドの同時更新履歴を用いたクラスの機能別分類法

コードクローン間の依存関係に基づくリファクタリング支援手法の提案と実現

欠陥検出を目的とした類似コード検索法吉田則裕，石尾隆，松下誠，井上克郎大阪大学大学院情報科学研究科

容易に使用可能な grep風コードクローン検索ツール

複雑度メトリクスを用いた JAVAプログラム品質特性の実験的評価

プログラムの一時停止時に将来の実行情報を提供するデバッガ

コードクローン解析に基づくデザインパターン適用候補の検出手法

Geminiを用いた効果的なコードクローン分析方法

識別子の読解を目的とした名詞辞書の作成方法の一試案

オブジェクト指向メトリクスを用いた開発支援に関する研究 --- VC++とMFCを用いた開発を対象として ---

コードクローンを対象としたリファクタリングの有効性に関する調査

Presentation transcript:

Geminiを用いた効果的なコードクローン分析方法肥後芳樹，吉田則裕，楠本真二，井上克郎大阪大学大学院情報科学研究科 {y-higo, n-yosida, kusumoto, inoue}@ist.osaka-u.ac.jp

はじめに本発表では，より効率的にコードクローン分析を行うためのハウツーを紹介する紹介するハウツーはこれまでの経験から得られたものであり，特に理論的な根拠があるわけではないコードクローン情報だけでは，それらをどう扱うかの決定は難しい他の資産（ドキュメント，プロセス，開発者の知識など）とつき合わせて考えることが重要

コードクローン C1 C2 C3 C4 C5 クローンペアクローンセット (C1, C2) {C1, C2, C4} (C1, C4) コードクローンとはソースコード中に存在する他のコード片と同一または類似したコード片コピーアンドペーストなどのさまざまな理由により生成されるソフトウェアの保守を困難にするあるコード片にバグがあると，そのコードクローン全てについて修正の検討を行う必要があるクローンペアとクローンセット C1 C2 C3 C4 C5 クローンペアクローンセット (C1, C2) {C1, C2, C4} (C1, C4) {C3, C5} (C2, C4) (C3, C5)

コードクローン解析ツールコードクローン検出ツール: CCFinder[1] コードクローン分析ツール: Gemini[2] 与えられたソースコード内に存在するコードクローンを検出さまざまな言語に対応，C/C++, Java, COBOL, ... 高いスケーラビリティ CCFinderX (http://www.ccfinder.net/) コードクローン分析ツール: Gemini[2] ICCAのサブシステムの１つ Aries: リファクタリング支援 Libra: 修正支援 CCFinderの検出したコードクローンを視覚的に表示メトリクスを用いたコードクローンの特徴付け [1] T. Kamiya, S. Kusumoto, and K. Inoue, “CCFinder: A multi-linguistic token-based code clone detection system for large scale source code”, IEEE Transactions on Software Engineering, 28(7):654-670, 2002. [2] Y. Ueda, T. Kamiya, S. Kusumoto and K. Inoue, “Gemini: Maintenance Support Environment Based on Code Clone Analysis”, Proc. Of the 8th IEEE International Symposium on Software Metrics, 67-76, 2002.

利用実績研究機関での利用産業界での利用その他プログラム著作権関係の裁判証拠コードクローン情報を必要とする研究で使用多数の論文参照 EASE，SEC関連プロジェクトでの利用試用・商用ソフトウェア開発プロセスへの導入国内外100社以上で利用その他プログラム著作権関係の裁判証拠大学の演習

目次検出オプション重要でないクローンのフィルタリング大まかな把握特徴的なクローンとその対処法特徴的なファイルとその対処法今後の取り組み

1. 検出オプション最小一致トークン数万能な値は存在しない新規でコードクローン分析を行う場合は 30トークンで 1. 検出オプション最小一致トークン数万能な値は存在しないプログラミング言語，ソフトウェアの規模，ドメインに応じて検出されるコードクローンの量は異なるこれまでの傾向としては，同規模（総行数がほぼ同じ）のソフトウェアの場合，Ｃ言語の（手続き型）プログラムの方がＪａｖａ言語の（オブジェクト指向）プログラムよりも多くクローンを含む傾向がある GUIのプログラムの方が，ＣUIのプログラムのよりもクローンを多く含む傾向がある新規でコードクローン分析を行う場合は 30トークンであまりクローンが検出されないようであれば，値を下げて再検出あまりに多くのクローンが検出されるのであれば，値を上げて再検出

1. 検出オプショントークンの正規化 CCFinderはデフォルト設定では，ユーザ定義名や型名などを表すトークンを特別なトークンに置き換えた後に，クローン検出を行う変数名などが異なるコード片をクローンとして検出できる偶然の一致により，クローンとして検出されてしまうコード片がある新規でクローン分析を行う場合は，デフォルト設定で偶然の一致により，あまりにも多くのクローンが検出されているようであれば，特定の正規化オプションを切る，などの対象が必要例：キャスト名を正規化しない

1. 検出オプショングループの作成（1/2） CCFinderは以下の三種類のクローンの検出・非検出をそれぞれ設定することが可能（デフォルト設定では，全てのクローンを検出する）ファイル内クローングループ内ファイル間クローングループ間クローン対象ファイルを指定しただけでは，グループは設定されていないファイル内クローン，グループ内ファイル間クローンのみを検出しているグループを設定することで，より有益な検出結果を得ることができるグループを設定していない場合の「グループ内クローン」が「グループ内ファイル間クローン」と「グループ間クローン」に分けて検出される

1. 検出オプショングループの作成（2/2）適切なグループ設定の例メニューのスナップショット 1. 検出オプショングループの作成（2/2）適切なグループ設定の例一つのディレクトリ内に含まれるファイル群を一つのグループに一つのモジュールを構成しているファイル群を一つのグループに前者は「マウスの右クリック → add → separator → every directory」で簡単に行うことが可能ファイル間の類似度と共に，グループ間の類似度を得ることができるメニューのスナップショット拡大

1. 検出オプション対象ファイルコードジェネレータが生成したコード（ファイル）はクローン検出対象とすべきではない 1. 検出オプション対象ファイルコードジェネレータが生成したコード（ファイル）はクローン検出対象とすべきではないコードジェネレータが生成したコードは非常に多くのクローンを含む何度も同じ対象ファイルからクローン検出を行う場合ファイルリストをつくると便利「マウスの右クリック → export → files」「マウスの右クリック → export → files and separators」メニューのスナップショット拡大

2. 重要でないクローンのフィルタリング CCFinderの検出するコードクローンはトークンの列であり，重要でないコードクローンを多数検出してしまう switch文の各caseエントリ連続したimport文,printf文, scanf文などフィルタリングメトリクス RNR(S) クローンセット S に含まれるコード片のがど非繰り返し度を表す例トークン列 <x a b c a b c* a* b* c* y> CCFinder は以下の二つのコード片をコードクローンとして検出 x a b c a b c*<F1> a* b* c* y x a b c a b c* a* b* c*<F2> y F1はコード片の長さが6トークン，そのうち5トークンが非繰り返し F2はコード片の長さが6トークン，そのうち2トークンが非繰り返し RNR(S1) = (5 + 2)/(6 + 6) = 7/12 = 0.583

3. 大まかな把握新規でクローン分析を用いる場合（分析の初期段階）に有効スキャタープロットで以下の二つの部分が目立ちやすい部分であるクローンの量・分布状態をひと目で把握できるスキャタープロットで以下の二つの部分が目立ちやすい部分である一定の領域内にコードクローンが密集している部分同じようなパターンが繰り返し出現している部分スキャタープロットで目立つ部分に特徴的なクローンが存在するとは限らない複数種類のクローンが存在した結果，その場所が目立っているメトリクス RNR の値が閾値未満のコードクローンは青色，以上のコードクローンは黒色で描画閾値はユーザが自由に設定可能

3. 大まかな把握クローンが密集している(ANTLR) 繰り返し同じパターンが出現(jdk1.5の一部)

4. 特徴的なクローンとその対処法同形のコード片が多いクローン 4. 特徴的なクローンとその対処法同形のコード片が多いクローンバグが検出された場合，多くの箇所に同様の修正を加えなければならない不安定（繰り返し修正が行われる）なコード修正コスト削減に向けての対策が必要（リファクタリングなど）安定したコード，定型処理部分などもこのようなクローンになりがち．例：データベースへのアクセス部分プログラミング言語の文法上どうしてもクローンになってしまう．例：switch文（連続したcaseエントリ） RNR を用いることである程度の絞込みは可能

4. 特徴的なクローンとその対処法トークン数の多いクローン 4. 特徴的なクローンとその対処法トークン数の多いクローンコピーアンドペーストにより生成されたものではないかと思われるペースト後の変数名やメソッド名の修正漏れがバグに繋がる修正漏れのチェックを行うのは効果的な予防保守実際のプロジェクトのコードからバグを検出単体テスト後のコードを分析見つかったバグ概要（検出された最もトークン数の多いクローン内）ファイル A.cpp とファイルB.cppがクローンを共有ファイルAではxxxAxxxというメソッドが呼ばれているファイルBではxxxBxxxというメソッドが呼ばれているファイルBの中で一箇所だけxxxAxxxというメソッドが呼ばれていたファイルＡからファイルＢへのコピーアンドペーストを行い，修正を忘れた

4. 特徴的なクローンとその対処法水平・垂直分布状態での分類(概要) 4. 特徴的なクローンとその対処法水平・垂直分布状態での分類(概要) メトリクスRAD(S)，NIF(S)の組み合わせを用いて４つのカテゴリを作成各カテゴリに含まれるコードクローンは，特徴が似通っている傾向がある RAD(S): クローンセット S に含まれるコード片のディレクトリ階層上での距離を表す全てのコード片が１つのファイル内に含まれる場合は０全てのコード片が１つのディレクトリ内に含まれる場合は１ NIF(S): クローンセット S に含まれるコード片を持つファイルの数を表す RAD NIF 低高（低，低）（低，高）（高，低）（高，高） Local Horizontal Vertical Global

4. 特徴的なクローンとその対処法水平・垂直分布状態での分類（Local）クローンがディレクトリ階層上近い少数のファイルに存在する局所的な処理を実装したコードクローン RAD NIF 低高（低，低）（低，高）（高，低）（高，高） Local Horizontal Vertical Global は，クローンを表す

4. 特徴的なクローンとその対処法水平・垂直分布状態での分類（Horizontal）クローンがディレクトリ階層上近い多数のファイルに存在する局所的な処理を実装したコードクローンリファクタリングの検討 RAD NIF 低高（低，低）（低，高）（高，低）（高，高） Local Horizontal Vertical Global は，クローンを表す

4. 特徴的なクローンとその対処法水平・垂直分布状態での分類（Vertical）クローンがディレクトリ階層上遠くの少数のファイルに存在する他のサブシステムからアドホックなコピーの恐れ設計情報との一貫性を確認することが有益 RAD NIF 低高（低，低）（低，高）（高，低）（高，高） Local Horizontal Vertical Global は，クローンを表す

4. 特徴的なクローンとその対処法水平・垂直分布状態での分類（Global）クローンがプログラム広範囲の多数のファイルに存在するプログラミング言語に依存した定型処理 RAD NIF 低高（低，低）（低，高）（高，低）（高，高） Local Horizontal Vertical Global は，クローンを表す

5. 特徴的なファイルとその対処法他グループと多くのクローンを共有しているファイル特定のグループのファイルと多くのクローンを共有しているファイルの位置と実装している機能にずれがある他の場所に移動させる複数のグループのファイルと多くのクローンを共有している多くのことを行い過ぎているファイルを分割

5. 特徴的なファイルとその対処法特定のファイルと非常に類似度が高いファイル 5. 特徴的なファイルとその対処法特定のファイルと非常に類似度が高いファイル特定のファイルと非常に類似度が高いファイル本当にそれらのファイルは全て存在することが必要か？重複度90% 重複度90% 重複度90%

6. 今後の取り組みクローンのブックマーク機能全てのクローンを自動的に正しく分類することは不可能人間が手動で分類する支援確認したクローンにチェックを入れる既に確認したという情報を残す必要でないクローンであればクローン情報から消す５