大規模収集データに基づいたソフトウェアエンジニアリング

大規模収集データに基づいたソフトウェアエンジニアリング
SPES2003ソフトウェアプロセスエンジニアリングシンポジウム大規模収集データに基づいたソフトウェアエンジニアリング井上克郎大阪大学大学院情報科学研究科

ソフトウェア開発は工学？

ソフトウェア開発の現状と問題点ソフトウェアの信頼性ソフトウェアの生産性経験的なノウハウや非科学的な手法，ツールを使う場合が多い
多数のバグを含んだソフトの流通一度ダウンすると多大な社会的損失ソフトウェアの生産性開発期間の短縮要請人海戦術による限界経験的なノウハウや非科学的な手法，ツールを使う場合が多い

科学的手法に基づくソフトウェア開発多くの他の科学、工学分野では、計測して定量化し、評価を行い、それをフィードバックして改善を行うのが普通（フィードバックループ）ソフトウェア開発の分野では？

Zelkowitz-Wallaceによる評価法分類
観測型(Observational) 実際に行われているプロジェクトを横から観測して評価履歴型(Historical) 過去に行われたプロジェクトのデータや発表された論文に基づいて評価制御型(Controlled) 目的とするデータを得るために環境を整えてプロジェクトを行い評価する V. Zelkowitz, D. R.Wallace, "Experimental Models for Validating Technology", IEEE Computer, pp.23-31, May 1998.

観測型評価プロジェクトモニタ事例研究アサーション野外調査(Field Study) 対象を漠然と観察。目標不明確な場合も。簡単
対象をより深く解析。まだ、変動要素の制御が不十分だが、比較的簡便アサーション主張がなりたつことを簡単なプロジェクトで実証。厳密な評価としては不十分。野外調査(Field Study) いろいろなプロジェクトを見て回る。条件を揃えるのが困難だが追証しやすい。

履歴型文献調査事例調査経験 (静的解析) 過去発表された論文を探す。条件や視点の統一不可能。簡単
過去のプロジェクトデータをひっくりかえす。条件不統一でデータ限られている経験過去のプロジェクトの定性的なデータを調べる。定性的な議論できない。やりやすくて簡単に傾向がわかる (静的解析) 作ったプロダクトの解析をする。方法には適用できない。評価の自動化できるかもしれない。

制御型繰返し実験室 (動的解析) (シミュレーション) 条件を揃えていくつものプロジェクトで繰り返す。高価。
条件を揃えて実験室で繰り返す。スケーラビリティ。条件を制御しやすく比較的安価。 (動的解析) プロダクトの効率を実行させて計測。方法には適用できない。 (シミュレーション) 仮想データで実行。

発表された論文の分類（他の科学）方法＼論文種類デバイス物理臨床医学人類学評価なし 16% 58% 6% 31%
方法＼論文種類デバイス物理臨床医学人類学評価なし 16% 58% 6% 31% プロジェクトモニタ事例評価 40% 16% 6% 8% アサーション 8% 4% 8% 野外調査 % 文献調査 4% 11% 24% 23% 事例調査 6% 23% 経験 5% 8% 静的解析繰返し　　 5% 12% 実験室　　 % 動的解析 32% 5% シミュレーション

ソフトウェア工学の現状 30年に亘って，いろいろな技法，システム，ツールなどの提案がされてきた．あまりにも，言いっぱなしの提案が多い
評価するために手間暇かかる－＞歴史で評価（ICSE n-10)

ソフトウェア工学の論文が使っている評価法
実験なしプロジェクトモニタ事例研究アサーション野外調査文献調査評価法 1985 事例調査 1990 -ICSE -TSE -IEEE Software 1995 経験静的解析繰返し実験室動的解析シミュレーション 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 論文の割合

Empirical Software Engineering

エンピリカルソフトウェア工学定量的なデータに基づいてソフトウェア工学におけるいろいろな手法、技術、ツールなどの評価を行う
データの収集が必須実際の開発現場のデータオープンソース開発プロジェクトのデータエンピリカルソフトウェア工学に関する雑誌、国際会議、研究機関ができつつある

Journal by Kluwer Empirical Software Engineering

2002 International Symposium on Empirical Software Engineering

Fraunhofer IESE Model Fraunhofer財団（政府系研究支援）
Institute for Experimental Software Engineering 大学工房モデル Kaiserslautern大学を基礎大学から車で10分仕事内容ソフトウェア開発に関わる技術評価ソフトウェア品質向上システムの設計品質規格認証への支援ソフトウェア技術者教育の支援ソフトウェア購入・発注・開発管理の支援

Fraunhofer Institute for Experimental Software Engineering

これからのソフトウェアエンジニアリング

データの粒度による分類計測・検索評価・分析フィードバック粒度細粗目的形態対象ユーザビリティ・問題把握
ヘルプ、ツール・ガイドライン対象各開発者の作業や生産物プロジェクト群（企業内全資産、全オープンソース等）パターンや部品、知見の抽出、利益予測部品共通化、リファレンスモデル・標準化単一プロジェクト進捗把握、コスト管理プロセス改善、資産再利用既存のソフトウェア工学技術

粗粒度データを対象としたSE ＊（実用化はまだまだだが）ソフトウェア工学として細・中粒度はかなり研究されている
　　　→　Local　Software Engineering ＊粗粒度を陽に意識したソフトウェア工学まだない　 →　Global　Software Engineering ＊組織の利益に直結する結果が得やすい＊基礎となる技術の種はいろいろある＊計算機のパワーアップ、ネットワークの高速化によって、実現できそうな気配

ターゲットとなる研究・開発プロジェクトにまたがった大規模データの収集，蓄積技術(Inter-project Data Collection) 得られたデータを大域的に解析・評価技術(Global Analysis) 評価結果に基づいて経験や知識を資産化する技術(Software Asset Management) 粒度間の情報交換技術(Knowledge Circulation)

目指すシステム

システム使用イメージプログラムの生産性が、社内的な再利用やオープンソースの利用で劇的に上がる
管理しきれなかった膨大な社内資産が、見通しよく整理できた過去の同類のプロジェクト情報を有効利用して、コスト管理が厳密になった蓄積した欠陥情報を利用して、信頼性を大幅に改善された

関連基礎技術(1) コードクローン検出

コードクローンソースコード中に類似したコード片があるとき、それらをコードクローンというコードクローンはソフトウェア保守を困難にする
　　　コードクローンはソフトウェア保守を困難にするクローンクラスクローンペア

コードクローン検出ツーCCFinder ソースコードをトークン単位で直接比較することによりクローンを検出
数百万行規模のシステムにも実用時間で解析可能実用的に意味のあるクローンのみを検出名前空間の正規化（ユーザー定義名の置き換えに対処）テーブル初期化部分を取り除くモジュールの区切りを認識する

CCFinderの処理概要(1) ソースコード CCfinder 字句解析トークン列変換処理変換後トークン列検出処理クローン情報
出力整形処理クローンペア位置情報

CCFinderの処理概要(2) 1. static void foo() throws RESyntaxException {
ソースコード字句解析 1. static void foo() throws RESyntaxException { String a[] = new String [] { "123,400", "abc", "orange 100" }; org.apache.regexp.RE pat = new org.apache.regexp.RE("[0-9,]+"); int sum = 0; for (int i = 0; i < a.length; ++i) if (pat.match(a[i])) sum += Sample.parseNumber(pat.getParen(0)); System.out.println("sum = " + sum); 9. } 10. static void goo(String [] a) throws RESyntaxException { RE exp = new RE("[0-9,]+"); int sum = 0; for (int i = 0; i < a.length; ++i) if (exp.match(a[i])) sum += parseNumber(exp.getParen(0)); System.out.println("sum = " + sum); 17. } トークン列変換処理変換後トークン列検出処理クローン情報出力整形処理クローンペア位置情報

CCFinderの処理概要(3) ソースコード字句解析トークン列変換処理変換後トークン列検出処理クローン情報出力整形処理
クローンペア位置情報

CCFinderの処理概要(4) ソースコード字句解析トークン列変換処理変換後トークン列検出処理クローン情報出力整形処理
クローンペア位置情報

CCFinderの処理概要(5) 1. static void foo() throws RESyntaxException {
ソースコード 1. static void foo() throws RESyntaxException { String a[] = new String [] { "123,400", "abc", "orange 100" }; org.apache.regexp.RE pat = new org.apache.regexp.RE("[0-9,]+"); int sum = 0; for (int i = 0; i < a.length; ++i) if (pat.match(a[i])) sum += Sample.parseNumber(pat.getParen(0)); System.out.println("sum = " + sum); 9. } 10. static void goo(String [] a) throws RESyntaxException { RE exp = new RE("[0-9,]+"); int sum = 0; for (int i = 0; i < a.length; ++i) if (exp.match(a[i])) sum += parseNumber(exp.getParen(0)); System.out.println("sum = " + sum); 17. } 字句解析トークン列変換処理変換後トークン列検出処理クローン情報出力整形処理クローンペア位置情報

適用例#1 JDKのライブラリ JDK（Java Development Kit） 1.2.2（サンプルとデモプログラムを除く）
入力ファイルは164８個，約50万行ツールの実行には，Pentium III 650MHzおよび1GBのRAMを持つPCで約3分を要した

JDKのコードクローン散布図両軸はソースファイルを辞書順に並べたもの 20行以上のコードクローンを図示
多くのコードクローンが密集している（A) 最長のコードクローン（B） B A

コードクローンが密集している部分（A） src/javax/swing/plaf/multi/*.java（29個）
クラス名を除いてまったく同じクラスの定義コード生成ツールによって生成された 31| */ 32| public class MultiButtonUI extends ButtonUI { 33| 160| public static ComponentUI createUI(JComponent a) { 161| ComponentUI mui = new MultiButtonUI(); 162| return MultiLookAndFeel.createUIs(mui, 163| ((MultiButtonUI) mui).uis, 164| a); 165| }

最長のコードクローン（B）最長のコードクローン（349行） src/java/util/Arrays.javaの18の“sort”メソッド
シグネチャ（引数の型と数）が異なるアルゴリズムは同一

FreeBSD, Linux, NetBSDの比較
3つのOSの比較 FreeBSD 4.0 (C 220万行) Linux (C 240万行) NetBSD 1.5 （C 260万行) FreeBSDとNetBSDは同じソースコードから，Linuxは異なるソースコード実行には108分を要した

UNIXカーネル間のコードクローン

FreeBSDとLinuxのコードクローン
ドライバ部分に多くのクローン「ファイル」が存在する共通のソースから分岐したソースファイル名前が付け替えられたソースファイルあるソースファイルを複数のファイルに分割している →

関連基礎技術(2) ソフトウェアシステムの類似度

類似度の定義二つのプロダクトP={p1,…,pm},Q={q1,…,qm}に対し、等価な要素の対応R⊆P×Qが得られるとする
PとQのRに対する類似度S(0≦S≦1)を以下のように定義する P Q ≡

CCFinderを利用したシステム間類似度
SMMT 前処理後のP P Step1 Step2 Step3 前処理 CCFinder の実行 CCFinder の実行結果 diff の実行 Q diff の実行結果前処理後のQ Step4 対応の抽出抽出結果 Step5 類似度の計算類似度

実験 UNIX系OSを用いて類似度を計算した 23個のOSのすべての組み合わせで類似度を求めたカーネル部分のC言語のソースのみ
4.4BSDLite, 4.4BSDLite2 FreeBSD2.0, 2.0.5, 2.1, 2.2, 3.0, 4.0 NetBSD1.0, 1.1, 1.2, 1.3, 1.4, 1.5 OpenBSD2.0, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8 23個のOSのすべての組み合わせで類似度を求めたカーネル部分のC言語のソースのみ

同一種類のOS間での類似度 FreeBSD 2.2との間の類似度

異なる種類のOS間での類似度 FreeBSD3.0とNetBSD1.3で4.4BSDLite2が取り込まれている

　類似度を距離とした系統樹

関連基礎技術(3) ソフトウェア部品検索

ソフトウェア部品の再利用人手を介さない、自動的に保存、検索ができる部品ライブラリが必須膨大なソフトウェアが毎日開発され続けている
同様なソフトウェア部品 (ライブラリやコード片、抽象的なアルゴリズム ...) が異なるところで独立に開発されているかもしれない高信頼性、高生産性の鍵再利用ソフトウェアライブラリを探し回るのは大変サーチ機能が貧弱整合性を保った管理は困難人手を介さない、自動的に保存、検索ができる部品ライブラリが必須 As you can see the case of SourceForge case, numerous ... In such a situation, similar components, which mean libraries,

部品ランクモデル検索結果の表示順を決めるためのモデルプログラム部品(component)群をグラフ化部品の重み計算
重みの順序：部品ランクComponent Rank (CR)　 As you can see the case of SourceForge case, numerous ... In such a situation, similar components, which mean libraries,

部品グラフ部品利用システム X システム Y A B F C G D E H I
We are going to introduce component rank model. First, we define a component graph. This is a directed graph, whose nodes are software components, and whose edges are use relations on component. 部品利用

類似部品の集約集約化した部品グラフ部品グラフ C G C BF AD E G B F A D E
2nd adjustments is clustering components. This is a component graph. In this graph, component B and F are almost the same. Also, A and D are very similar. We merge these similar components into single components, and draw new edges to or from merged nodes, as shown here. We call this new graph, clustered component graph. This clustering operation is very important, because there are many copied components in software systems. 部品グラフ

部品の重み 0.4 0.2 0.2 A B 0.2 0.4 0.2 0.4 C 安定した重み配置は、隣接行列の固有値計算による
部品ランク : 頂点の重みの順　1:A, C 3:B

部品ランクモデルの意味ユーザの視点移動をマルコフモデルで表したもの単位時間ごとにユーザ視点が利用関係に沿って移動
0.01 0.02 0.03 0.05 0.001 0.1 ユーザの視点移動をマルコフモデルで表したもの単位時間ごとにユーザ視点が利用関係に沿って移動頂点の重みはユーザ視点の存在確率

部品ランクの適用例 JDK1.3（約1800ファイル）を対象として部品ランクを計算
言語仕様上、直接的、間接的に利用しなければならないクラスが上位を占めている

S P A R S-J Software Product Archiving, Analyzing and Retrieving System for Java Component Collector Analyzer and Evaluator インターネット・イントラネット Query Handler Component Archive ソフトウェア検索者 SPARS-J

エンピリカルソフトウェア工学プロジェクトESEP

プロジェクト概要文部科学省リーディングプロジェクト 2003年4月開始で5年計画奈良先端科学技術大学院大学/大阪大学
e-society基盤ソフトウェア総合開発計画 2003年4月開始で5年計画奈良先端科学技術大学院大学/大阪大学産学連携の大学工房モデル

実践的ソフトウェア工学のための産学協力方式
大学工房モデル実践的ソフトウェア工学のための産学協力方式人材派遣問題提供予算提供人材派遣新しい技術問題解決ノウハウ吸収人材育成技術の評価結果研究資金新しいテーマの発見大学大学工房産業界

エンピリカルソフトウェア工学ラボ千里中央にオフィス専任研究員、企業出向者、大学研究者、事務員滞在研究開発のみならず交流の拠点
多様なソフトウェア工学に関する技術委員会常に内外の市場調査

データに基づいたソフトウェア開発支援システム
海外との連携グローバルなエンピリカルソフトウェア工学研究グループ各企業フラウンホッファー実験的ソフトウェア工学研究所 IESE 共同研究フラウンホッファー実験的ソフトウェア工学研究所（独：Kaiseralautern) 所長:Dr.Dieter Rombach （ Kaiseralautern大学）技術委員会エンピリカルソフトウェア工学ラボ（大阪・千里中央）データに基づいたソフトウェア開発支援システムメリーランド、フラウンホッファー実験的ソフトウェア工学センター FC-MD （米：Maryland) 所長：Dr.Victor Basili （ Maryland大学）協力大阪大学奈良先端科学技術大学院大学エンピリカルソフトウェア工学研究センタ CAESER （豪：シドニー） Dr.Ross Jeffery （ニューサウスウェールズ大学) 文部科学省 e-Society基盤ソフトウェア総合開発計画 IESE : Fraunhofer Institute for Experimental Software Engineering FC-MD: Fraunhofer Center for Experimental Software Engineering, Maryland CAESER: Center for Empirical Software Engineering Research Dr.B.Bohem

ベースとなるシステムオープンソース開発管理システムを基本既存のWebインターフェースの利用 CVS：レポジトリ構築、バージョン管理
MailMan：メール蓄積、管理 Gnats：バグ追跡既存のWebインターフェースの利用 Corporate　Source　（ZeeSource）

System Architecture

グローバルSEのためのデータの標準化プロダクトデータプロセスデータプロセス・プロダクト間関連データ CVSを使った各種プロダクトの履歴
プロダクト間の種々の関係定義をXMLで標準化プロセスデータ XMLを使った標準形式のイベント系列を蓄積 CVS、MailMan、Gnatsのログなどから自動抽出（粗粒度情報）各作業者の作業環境からの標準形式での情報提供（細粒度情報も可能）プロセス・プロダクト間関連データ

プロダクトデータに関して関連情報の自動抽出プロダクトの自動分類再利用部品の抽出プロダクト情報のインデキシング、蓄積手法
検索、ブラウジング手法

プロセスデータに関してプロダクトデータからプロセスデータの抽出法プロセスデータの自動報告プロセスデータの正規化手法
組織レベル、プロジェクトレベル、個人レベルそれぞれの解析プロセス比較、評価手法

システムの使用イメージ(プロジェクト内）
予想進捗投入コストトータルサイズ完成モジュール数成功テストケースドキュメント章数バグレポート数 ... t work 平均作業量開発者Xの作業量 t

システムの使用イメージ（プロジェクト比較）
progress Project A Project B Project C 進捗度の比較バグ、信頼度の予測 t cost コストの比較 1 2 3 4 5 project

システムの使用イメージ（プロダクト）ソフトウェア部品、コード片検索キーワード入力コード片（クローン）類似プロダクトの分類、整理

今後の計画 11月始めに、連携海外研究者と共同WS WSで本システムの初期バージョンの公開初期バージョンの利用促進
評価に参加する協力企業の募集それ以外の一般参加企業の募集

受託開発と開発データこの種の開発データの添付がソフトウェア受託開発の契約に重要になってくる
クリティカルシステムのみならず、一般のソフトウェアシステムでも社会的なインパクトが大きくなってきているちゃんと開発しているかの把握、フェイクしにくい直接データちゃんと開発しているところにとっては容易なこと ISO9000やCMMのための基礎データとしても有用

大規模収集データに基づいたソフトウェアエンジニアリング

Similar presentations

Presentation on theme: "大規模収集データに基づいたソフトウェアエンジニアリング"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

大規模収集データに基づいた ソフトウェアエンジニアリング

Similar presentations

Presentation on theme: "大規模収集データに基づいた ソフトウェアエンジニアリング"— Presentation transcript:

Similar presentations

About project

フィードバック

大規模収集データに基づいたソフトウェアエンジニアリング

Presentation on theme: "大規模収集データに基づいたソフトウェアエンジニアリング"— Presentation transcript: