TF-IDF法とLSHアルゴリズムを用いたコードブロック単位のクローン検出法

Slides:

Advertisements

Similar presentations

ゲームプログラミング講習第2章関数の使い方

Advertisements

サービス管理責任者等研修テキスト分野別講義　　　「アセスメントと　　　　　　　支援提供の基本姿勢」＜児童発達支援管理責任者＞平成２７年１０月１日.

ヒトの思考プロセスの解明を目的とするワーキングメモリの研究

第２７講オームの法則電気抵抗の役割について知るオームの法則を使えるようにする抵抗の温度変化を理解する教科書Ｐ．223～226

コラッツ予想の変形について東邦大学　理学部　情報科白柳研究室山中　陽子.

コンパイラ第3回字句解析 ― 決定性有限オートマトンの導出 ―

第5章家計に関する統計ｰ経済統計ｰ.

公共財公共経済論 II no.3 麻生良文.

VTX alignment D2 浅野秀光２０１１年１２月１５日　放射線研ミーティング.

冷却フランシウム原子を用いた電子の永久電気双極子能率探索のためのルビジウム磁力計の研究

生命情報学（８）スケールフリーネットワーク

前半戦「史上最強」風札上げクイズ.

認知症を理解し環境の重要性について考える

フッ化ナトリウムによる洗口２０１０・９・１３宮崎市郡東諸県郡薬剤師会学校薬剤師　　日高　華代子.

食品の安全性に関わる社会システム：総括健康弱者ハイリスク集団 HACCP （食肉処理場・食品工場）農場でのQAP 一般的衛生管理

規制改革とは？ ○規制改革の目的は、経済の活性化と雇用の創出によって、　活力ある経済社会の実現を図ることにあります。

地域保健対策検討会に関する私見（保健所のあり方）

公共政策大学院鈴木一人第8回　専門化する政治公共政策大学院鈴木一人

医薬品ネット販売規制について 2012年５月31日ケンコーコム株式会社.

平成２６年８月２７日（水）大阪府健康医療部薬務課医療機器グループ

平成26年度呼吸器学会からの提案結果（オレンジ色の部分が承認された提案）新規提案既収載の変更免疫組織化学染色、免疫細胞化学染色

エナジードリンクの危険性 2015年6月23日経営学部市場戦略学科MR３１９５稲沢珠依.

自動吸引は在宅を変えるか大分協和病院　院長　　　　　　　　山本　真.

毎月レポートビジネスの情報（2016年7月号）.

医療の歴史と将来医療と医薬品産業個人的経験 3. 「これからの医療を考える」（1）医薬品の研究開発－タクロリムスの歴史－

社会福祉調査論第4講２.社会調査の概要 11月２日.

2015年12月28日－2016年3月28日掲載分.

2010度民事訴訟法講義補論関西大学法学部教授栗田　隆.

腫瘍学概論埼玉医科大学国際医療センター包括的がんセンター緩和医療科/緩和ケアチーム奈良林至

“企業リスクへの考え方に変化を求められています。トータルなリスクマネジメント・サービスをプロデュースします。“

情報漏えい経済情報学科 E 　西村　諭 E 　釣　洋平.

金融班（ミクロ）.

第11回 2009年12月16日今日の資料＝A4・4枚＋解答用紙期末試験：2月3日（水）N2教室

【ＡＢＬ用語集】（あいうえお順） No 用語解説 12 公正市場価格 13 債権 14 指名債権 15 事業収益資産 16 集合動産 17

基礎理論(3) 情報の非対称性と逆選択公共政策論II No.3 麻生良文.

浜中健児昭和４２年３月２７日生まれ東京都在住株式会社ピー･アール･エフ代表取締役（学歴) 高校：千葉県立東葛飾高校卒業

COPYRIGHT(C) 2011 KYUSHU UNIVERSITY. ALL RIGHTS RESERVED

Blosxom による CMS 構築と SEO テクニック

記入例 JAWS DAYS 2015 – JOB BOARD 会社名採用職種営業職／技術職／その他（）仕事内容待遇募集数

ネットビジネスの企業と特性 MR1127　まさ.

Future Technology活用による業務改革

ネットビジネス論（杉浦）第８回　ネットビジネスと情報技術.

g７４１００１長谷川嵩 g７４０７９６迫村光秋 g７４１０００西田健太郎 g７４１１４７小井出真聡

自然独占公共経済論 II no.5 麻生良文.

Autonomic Resource Provisioning for Cloud-Based Software

Webショップにおける webデザイン 12/6　08A1022 甲斐　広大.

物理的な位置情報を活用した仮想クラウドの構築

ハイブリッドクラウドを実現させるポイントと SCSKのOSSへの取組み

寺尾敦青山学院大学社会情報学部第12回　情報デザイン（４）情報の構造化と表現寺尾　敦青山学院大学社会情報学部

【１−１．開発計画 – 設計・開発計画】システム開発計画にはシステム開発を効率的、効果的に実行する根拠（人員と経験、開発手順、開発・導入するシステム・アプリケーション・サービス等）を記述すること。システム開発の開始から終了までの全体スケジュールを記載すること。アプリケーション機能配置、ソフトウェア、インフラ構成、ネットワーク構成について概要を示すこと。

6　日本のコーポレート・ガバナンス 2008年度「企業論」川端　望.

急成長する中国ソフトウェア産業中国ソフトウェアと情報サービス産業の規模総売上高は5年間で約5.3倍の成長

米国ユタ州ＬＤＳ病院胸部心臓外科フェローの経験

公益社団法人日本青年会議所関東地区埼玉ブロック協議会 JCの情熱(おもい)育成委員会 2011年度第1回全体委員会

次世代大学教育研究会のこれまでの活動 2005年度次世代大学教育研究大会明治大学駿河台校舎リバティタワー9階1096教室

子どもの本の情報大阪府内の協力書店の情報こちらをクリック大阪府内の公立図書館・図書室の情報

第2回産業調査小島浩道.

〈起点〉を示す格助詞「を」と「から」の選択について

広東省民弁本科高校日語専業骨幹教師研修会 ①日本語の格助詞の使い分け ②動詞の自他受身の選択について　　－日本語教育と中日カルチャーショックの観点から－名古屋大学杉村　泰.

■5Ahバッテリー使用報告事例紹介/東【その1】 ■iphon4S（晴れの昼間/AM8-PM3） ◆約1時間で68%⇒100％

『ワタシが!!』『地域の仲間で!!』市民が始める自然エネルギー!!

ポイントカードの未来形を形にした「MUJI Passport」

SAP NetWeaver を支える Microsoft テクノロジーの全貌（Appendix）

ガイダンス（内業）測量学実習　第1回.

Python超入門久保幹雄東京海洋大学.

熱力学の基礎丸山茂夫東京大学大学院工学系研究科機械工学専攻

京都民医連中央病院 CHDF学習推進委員会

資料２－④ ④下水道.

ＡｃｃｅｓｓによるＳＱＬの操作～実際にテーブルを操作してみよう！～.

Presentation transcript:

TF-IDF法とLSHアルゴリズムを用いたコードブロック単位のクローン検出法井上研究室横井一輝

コードクローンソースコードの同一あるいは類似した部分を持つコード片ソフトウェアの保守を困難にする大きな要因クローンペアコードクローン

関数クローン検出法[1] 関数単位でコードクローンを検出する検出時間が短い類似した処理を行う関数をクローンとして検出コード片単位より集約が行いやすい検出時間が短い LSH アルゴリズム[2]を用いてクラスタリングを行い，コードクローンを高速に検出できる [1]山中裕樹, 崔恩瀞, 吉田則裕, 井上克郎. 情報検索技術に基づく高速な関数クローン検出.情報処理学会論文誌, Vol. 55, No. 10, pp. 2245–2255, 2014. [2] P. Indyk, R. Motwani. Approximate nearest neighbors: towards removing the curse of dimensionality. In Proc. of STOC ’98, pp. 604-613, 1998.

関数クローン検出法のアルゴリズム STEP1: 各関数からワードの抽出 STEP2: ワードに対して重みを計算し特徴ベクトルの計算関数A ワード個数 xxx 3 yyy 2 … 関数A 類似度関数対クローン 0.95 関数 A ✔ 関数 B 0.70 関数 C 関数 D 関数 E 0.90 ✔　 … 関数A 関数B 関数B 関数C 関数D 関数E ワード個数 xxx 3 yyy 2 … 関数B ソースコード特徴ベクトルクラスタクローン検出ワードリスト

検出粒度を小さく，コードブロック単位で検出することで従来の関数クローンに加えて，検出漏れを削減したい研究動機関数クローン検出法の問題点関数の一部が一致する場合，検出漏れがある例 function A { …中略… if ( ) { yyy; } function B { if ( ) { yyy; } …中略… 検出粒度を小さく，コードブロック単位で検出することで従来の関数クローンに加えて，検出漏れを削減したい

研究概要コードブロック単位でのクローン検出を行う手法を提案 LSH アルゴリズムを変更評価実験 Multi-Probe LSH[3] : メモリ使用量を削減した LSH 評価実験検出精度，検出時間の比較 [3] L. Qin, J. William, W. Zhe, C. Moses, L. Kai. Multi-probe LSH: efficient indexing for high-dimensional similarity search. Proceedings of the 33rd international conference on Very large data bases, pp. 950-961, 2007.

コードブロックの定義以下のいずれかをコードブロックと定義する入れ子構造の内側もブロックとする関数中括弧で囲まれた部分 if while for do-while switch 入れ子構造の内側もブロックとする function A { if ( ) { yyy; while ( ) { xxx; } Block A Block B Block C

ワードの定義以下の要素をワードとするワードの分割ワードの置換識別子名予約語ワードの分割区切り文字による分割（例：snake_case ⇒ snake + case）大文字による分割（例：CamelCase ⇒ camel + case）ワードの置換 2文字以下の識別子は同一のメタワードとして置換 i，j や i1，i2 等の識別子は意味情報が込められていない

ブロッククローンペアの定義ブロッククローンペア（α, β）右図のコードブロック A, B コードブロック α, β 間の類似度が閾値以上コードブロック α, β 間に共通部分がない右図のコードブロック A, B 共通部分がある ⇒ ブロッククローンペアでない function A { if ( ) { while ( ) { a=0; } b=1; Block A Block B

極大ブロッククローンペアの定義極大ブロッククローンペア（α, β）極大ブロッククローンペア（α, β）を以降ブロッククローンペアと呼ぶ α, β それぞれを真に包含するいかなるコードブロックもブロッククローンペアでない右図のブロック A, C が極大ブロッククローンペア function A { if ( ) { while ( ) { a=0; } b=1; Block A Block B function B { if ( ) { while ( ) { a=0; } b=1; Block C Block D 極大ブロッククローンペア（α, β）を以降ブロッククローンペアと呼ぶ

提案手法のアルゴリズム STEP1: 構文解析を行い抽象構文木を生成 STEP2: 抽象構文木からコードブロックとワードを抽出ブロック A 類似度ブロック対クローン 0.95 ブロックA ✓ ブロックB 0.70 ブロックC ブロックD 0.90 ブロックE … ブロック A ブロックA ブロックB ブロックB ブロックC ブロックD ブロックE ブロックB ソースコード抽象構文木クローンペアリストワードリスト特徴ベクトルクラスタ

特徴ベクトルの計算 × TF-IDF 法[4] を利用文書中の単語に関する重み付けの手法 TF値とIDF値の積で表されるコードブロック中のワードの出現頻度ソースコード全体のワードの希少さ × TF 値 IDF 値各ワードの重みを特徴量として各コードブロックを特徴ベクトルに変換 [4] B. Ricardo, R. Berthier. Modern information retrieval: The concepts and technology behind search. Addison-Wesley, 2011.

特徴ベクトルのクラスタリング LSH (Locality-Sensitive Hashing) [2] を利用近似最近傍探索アルゴリズムの1つハッシュ関数を用いて高速にクラスタリング可能クローンペアとなりうる候補を絞ることが目的コードブロック名特徴ベクトル Block A (5,4,2,1,…) Block B (0,0,2,2,…) Block C Block D (3,4,2,1,…) Block E (5,4,2,3,…) … Block A Block D Block F Block B Block C Block E クラスタリング各コードブロックの特徴ベクトルコードブロックのクラスタ [2] P. Indyk, R. Motwani. Approximate nearest neighbors: towards removing the curse of dimensionality. In Proc. of STOC ’98, pp. 604-613, 1998.

LSH (Locality-Sensitive Hashing) 2 点が近い ⇒ 同じハッシュ値を取る確率が高い 2 点が遠い ⇒ 同じハッシュ値を取る確率が低い Point A Point A’ Point B Hash Table 同じハッシュ値を取る ⇒ 同じクラスタ

特徴ベクトル間の類似度計算各クラスタ内で特徴ベクトル間の類似度を計算閾値（0.9）以上であればブロッククローンペアとして検出コサイン類似度を利用特徴ベクトル間の類似度の計算方法閾値（0.9）以上であればブロッククローンペアとして検出

評価実験比較手法検出対象関数クローン検出法 CCFinder[5] 3 つの C 言語プロジェクトプロジェクト言語サイズバージョン Apache HTTPD C 343 KLOC 2.2.14 Python 435 KLOC 2.5.1 PostgreSQL 937 KLOC 8.5.1 [5] T. Kamiya, S. Kusumoto, K. Inoue. CCFinder: a multilinguistic token-based code clone detection system for large scale source code. IEEE Trans. Softw. Eng., Vol. 28, No. 7, pp. 654–670, 2002.

評価手順提案手法と比較手法の検出結果からランダムサンプリングした 270 個のクローンペアに対しアンケート調査事項：集約，または同時修正の対象となりうるクローンペアか？調査対象：コードクローンの研究者 1 名，大学院生 2 名　合計 3 名 2 名以上が保守対象のクローンペアと回答したクローンペアを正解集合としてベンチマークを作成ベンチマークをもとに適合率・再現率の評価

適合率・再現率の定義適合率 precision = | 𝐶𝑃 𝑏𝑒𝑛𝑐ℎ ∩ 𝐶𝑃 𝑠𝑎𝑚𝑝𝑙𝑒 | | 𝐶𝑃 𝑠𝑎𝑚𝑝𝑙𝑒 | 再現率 recall = | 𝐶𝑃 𝑟𝑒𝑠𝑢𝑙𝑡 ∩ 𝐶𝑃 𝑏𝑒𝑛𝑐ℎ | | 𝐶𝑃 𝑏𝑒𝑛𝑐ℎ | 𝐶𝑃 𝑏𝑒𝑛𝑐ℎ : ベンチマークの正解クローンペア集合 𝐶𝑃 𝑠𝑎𝑚𝑝𝑙𝑒 : サンプリングしたクローンペア集合 𝐶𝑃 𝑟𝑒𝑠𝑢𝑙𝑡 : 検出したクローンペア集合

※ Apache HTTPD, Python, PostgreSQL に対しての平均値を掲載評価結果 (1/2) 検出手法適合率再現率検出時間提案手法 0.68 0.70 1分 47秒関数クローン検出法 0.67 0.47 5分 29秒 ※ Apache HTTPD, Python, PostgreSQL に対しての平均値を掲載関数クローン検出法と比較し同程度の適合率で，高い再現率が得られた

※ Apache HTTPD, Python, PostgreSQL に対しての平均値を掲載評価結果 (2/2) 検出手法適合率再現率検出時間提案手法 0.68 0.70 1分 47秒 CCFinder 0.57 0.52 3分 33秒 ※ Apache HTTPD, Python, PostgreSQL に対しての平均値を掲載 CCFinder と比較し適合率，再現率ともに高い値が得られた

ブロッククローンの実例類似した処理を行うブロッククローンファイル出力を行う処理 334: APR_DECLARE(apr_status_t) apr_file_flush( 略 ) 335: { 336: apr_status_t rv = APR_SUCCESS; 337: 338: if (thefile->buffered) { 339: file_lock(thefile); 340: rv = apr_file_flush_locked(thefile); 341: file_unlock(thefile); 342: } 343: /* 344: * comment 345: */ 346: return rv; 347: } 349: APR_DECLARE(apr_status_t) apr_file_sync( 略 ) 350: { ．．．中略．．． 355: if (thefile->buffered) { 356: rv = apr_file_flush_locked(thefile); 357: 358: if (rv != APR_SUCCESS) { 359: file_unlock(thefile); 360: return rv; 361: } 362: } 371: } ファイル出力を行う処理類似した処理を行うブロッククローン

まとめと今後の課題まとめ今後の課題コードブロック単位のクローン検出手法の提案既存手法と比較して高い検出精度と速度で実現関数クローン検出法の検出漏れを削減今後の課題 LSI（Latent Semantic Indexing）などの利用の検討様々なプログラミング言語に対応他のコードクローン検出ツールとの比較