Presentation is loading. Please wait.

Presentation is loading. Please wait.

R Basics 2013/12/09 Yamada. 今日の方針 Today’s plan テキスト・文字列を扱うにあたっての用 語の理解をすることの方が、 R での操作を 見るより有意義と思われるので、そちら を優先 Learning terms on text/strings is more.

Similar presentations


Presentation on theme: "R Basics 2013/12/09 Yamada. 今日の方針 Today’s plan テキスト・文字列を扱うにあたっての用 語の理解をすることの方が、 R での操作を 見るより有意義と思われるので、そちら を優先 Learning terms on text/strings is more."— Presentation transcript:

1 R Basics 2013/12/09 Yamada

2 今日の方針 Today’s plan テキスト・文字列を扱うにあたっての用 語の理解をすることの方が、 R での操作を 見るより有意義と思われるので、そちら を優先 Learning terms on text/strings is more useful than checking commands/functions/packages for string operations, I believe.

3

4 String 文字列 文字列(もじれつ)は、単語や文章のよ うな、文字の連なったもの。ストリン グ (string) 、テキスト (text) という場合も ある。コンピュータ、特にプログラミン グの分野で用いることが多い。文字テキストコンピュータプログラミン グ In computer programming, a string is traditionally a sequence of characters, either as a literal constant or as some kind of variable. computer programmingsequencecharactersliteral constant http://en.wikipedia.org/wiki/String_ (computer_science) http://ja.wikipedia.org/wiki/%E6%96%87%E5% AD%97%E5%88%97 “http://ja.wikipedia.org/wiki “http://ja.wikipedia.org/wiki 文字列 ”

5 正規表現 Regular expression 正規表現(せいきひょうげん、 regular expression )とは、文字列の集合を一つの文 字列文字列 In computing, a regular expression (abbreviated regex or regexp) is a sequence of characters that forms a search pattern, mainly for use in pattern matching with strings, or string matching, i.e. "find and replace"-like operations. で表現する方 法の一つである。computingcharacterspattern matchingstringsstring matching http://en.wikipedia.org/wiki/Regular_expressi on “http://ja.wikipedia.org/wiki “http://ja.wikipedia.org/wiki 正規表現 ”

6 テキストマイニング (Statistical) Text Analysis テキストマイニング( text mining )は、文字列を 対象としたデータマイニングのことである。通常 の文章からなるデータを単語や文節で区切り、そ れらの出現の頻度や共出現の相関、出現傾向、時 系列などを解析することで有用な情報を取り出す、 テキストデータの分析方法である。文字列データマイニング単語文節 Text mining, also referred to as text data mining, roughly equivalent to text analytics, refers to the process of deriving high-quality information from text. High-quality information is typically derived through the devising of patterns and trends through means such as statistical pattern learning.data miningtext analyticsinformationtextstatistical pattern learning http://en.wikipedia.org/wiki/Text_mining “http://ja.wikipedia.org/wiki/ “http://ja.wikipedia.org/wiki/ テキストマイニング ”

7 ファイルフォーマット File format 区切り、改行、制御文字 Delimiters, New line, Control characters

8 エンコーディング 文字化け Mojibake Encoding 文字化け(もじばけ)とは、コンピュータで 文字を表示する際に、正しく表示されない現 象のこと。コンピュータ Mojibake ( 文字化け ? ) (IPA: [mod͡ʑibake]; lit. "character transformation"), from the Japanese 文字 (moji) "character" + 化け (bake) "transform", is the presentation of incorrect, unreadable characters when software fails to render text correctly according to its associated character encoding. ?[mod͡ʑibake]Japanesesoftwarecharacter encoding http://en.wikipedia.org/wiki/Mojibake “http://ja.wikipedia.org/wiki/ “http://ja.wikipedia.org/wiki/ 文字化け ”

9 1 Reading and writing text files 2 Character encoding 3 Regular Expressions 4 Handlings of strings Table of contents

10 さて、 R のページをささっと眺 めよう Scan the R page based on the knowledge we’ve learned

11 Handlings of String Concatenating Splitting a string Counting the number of characters Detecting the presence of a substring Extracting the position of a substring or a pattern in a string Extracting a substring from a string Making some substitution inside a string Converting letters to lower or upper-case Filling a string with some character Removing leading and trailing spaces Comparing two strings

12 さて、 R のページをささっと眺めよ う Scan the R page based on the knowledge we’ve learned 時間があれば If we have time…


Download ppt "R Basics 2013/12/09 Yamada. 今日の方針 Today’s plan テキスト・文字列を扱うにあたっての用 語の理解をすることの方が、 R での操作を 見るより有意義と思われるので、そちら を優先 Learning terms on text/strings is more."

Similar presentations


Ads by Google