チャンクタイプ
チャンク表現は、次のすべてのチャンクタイプで作業することを可能にします:
タイプ | 定義 |
---|---|
characters | テキスト内の個々の文字 |
words | テキスト内の任意の量の空白(スペース、タブ、リターン)で区切られた単語 |
lines | いくつかの標準的な行末(CR、LF、CRLFなど)で区切られた段落 |
text items | カンマで区切られたテキストの部分 |
list items | リスト内の個々のアイテム |
bytes | バイナリデータ内のバイト |
occurrences | 定義されたパターンのテキスト一致 |
matches | 定義されたパターンとそのキャプチャグループのテキスト一致とテキスト範囲 |
さらに、テキストアイテム、行、単語を識別するために使用されるカスタムデリミタを指定することができ、さらに高い機能性を提供します。これら3つのテキストチャンクタイプはそれぞれ独特のタイプのデリミタを持ち、テキストアイテムは単一のテキスト文字列で区切られ、行はテキスト文字列のリストで区切られ、単語は文字セットからの任意の数と組み合わせの文字で区切られます。
Characters
最も単純なタイプのチャンクはキャラクターチャンクです。キャラクターはテキストの一文字で、表示文字と非表示文字(タブ、キャリッジリターン、ラインフィード文字などのコントロール文字を含む)の両方を含みます。character
はchar
と略すことができます。
put "The quick brown fox" into animal
put character 1 of animal--> T
put the last char of animal --> x
put chars 3 to 7 of animal --> e qui
Words
単一の単語は、空白文字を含まない文字列、または引用符で囲まれた文字列として定義されます。単語の範囲には、指定された最初の単語から最後の単語までのすべての文字、および間にあるすべての単語と空白が含まれます。空白文字は、スペース、タブ、およびリターン(改行)です。
put "Sometimes you feel like a nut; sometimes you don’t." into slogan
put the second word of slogan --> you
put word 6 of slogan --> nut;
put words 1 to 3 of slogan --> Sometimes you feel