在電腦科學領域形式語言理論中,經常用到各種字串函數;但是符號不同於電腦編程中所用到的,某些在理論領域中常用的函數,在編程中很少用到。本文定義其中一些基本術語。
字串的字母表是在一個特定字串中出現的所有字母的列表。如果 s 是字串,則它的字母表指示為
data:image/s3,"s3://crabby-images/65d54/65d54575b21090c48578c6c8067f43c6ab5ecf8e" alt="{\displaystyle \operatorname {Alph} (s)}"
這可以等價地認為是先把字串中的所有字母按照給定的順序排好,再去掉其中重複者。
設 L 是一個語言,並設
是它的字母表。字串代換或簡稱代換是對映 f,它把
中的字母對映到(可能有不同的字母表的)語言。比如,給定一個字母
,有
這裏的
是其字母表為
的某個語言。這個定義可被擴充到字串為
data:image/s3,"s3://crabby-images/44ecb/44ecb28fa336edab34516d90c1f4bac2e6181e73" alt="{\displaystyle f(\varepsilon )=\varepsilon }"
對於空字串
,和
data:image/s3,"s3://crabby-images/9b88f/9b88f93c87861575ea7543ef09f7128bc1b6e48e" alt="{\displaystyle f(sa)=f(s)f(a)}"
對於字串
。字串代換可以被擴充到整個語言為
data:image/s3,"s3://crabby-images/a3e19/a3e192c4f67e6bd625dff6f330ae68814cecb994" alt="{\displaystyle f(L)=\bigcup _{s\in L}f(s)}"
字串代換的一個例子出現在正則語言中,它閉合於字串代換之下。就是說,如果一個正規語言的字母被另一個正規語言所代換,結果仍是正規語言。
字串同態是使得每個字母被替代為一個單一字串的字串代換。就是說,
,這裏的 s 是字串,對於每個字母 a。字串同態是保持字串連接二元運算的同態。給定一個語言 L,
的集合叫做 L 的同態像。字串 s 的逆同態像被定義為
data:image/s3,"s3://crabby-images/54088/5408864c9c179140c5d1c663f327a975ca8ba79e" alt="{\displaystyle f^{-1}(s)=\{w\vert f(w)=s\}}"
而語言 L 的逆同態像被定義為
data:image/s3,"s3://crabby-images/73431/734317ee3292de125699e140164e54cbce664937" alt="{\displaystyle f^{-1}(L)=\{s\vert f(s)\in L\}}"
注意一般的說
,然而確實有
data:image/s3,"s3://crabby-images/72667/726679cd815f6ff256ac302a8f77ffcc786bf0ab" alt="{\displaystyle f(f^{-1}(L))\subseteq L}"
和
data:image/s3,"s3://crabby-images/08e2e/08e2e57b17228602afe8f07291d4dde008a85c4b" alt="{\displaystyle L\subseteq f^{-1}(f(L))}"
對於任何語言 L。簡單單一字母置換密碼是字串代換的例子。
如果 s 是字串,而
是字母表,s 的字串投影是通過刪除不在
中的所有字母結果的字串。它被寫為
。它通過從右手端切除字母來得出形式定義:
data:image/s3,"s3://crabby-images/b464b/b464bbdeb4b7e8601351c82a6384fca4441b125f" alt="{\displaystyle \pi _{\Sigma }(s)={\begin{cases}\varepsilon &{\mbox{if }}s=\varepsilon {\mbox{ the empty string}}\\\pi _{\Sigma }(t)&{\mbox{if }}s=ta{\mbox{ and }}a\notin \Sigma \\\pi _{\Sigma }(t)a&{\mbox{if }}s=ta{\mbox{ and }}a\in \Sigma \end{cases}}}"
這裏的
指示空字串。字串的投影本質上同於關係代數中的投影。
字串投影可以提升為語言的投影。給定形式語言 L,它的投影給出自
data:image/s3,"s3://crabby-images/79b66/79b66503a4eeeb8cc0f127e74d30cf9732b29ff7" alt="{\displaystyle \pi _{\Sigma }(L)=\{\pi _{\Sigma }(s)\vert s\in L\}}"
字串 s 與字母 a 的右商是在字串 s 中切斷右手端字母 a 得到的字串。它被指示為
。如果字串在右手端沒有 a,則結果是空字串。就是:
data:image/s3,"s3://crabby-images/276be/276be40ecc1616390bd45e4e1bbd9251b0f1d20a" alt="{\displaystyle (sa)/b={\begin{cases}s&{\mbox{if }}a=b\\\varepsilon &{\mbox{if }}a\neq b\end{cases}}}"
空字串的右商可以是:
data:image/s3,"s3://crabby-images/f15d2/f15d2fa08bf34749de88dd7968fa56186bb735b1" alt="{\displaystyle \varepsilon /a=\varepsilon }"
類似的,給出么半群
的子集
,可以定義商子集為
data:image/s3,"s3://crabby-images/7c1e6/7c1e6ed47f77077cfff29553637eb4918f4649ba" alt="{\displaystyle S/a=\{s\in M\vert sa\in S\}}"
左商可以類似的定義,運算發生在字串的左端。
么半群
的子集
的右商定義了一個等價關係,叫做 S 的右語法關係。它給出為
data:image/s3,"s3://crabby-images/68e7e/68e7e52206cb8b28422085d904e3c6859197ded4" alt="{\displaystyle \sim _{S}\;\,=\,\{(s,t)\in M\times M\vert S/s=S/t\}}"
關係明顯是有有限索引的(有有限數目個等價類),若且唯若右商族有限的;就是說如果
data:image/s3,"s3://crabby-images/93ccd/93ccd66eb9522ff676ea219b5a67eb1c2b7714d4" alt="{\displaystyle \{S/m\vert m\in M\}}"
是有限的。在這種情況下,S 是可辨識語言,就是說可被有限狀態自動機辨識的語言。這個在語法么半群中詳細討論。
字串 s 與字母 a 的右取消是切除字串 s 右手端的字母 a 的首次出現得到的字串。它被指示為
並被遞歸的定義為
data:image/s3,"s3://crabby-images/bc915/bc9156ff90541158eeaa3f45bd32b92c30834d88" alt="{\displaystyle (sa)\div b={\begin{cases}s&{\mbox{if }}a=b\\(s\div b)a&{\mbox{if }}a\neq b\end{cases}}}"
空字串總是可取消的:
data:image/s3,"s3://crabby-images/71228/7122840134743d044573f6ec771d59deffd4c7e1" alt="{\displaystyle \varepsilon \div a=\varepsilon }"
明顯的,右取消和投影可交換:
data:image/s3,"s3://crabby-images/a33d4/a33d44aacfbeef35cf7e0bd1a954d7153f5f2190" alt="{\displaystyle \pi _{\Sigma }(s)\div a=\pi _{\Sigma }(s\div a)}"
字串的字首是關於給定語言一個字串的所有字首的集合:
data:image/s3,"s3://crabby-images/a0e04/a0e04fe3fcb36bae96a513b28c1251d32ba7b056" alt="{\displaystyle \operatorname {Pref} _{L}(s)=\{t\vert s=tu{\mbox{ for }}u\in L\}}"
語言的字首閉包是
data:image/s3,"s3://crabby-images/8156e/8156e25374652333b57ac3287aaf551ec8d25b7b" alt="{\displaystyle \operatorname {Pref} (L)=\bigcup _{s\in L}\operatorname {Pref} _{L}(s)}"
一個語言叫做字首閉合的,如果
。明顯的,字首閉包算子是冪等的:
data:image/s3,"s3://crabby-images/e47c8/e47c8522f707466869388014b56d51d81ffc7336" alt="{\displaystyle \operatorname {Pref} (\operatorname {Pref} (L))=\operatorname {Pref} (L)}"
字首關係是二元關係
,有着
若且唯若
。
字首文法生成(關於這個文法)字首閉合的語言。
- John E. Hopcroft and Jeffrey D. Ullman, Introduction to Automata Theory, Languages and Computation, Addison-Wesley Publishing, Reading Massachusetts, 1979. ISBN 0-201-02988-X. (See chapter 3.)