系列文章目錄
前言
string是字符序列的類
C++文檔
為什么學(xué)習(xí)string類
C語言中的字符串
C語言中,字符串是以’\0’結(jié)尾的一些字符的集合,為了操作方便,C標(biāo)準(zhǔn)庫中提供了一些str系列的庫函數(shù),但是這些庫函數(shù)與字符串是分離開的,不太符合OOP的思想,而且底層空間需要用戶自己管理,稍不留神可能還會越界訪問。
ASCII
ASCII (American Standard Code for Information Interchange):美國信息交換標(biāo)準(zhǔn)代碼是基于拉丁字母的一套電腦編碼系統(tǒng),主要用于顯示現(xiàn)代英語和其他西歐語言。它是最通用的信息交換標(biāo)準(zhǔn),并等同于國際標(biāo)準(zhǔn)ISO/IEC 646。ASCII第一次以規(guī)范標(biāo)準(zhǔn)的類型發(fā)表是在1967年,最后一次更新則是在1986年,到目前為止共定義了128個字符。
**在計算機(jī)中存儲和顯示英語信息
26個大小寫字母、數(shù)字、標(biāo)點(diǎn)符號
建立一個符號和編碼對應(yīng)關(guān)系的映射表
用一個字節(jié)的大小存儲7位編碼,最高位不用,一個符號→一個字節(jié)**
int main()
{
char str1[] = "apple";
char str2[] = "好好";
cout << sizeof(str1) << endl;
cout << sizeof(str2) << endl;
return 0;
}
int main()
{
char str2[] = "好好";
cout << sizeof(str2) << endl;
str2[3]--;
cout << str2 << endl;
str2[3]--;
cout << str2 << endl;
str2[3]++;
cout << str2 << endl;
str2[3]++;
cout << str2 << endl;
return 0;
}
Unicode
統(tǒng)一碼(Unicode),也叫萬國碼、單一碼,由統(tǒng)一碼聯(lián)盟開發(fā),是計算機(jī)科學(xué)領(lǐng)域里的一項業(yè)界標(biāo)準(zhǔn),包括字符集、編碼方案等。
統(tǒng)一碼是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,它為每種語言中的每個字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿足跨語言、跨平臺進(jìn)行文本轉(zhuǎn)換、處理的要求。
UTF-8
UTF-8的特點(diǎn)是對不同范圍的字符使用不同長度的編碼。對于0x00-0x7F之間的字符,UTF-8編碼與ASCII編碼完全相同。UTF-8編碼的最大長度是4個字節(jié)。從上表可以看出,4字節(jié)模板有21個x,即可以容納21位二進(jìn)制數(shù)字。統(tǒng)一碼的最大碼位0x10FFFF也只有21位。
UTF-16
UTF-16編碼以16位無符號整數(shù)為單位。我們把統(tǒng)一碼編碼記作U。
UTF-32
UTF-32編碼以32位無符號整數(shù)為單位。統(tǒng)一碼的UTF-32編碼就是其對應(yīng)的32位無符號整數(shù)。
GBK
GBK全稱《漢字內(nèi)碼擴(kuò)展規(guī)范》(GBK即“國標(biāo)”、“擴(kuò)展”漢語拼音的第一個字母,英文名稱:Chinese Internal Code Specification)。
GBK 亦采用雙字節(jié)表示,總體編碼范圍為 8140-FEFE,首字節(jié)在 81-FE 之間,尾字節(jié)在 40-FE 之間,剔除 xx7F 一條線。總計 23940 個碼位,共收入 21886 個漢字和圖形符號,其中漢字(包括部首和構(gòu)件)21003 個,圖形符號 883 個。
標(biāo)準(zhǔn)庫中的string類
string類
- 字符串是表示字符序列的類
- 標(biāo)準(zhǔn)的字符串類提供了對此類對象的支持,其接口類似于標(biāo)準(zhǔn)字符容器的接口,但添加了專門用于操作單字節(jié)字符字符串的設(shè)計特性。
- string類是使用char(即作為它的字符類型,使用它的默認(rèn)char_traits和分配器類型
- string類是basic_string模板類的一個實(shí)例,它使用char來實(shí)例化basic_string模板類,并用char_traits和allocator作為basic_string的默認(rèn)參數(shù)
- 注意,這個類獨(dú)立于所使用的編碼來處理字節(jié):如果用來處理多字節(jié)或變長字符(如UTF-8)的序列,這個類的所有成員(如長度或大小)以及它的迭代器,將仍然按照字節(jié)(而不是實(shí)際編碼的字符)來操作。
string類的文檔
string類用utf-8編碼,按單字節(jié)處理
u16string用utf-16編碼
u32string用utf-32編碼
wstring類按兩字節(jié)處理
編碼:
計算機(jī)中存儲只有二進(jìn)制0、1,用對應(yīng)的ASCII表來表示文字(支持英文的)其中ASCII表是對256個值建立一個對應(yīng)的表示值
在早期只有歐美國家使用計算機(jī)(早期的計算機(jī)中只能表示英文,不能表示其他國家的文字),后來全世界各個國家都開始用計算機(jī)了,需要建立自己的編碼表
在Linux中常用utf-8、utf-16、utf-32
在Windows中常用gbk
總結(jié)
-
string是表示字符串的字符串類
-
該類的接口與常規(guī)容器的接口基本相同,再添加了一些專門用來操作string的常規(guī)操作。
-
string在底層實(shí)際是:basic_string模板類的別名,typedef basic_string<char, char_traits, allocator>string;
-
不能操作多字節(jié)或者變長字符的序列。
-
在使用string類時,必須包含#include頭文件以及using namespace std;
string類的常用接口說明
string類的常用接口
1. string類對象的常見構(gòu)造
(constructor)函數(shù)名稱 | 功能說明 |
---|---|
string() (重點(diǎn)) | 構(gòu)造空的string類對象,即空字符串 |
string(const char* s) (重點(diǎn)) | 用C-string來構(gòu)造string類對象 |
string(size_t n, char c) | string類對象中包含n個字符c |
string(const string&s) (重點(diǎn)) | 拷貝構(gòu)造函數(shù) |
void Teststring()
{
string s1; // 構(gòu)造空的string類對象s1
string s2("hello bit"); // 用C格式字符串構(gòu)造string類對象s2
string s3(s2); // 拷貝構(gòu)造s3
}
2. string類對象的容量操作
函數(shù)名稱 | 功能說明 |
---|---|
size(重點(diǎn)) | 返回字符串有效字符長度 |
length | 返回字符串有效字符長度 |
capacity | 返回空間總大小,但不包含’\0’ |
empty (重點(diǎn)) | 檢測字符串釋放為空串,是返回true,否則返回false |
clear (重點(diǎn)) | 清空有效字符 |
reserve (重點(diǎn)) | 為字符串提前預(yù)留空間 |
resize (重點(diǎn)) | 將有效字符的個數(shù)該成n個,多出的空間用字符c填充 |
注意:
1. size()與length()方法底層實(shí)現(xiàn)原理完全相同,引入size()的原因是為了與其他容器的接口保持一致,一般情況下基本都是用size()。
2. clear()只是將string中有效字符清空,不改變底層空間大小。
3. resize(size_t n) 與 resize(size_t n, char c)都是將字符串中有效字符個數(shù)改變到n個,不同的是當(dāng)字符個數(shù)增多時:resize(n)用0來填充多出的元素空間,resize(size_t n, char c)用字符c來填充多出的元素空間。
注意:resize在改變元素個數(shù)時,如果是將元素個數(shù)增多,可能會改變底層容量的大小,如果是將元素個數(shù)減少,底層空間總大小不變。
4. reserve(size_t res_arg=0):為string預(yù)留空間,不改變有效元素個數(shù),當(dāng)reserve的參數(shù)小于string的底層空間總大小時,reserver不會改變?nèi)萘看笮 ?br> 5. 在Windows中容量是以大約1.5倍增容的,在Linux中容量是以大約2倍增容的
6. reserve的作用:如果知道需要多少空間,直接一次性開好,避免增容,提高效率
7. resize的作用:既能開好空間,又能對這些空間初始化
string容量相關(guān)方法使用代碼演示
3. string類對象的訪問及遍歷操作
函數(shù)名稱 | 功能說明 |
---|---|
operator[] (重 點(diǎn)) | 返回pos位置的字符,const string類對象調(diào)用 |
begin+ end | begin獲取一個字符的迭代器 + end獲取最后一個字符下一個位置(‘\0’)的迭代器 |
rbegin + rend | rbegin獲取最后一個字符的迭代器 + rend獲取開頭一個字符前一個位置的迭代器 |
范圍for | C++11支持更簡潔的范圍for的新遍歷方式,底層是用迭代器 |
string中元素訪問及遍歷代碼演示
int main()
{
string s1("hello world");
string::iterator it = s1.begin();
//正向迭代器
while (it != s1.end())
{
cout << *it << " ";
it++;
}
string::reverse_iterator rit = s1.rbegin();
//反向迭代器
while (rit != s1.rend())
{
cout << *rit << " ";
rit++;
//都是++
}
for (auto ch : s1)
{
cout << ch << " ";
}
cout << endl;
return 0;
}
void Func1(const string& s)
{
//遍歷和讀容器的數(shù)據(jù),不能寫
//string::const_iterator it = s.cbegin();
auto it = s.cbegin();
//靜態(tài)正向迭代器
while (it != s.end())
{
cout << *it << " ";
it++;
}
cout << endl;
}
void Func2(const string& s)
{
//string::const_reverse_iterator it = s.crbegin();
auto it = s.crbegin();
//靜態(tài)反向迭代器
while (it != s.rend())
{
cout << *it << " ";
it++;
}
cout << endl;
}
int main()
{
string s1("hello world");
string::iterator it = s1.begin();
//iterator 迭代器 是屬于類的一種類型
while (it != s1.end())
{
cout << *it << " ";
it++;
}
for (auto ch : s1)
{
cout << ch << " ";
}
Func1();
Func2();
cout << endl;
return 0;
}
總結(jié):
迭代器是一個行為像指針的東西,有可能是指針,也有可能不是指針
迭代器可以用統(tǒng)一類似的方式去訪問修改容器
begin()返回的是第一個有效數(shù)據(jù)位置的迭代器,end()返回的是最后一個有效數(shù)據(jù)的下一個位置的迭代器
rbegin()返回的是最后個有效數(shù)據(jù)位置的迭代器,rend()返回的是第一個有效數(shù)據(jù)的前一個位置的迭代器
所有的容器都支持用迭代器,所以迭代器才是容器通用的訪問方式(vector/string這樣的結(jié)構(gòu)支持下標(biāo)+[]去訪問,而像list、map這樣的就不支持了),雖然迭代器在所有數(shù)據(jù)結(jié)構(gòu)都是可以使用的,但[]+下標(biāo)指適用順序表。
const對象要用const迭代器,只讀,不能寫
operator[]和at的區(qū)別:operator[]如果發(fā)生越界訪問會報斷言錯誤(assert),而at會報異常(需要捕獲異常)
4. string類對象的修改操作
函數(shù)名稱 | 功能說明 |
---|---|
push_back | 在字符串后尾插字符c |
append | 在字符串后追加一個字符串 |
operator+= (重點(diǎn)) | 在字符串后追加字符串str |
c_str(重點(diǎn)) | 返回C格式字符串 |
find + npos(重點(diǎn)) | 從字符串pos位置開始往后找字符c,返回該字符在字符串中的位置 |
rfind | 從字符串pos位置開始往前找字符c,返回該字符在字符串中的位置 |
substr | 在str中從pos位置開始,截取n個字符,然后將其返回 |
string中插入和查找等使用代碼演示
注意:
1. 在string尾部追加字符時,s.push_back? / s.append(1, c) / s += 'c’三種的實(shí)現(xiàn)方式差不多,一般情況下string類的+=操作用的比較多,+=操作不僅可以連接單個字符,還可以連接字符串。
2. 對string操作時,如果能夠大概預(yù)估到放多少字符,可以先通過reserve把空間預(yù)留好。
int main()
{
string s1("world");
s1.insert(0, "hello");
//不推薦使用insert,效率低
//s1.insert(5, 1, ' ');
//s1.insert(5, " ");
string::iterator it = s1.begin();
s1.insert(it+5, ' ');
cout << s1 << endl;
return 0;
}
int main()
{
//不推薦使用erase,效率低
string s1("hello world");
//s1.erase(5, 1);
string::iterator it = s1.begin();
//s1.erase(it + 5);
//s1.erase(5);
s1.erase(5, 6);
cout << s1 << endl;
}
int main()
{
//string s1("hello world");
//s1.replace(5, 1, "%%d");//擴(kuò)容+移動數(shù)據(jù)
//cout << s1 << endl;、
string s1("hello world i love you");
size_t num = 0;
for (auto ch : s1)
{
if (ch == ' ')
{
num++;
}
}
//提前開空間,避免replace時擴(kuò)容
s1.reserve(2* num + s1.size());
size_t pos = s1.find(' ');
while(pos != string::npos)
{
s1.replace(pos, 1, "%20");
pos = s1.find(' ', pos + 3);
}
cout << s1 << endl;
}
//空間換時間
int main()
{
string s1("hello world i love you");
string newStr;
size_t num = 0;
for (auto ch : s1)
{
if (ch == ' ')
{
num++;
}
}
//提前開空間,避免replace時擴(kuò)容
s1.reserve(2* num + s1.size());
for (auto ch : s1)
{
if (ch != ' ')
newStr += ch;
else
newStr += "%20";
}
s1 = newStr;
cout << newStr << endl;
}
int main()
{
string s1("xxx");
string s2("yyy");
s1.swap(s2);
cout << s1 << endl;
cout << s2 << endl;
swap(s1, s2);
cout << s1 << endl;
cout << s2 << endl;
}
5. string類非成員函數(shù)
函數(shù) | 功能說明 |
---|---|
operator+ | 盡量少用,因為傳值返回,導(dǎo)致深拷貝效率低 |
operator>> (重點(diǎn)) | 輸入運(yùn)算符重載 |
operator<< (重點(diǎn)) | 輸出運(yùn)算符重載 |
getline (重點(diǎn)) | 獲取一行字符串 |
relational operators (重點(diǎn)) | 大小比較 |
cin遇到空格和換行就會分割(或結(jié)束),而getline遇到空格不會分割(或結(jié)束)遇到換行才分割(或結(jié)束)
6. string類對象的字符串的轉(zhuǎn)換(在C++11適用)
vs和g++下string結(jié)構(gòu)的說明
注意:下述結(jié)構(gòu)是在32位平臺下進(jìn)行驗證,32位平臺下指針占4個字節(jié).
vs下string的結(jié)構(gòu)
string總共占28個字節(jié),內(nèi)部結(jié)構(gòu)稍微復(fù)雜一點(diǎn),先是有一個聯(lián)合體,聯(lián)合體用來定義string中字符串的存儲空間:
-
當(dāng)字符串長度小于16時,使用內(nèi)部固定的字符數(shù)組來存放
-
當(dāng)字符串長度大于等于16時,從堆上開辟空間
union _Bxty
{ // storage for small buffer or pointer to larger one
value_type _Buf[_BUF_SIZE];
pointer _Ptr;
char _Alias[_BUF_SIZE]; // to permit aliasing
} _Bx;
這種設(shè)計也是有一定道理的,大多數(shù)情況下字符串的長度都小于16,那string對象創(chuàng)建好之后,內(nèi)部已經(jīng)有了16個字符數(shù)組的固定空間,不需要通過堆創(chuàng)建,效率高。
其次:還有一個size_t字段保存字符串長度,一個size_t字段保存從堆上開辟空間總的容量最后:還有一個指針做一些其他事情。
故總共占16+4+4+4=28個字節(jié)。
g++下string的結(jié)構(gòu)
G++下,string是通過寫時拷貝實(shí)現(xiàn)的,string對象總共占4個字節(jié),內(nèi)部只包含了一個指針,該指針將來指向一塊堆空間,內(nèi)部包含了如下字段:
-
空間總大小
-
字符串有效長度
-
引用計數(shù)文章來源:http://www.zghlxwxcb.cn/news/detail-583050.html
struct _Rep_base
{
size_type _M_length;
size_type _M_capacity;
_Atomic_word _M_refcount;
};
- 指向堆空間的指針,用來存儲字符串
文章來源地址http://www.zghlxwxcb.cn/news/detail-583050.html
到了這里,關(guān)于第六章:string類的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!