噼里啪啦免费看高清片,亚洲第一天堂中文字幕av

主頁 > 知識庫 > Go語言中的UTF-8實現(xiàn)

Go語言中的UTF-8實現(xiàn)

計算機剛誕生的時候，計算機內(nèi)的字符可以全部由 ASCII 來表示，ASCII 字符的長度是 7 位，可以表示 128 個字符，對于美國等國家來說是夠了，但是對于世界上的其他國家，特別是東亞國家，文字不是由字母組成，漢字就有幾萬個，ASCII 碼根本不夠用。

字符本質(zhì)就是對應計算機中的一個數(shù)值，既然不夠用，那么解決方法就是把這個范圍擴大，Unicode 的出現(xiàn)就解決了這個問題，它包括了世界上所有的字符，每一個字符都對應一個數(shù)值，這個數(shù)值被稱之為 Unicode 碼點。

但是 Unicode 也不是沒有缺點，因為表示的范圍大，所以每一個 Unicode 都需要 4 個字節(jié)來表示，但是對于原本的 ASCII 編碼，本來只需要一個字節(jié)，現(xiàn)在也需要 4個字節(jié)，這樣會浪費很多存儲。

UTF-8 的出現(xiàn)解決了這個問題，它解決問題的思路是讓每個字符選擇自己的大小，需要多少字節(jié)就用多少。對于占不同字節(jié)的字符，有不同的表示格式：

1 字節(jié)：0xxxxxxx
2 字節(jié)：110xxxxx 10xxxxxx
3 字節(jié)：1110xxxx 10xxxxxx 10xxxxxx
4 字節(jié)：11110xxx 10 xxxxxx 10xxxxxx 10xxxxxx

通過識別每個字符串的頭部來判斷占幾個字節(jié)。

每個 Unicode 字符都對應一個碼點，在字符串中，可以對碼點進行轉(zhuǎn)義，使用 \uhhhh 表示 16 位碼點，使用 \Uhhhhhhhh 來表示 32 位碼點，每一個 h 都代表一個十六進制的數(shù)字。

這里有一點比較特殊，對于碼點值小于 256 的文字符號可以使用單個十六進制的數(shù)字來表示，比如 'A' 可以使用 '\x41' 來表示，對于大于 256 的碼點，就必須使用 \u 或者 \U 來轉(zhuǎn)義。

Go 語言對于 UTF-8 的支持很好，這里有一點很有意思，Go 語言的兩位作者 Ken Thompson 和 Rob Pike 同時也是 UTF-8 的發(fā)明者，Go 語言對 UTF-8 的支持贏在起跑線。

Go 語言總是使用 UTF-8 來處理源文件，同時也是優(yōu)先使用 UTF-8 來處理字符串。所以上面說到的那些 Unicode 字符的轉(zhuǎn)義被 Go 直接處理，比如下面三個字符串在 Go 語言中是等價的:

"世界"
"\u4e16\u754c"
"\U00004e16\U0000u754c"

Go 字符串使用只讀的 []byte 來存儲，所以字符串值是不變的，這樣做更安全，效率也很高：

s := "left root"
t := s
s += ", right root"

fmt.Println(s) // left root, right root
fmt.Println(t) // left root

在上面的例子中， s 的值出現(xiàn)了變化，但是 t 的值還是舊的字符串。由于是 [] byte 是 slice 類型，所以字符串的截取操作效率很高，但是在字符串截取的過程中，就會出現(xiàn)一些坑。
Go 中的字符串底層使用了只讀的 []byte 來存儲，所以**本質(zhì)上 Go 語言中的字符串是使用字節(jié)來表示，而不是字符表示，**理解這一點很重要。

str := "hello world"
fmt.Println(str[:2]) // he

str = "你好，世界"
fmt.Println(str[:2]) // ��，這個符號用來表示 UTF-8 里面的未知字符，碼點是

非 ASCII 碼的字符一般占用的字節(jié)會超過一個，如果直接截取，就會導致截取不到正確的位置，從而亂碼。在上面的例子中，一個中文字符占 3 個字節(jié)，只有嚴格按照字節(jié)數(shù)來截取才能獲取到顯示正常的字符：

str = "你好，世界"
fmt.Println(str[:3]) // 你

那么在這個時候，如果要按照字符截取，就需要把字符串轉(zhuǎn)成 []rune，每個 rune 都代表一個 UTF-8 中的碼點，對 []rune 按照字符截取就不會出現(xiàn)亂碼：

str = "你好，世界"
runeStr := []rune(str)
fmt.Println(string(runeStr[:1])) // 你

把字符串轉(zhuǎn)成 []rune，就是把字符串轉(zhuǎn)成 UTF-8 碼點，而不是 []byte，rune 其實就是 int32 類型。

Go 語言中有一個專門 unicode/utf8 包來處理 utf8 字符。由于每個字符占據(jù)的字節(jié)可能不一樣，所以字符數(shù)和字節(jié)數(shù)大小是兩回事：

s := "Hello, 世界" // 逗號是半角符號
fmt.Println(len(s))                    // 13
fmt.Println(utf8.RuneCountInString(s)) // 9

如果要獲取字符占據(jù)的總字節(jié)數(shù)，就使用 len 方法，如果需要計算字符的個數(shù)，那就需要使用 utf8.RuneCountInString 方法。
這個包里面還提供了其他常用函數(shù)：

// 判斷是否符合 utf8 編碼：
func Valid(p []byte) bool
func ValidRune(r rune) bool
func ValidString(s string) bool
// 判斷 rune 所占的字節(jié)數(shù)
func RuneLen(r rune) int
// 判斷字節(jié)串或者字符串中的 rune 字符數(shù)
func RuneCount(p []byte) int
func RuneCountInString(s string) int
// 對 rune 的編碼和解碼
func EncodeRune(p []byte, r rune) int
func DecodeRune(p []byte) (r rune, size int)
func DecodeRuneInString(s string) (r rune, size int)
func DecodeLastRune(p []byte) (r rune, size int)
func DecodeLastRuneInString(s string) (r rune, size int)

除了 utf8 包之外， unicode 包對提供了一系列 IsXX 函數(shù)來 rune 的檢查：

func Is(rangeTab *RangeTable, r rune) bool // 是否是 RangeTable 類型的
func In(r rune, ranges ...*RangeTable) bool  // 是否是 ranges 中任意一個類型的字符
func IsControl(r rune) bool  // 是否是控制字符
func IsDigit(r rune) bool  // 是否是阿拉伯數(shù)字字符，即 0-9
func IsGraphic(r rune) bool // 是否是圖形字符
func IsLetter(r rune) bool // 是否是字母
func IsLower(r rune) bool // 是否是小寫字符
func IsMark(r rune) bool // 是否是符號字符
func IsNumber(r rune) bool // 是否是數(shù)字字符，包含羅馬數(shù)字
func IsOneOf(ranges []*RangeTable, r rune) bool // 是否是 RangeTable 中的一個
func IsPrint(r rune) bool // 是否是可打印字符
func IsPunct(r rune) bool // 是否是標點符號
func IsSpace(r rune) bool // 是否是空格
func IsSymbol(r rune) bool // 是否符號字符
func IsTitle(r rune) bool // 字符串中的每個單詞的第一個字符是否是大寫
func IsUpper(r rune) bool // 是否是大寫字符

RangeTable 是對所有 Unicode 字符的分類，比如驗證一個字符是否是漢字：

r := '中'
result := unicode.Is(unicode.Han, r)
fmt.Println(result) // true

其中 unicode.Han 就是 RangeTable 類型，表示漢字。

到此這篇關于Go語言中的UTF-8實現(xiàn)的文章就介紹到這了,更多相關Go語言UTF-8內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

利用go-kit組件進行服務注冊與發(fā)現(xiàn)和健康檢查的操作
Goland 斷點調(diào)試Debug的操作
golang中的空slice案例
Go語言切片前或中間插入項與內(nèi)置copy()函數(shù)詳解
golang中切片copy復制和等號復制的區(qū)別介紹
go語言中切片與內(nèi)存復制 memcpy 的實現(xiàn)操作
go-kit組件使用hystrix中間件的操作

標簽：黃山衡水銅川蘭州湖南崇左湘潭仙桃

巨人網(wǎng)絡通訊聲明：本文標題《Go語言中的UTF-8實現(xiàn)》，本文關鍵詞；如發(fā)現(xiàn)本文內(nèi)容存在版權問題，煩請?zhí)峁┫嚓P信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡，涉及言論、版權與本站無關。

電銷機器人到底如何運作的？

很多人對電銷機器人到底如何運作存在著巨大的好奇心，那么今天，小編就帶大家看一下機器人的運作流程！電銷...

10-24

電話機器人的興起對電銷行業(yè)來說是“驚喜”還

隨著互聯(lián)網(wǎng) 大數(shù)據(jù) 的普及，許多電銷行業(yè)如雨后春筍般爭先恐后地冒出來。而今電銷行業(yè)的混亂，讓各位涉足電銷...

10-24

百應電話機器人有哪些功能？百應電話機器人好

百應智能電話機器人能夠協(xié)助企業(yè)進行呼入接待、外呼回訪等服務場景，能夠經(jīng)過不斷的培訓學習，逐步完善成專...

10-24

客服外呼系統(tǒng)都有哪些優(yōu)勢？

當前呼叫中心電話系統(tǒng)被企業(yè)用于業(yè)務電銷以及客戶服務，然而隨著企業(yè)需求不斷擴大，原來傳統(tǒng)的自建呼叫中心...

10-24

電銷機器人效果怎么樣？智能電話機器人可行嗎

幾百數(shù)千年后，或許沒人會記得卡斯帕羅夫曾是世界第一的圍棋高手，但人們會記得，他敗給了電腦深藍。那雖算不...

10-24

百應智能外呼系統(tǒng)，貸后管理科技升級

去年底開始，接連出臺政策和法規(guī)加強對消費金融等金融形態(tài)進行規(guī)范。強監(jiān)管下，行業(yè)走向規(guī)范發(fā)展，行業(yè)競...

10-24

百應智能外呼系統(tǒng)引領外呼行業(yè)新風向

電話銷售：您好，我這邊是XX地產(chǎn)，給您推薦一下精裝酒店式公寓，有興趣了解一下嗎? 客戶：具體位置在哪里啊?...

10-24

小貸企業(yè)為什么需要電銷機器人？

隨著信貸行業(yè)逐步進入我們的生活中，越來越多人選擇借款來處理資金難題。信貸企業(yè)不斷涌現(xiàn)，業(yè)務開展迅猛，行...

10-24

雷霆電話機器人是如何轉(zhuǎn)接人工的？

當我們在撥通移動、聯(lián)通或電信運營商的客服電話時，總會要先經(jīng)過一些機械化的選擇，然后成功連接人工坐席反饋...

10-24

米卡迪電話機器人效果怎么樣？

外呼電話機器人，之所以能智能的與客戶無憂交流，因為運用了下面這么多高技術。 ASR 語音識別米卡迪電話機器人...

10-24

靈聲電話機器人效果怎么樣？好用嗎

外呼電話機器人，之所以能智能的與客戶無憂交流，因為運用了下面這么多高技術。靈聲電話機器人效果怎么樣？...

10-24

電銷機器人要想效果好，話術定制有多重要

電話機器人是基于智能語音技術的智能營銷工具。它會像真人一樣主動撥打客戶的電話，介紹產(chǎn)品并回答客戶的咨詢...

10-24

智能電話機器人的實現(xiàn)原理，使用安全嗎？

隨著科學技術的進步和人工智能的發(fā)展，越來越多的智能產(chǎn)品已經(jīng)進入我們的工作和生活。智能手機、智能電視、智...

10-24

福州哪里有電話機器人研發(fā)公司？

人工智能再次成為各行各業(yè)關注的焦點，自從這個概念首次提出以來，60年已經(jīng)過去了。自從AlphaGo以巨大優(yōu)勢擊敗人...

10-24

電銷機器人銷售能力怎么樣？

自從電話機器人一出現(xiàn)，在電銷行業(yè)火爆了起來。面對電話機器人的各種優(yōu)勢，企業(yè)躍躍欲試，但又害怕效果不理...

10-24

網(wǎng)絡傳播和下載的版權補償金制度的適用

win10 mobile單手操作模式怎么用？win10 mobile和iOS系統(tǒng)單手操作區(qū)別對比

商標轉(zhuǎn)讓,知意商標轉(zhuǎn)讓網(wǎng),公司注冊、商標注冊和品牌注冊三者的區(qū)別？

科大訊飛閃耀世界人工智能大會：人工智能+未來已來

python flask開發(fā)的簡單基金查詢工具

營銷缺位：避暑經(jīng)濟還需發(fā)出“好聲音”

ADO.NET基礎知識匯總

上一篇：golang中實現(xiàn)給gif、png、jpeg圖片添加文字水印

下一篇：go語言中切片與內(nèi)存復制 memcpy 的實現(xiàn)操作

一起分享吧

Go語言中的UTF-8實現(xiàn)

QQ咨詢

電話咨詢