程式語言概念
資料型態
任何程式語言一定會有資料型態,畢竟程式語言被發明就是為了能過處裡資料的,而程式語言的資料型態定義,個人認為是有很嚴格的定義的,從數理邏輯推演過來,基本的命題為真或為假(True or False),而這個可以對應到電路上的高電位跟低電位,也被人說成能被描述成命題就可以被電腦處理,也就是0跟1,也就是基本的布林值。
- 布林值
不是每種語言都會去定義布林值,像是C就沒定義,而布林值常常也會用0(False)、1(True)來代替,而通常一個基本單位被稱為1 bit,可以是零或一,通常八個一組 8 bits,又稱為1 byte,。
- 整數
數字系統的設計,也是有趣的過程,因為電路是只有0跟1,電腦是一堆電路組成的,也就是二進制,而我們的人類使用的是十進制,而從我們的微處理器的演變過程,又定義出八進制、十六進制,方便8位元、16位元的晶片進行設計。
二進制:
基本數字為0、1,而1加上1則進位,常用表示方式0b1000。
EX:1+1=10。
八進制:
基本數字為0、1、2、3、4、5、6、7,而7加上1則進位,常用表示方式0o7000。
EX:7+1=10。
十進制:
基本數字為0、1、2、3、4、5、6、7、8、9,而9加上1則進位,常用表示方式100。
EX:9+1=10。
十六進制:
基本數字為0、1、2、3、4、5、6、7、8、9、A、B、C、D、E,而E加上1則進位,常用表示方式0xA000。
EX:E+1=10。
二進制:
八進制:
十進制:
十六進制:
進制轉換:
二轉八:2^3=8,因此在從二轉八時,會一次看二進制三個位數,這三個位數等於一個八進制的一位數,如:0010可以拆成0跟010,0就為0,010需要計算轉換,公式為
a*2^2+b*2^1+c*2^0
因此010用公式計算0*2^2+1*2^1+0*2^0=2,因此轉換完成後為八進制為02。
二轉十六:2^4=16,因此在從二轉八時,會一次看二進制四個位數,這四個位數等於一個十六進制的一位數,如:00010可以拆成0跟0010,0就為0,010需要計算轉換,公式為
a*2^3+b*2^2+c*2^1+d*2^0
因此0010用公式計算0*2^2+1*2^1+0*2^0=2,因此轉換完成後為十六進制為02。
二轉十:在從二轉十時,會一次看二進制的全部位數,如:八位元系統 0100 0010需要計算轉換,而八位元系統的公式最高位數就為7,若是十六位元系統的公式最高為元就為15,以下是八位系統的公式
a*2^7+b*2^6+c*2^5+d*2^4+e*2^3+f*2^2+g*2^1+h*2^0
以下把數字帶入公式,並把係數不為零的去掉,得到1*2^6+1*2^1=64+2=66,因此轉換完成後為十進制為66。
八轉十:在從八轉十時,會一次看八進制的全部位數,如:以 0176為例子是四位的八進制,因此最高為3,需要計算轉換,以下是公式
a*8^3+b*8^2+c*8^1+d*8^0
以下把數字帶入公式,並把係數不為零的去掉,
得到1*8^2+7*8^1+6*8^0==64+7*8+6=126,因此轉換完成後為十進制為126。
得到1*8^2+7*8^1+6*8^0==64+7*8+6=126,因此轉換完成後為十進制為126。
十六轉十:在從十六轉十時,會一次看十六進制的全部位數,如:以 01AB為例子是四位的十六進制,因此最高為3,需要計算轉換,以下是公式
a*16^3+b*16^2+c*16^1+d*8^0
以下把數字帶入公式,並把係數不為零的去掉,
得到1*16^2+10*16^1+11*16^0==256+160+176=592,因此轉換完成後為十進制為592
觀察上面的內容可以發現到我的位數會相等於我的係數(An,An-1,...,A1),而我的進制的系統會等於我的底數(base),底數的次方剛好跟位數減一相等,所以可把它公式化出來
得到1*16^2+10*16^1+11*16^0==256+160+176=592,因此轉換完成後為十進制為592
觀察上面的內容可以發現到我的位數會相等於我的係數(An,An-1,...,A1),而我的進制的系統會等於我的底數(base),底數的次方剛好跟位數減一相等,所以可把它公式化出來
An*base^(n-1)+An-1*base^(n-2)+...+A1*base^(0)
可以試者把前面換換的公式寫出來,久了其實只是很自然的反應,另外實在記不起來可以用計算機換算。
十轉二:使用短除法,為什麼不用前面的方法,因為大多人對二進制的運算系統不熟,我也不熟,而在進行轉換的時候只用二去除,餘數寫旁邊,商寫下面,最後使商為零時停止,並從下方開依序將數字抄寫下來。
在前述的內容二進制跟十進制轉換,就可以定義處電腦上的十進制,再來看位元數看可以定義出多少的個數字。
- 8位元:2^8=256
- 16位元:2^16=65536
- 32位元:2^32=4294967296
- 64位元:2^64=18446744073709551616
在定義數字上,可以分成短整數、整數、長整數、正整數(無符號整數),正整數一樣可以分成短整數、整數、長整數,因此這邊只討論整數的部分,討論以八位元為例子。
假設用八位元定義整數,通常位元數的第一位會用來定義正負號所以只剩七位元來當數字,可以得到整數範圍為-127~128(-127~-1、0、1~128),此時短整數會以四位元來定義範圍為-63~64,長整數會以十六位元來定義,範為-32767~32768
而正整數就會為0~256,因為第八位沒有定義符號,所以可以用八個位元都可以用來定義數字, 以此類推16位元、32位元等,有些程式語言會再多定義出其他整數,請詳細看該語言的定義。
- 浮點數
浮點數大致分成單精度浮點數、雙精度福點數,而小數或科學記號,在電腦上會用浮點數方式儲存,所以必須討論小數轉換成浮點數的過程以及浮點數的過程。
在前述的內容二進制跟十進制轉換,就可以定義處電腦上的十進制,再來看位元數看可以定義出多少的個數字。
- 8位元:2^8=256
- 16位元:2^16=65536
- 32位元:2^32=4294967296
- 64位元:2^64=18446744073709551616
在定義數字上,可以分成短整數、整數、長整數、正整數(無符號整數),正整數一樣可以分成短整數、整數、長整數,因此這邊只討論整數的部分,討論以八位元為例子。
進制轉換:
小數轉換成浮點數:
小數在轉換的時候,就是把十進位的小數部分乘與二,並取出整數部分,取出之後重複運算直到需要直到小數為零,若不能為零則運算到需要的長度。
以下為實際的例子
16=10000
0.312=0.0100111111011111001110110110010001011010000111001011
二進制:
110000.0100111111011111001110110110010001011010000111001011
浮點數(把位數提出來):
11.00000100111111011111001110110110010001011010000111001011*2^4
浮點數轉換成小數:
浮點數:
11.00000100111111011111001110110110010001011010000111001011*2^4
二進制:
110000.0100111111011111001110110110010001011010000111001011
十進制:
整數:1 10000= - 1*2^4 = -16
小數:0.0100111111011111001110110110010001011010000111001011
= 0*2^0 + 0*2^-1 + 1*2^-2 + .... + ....
= 0.312
所以得到 -16.312
以下是以32位元的單精度浮點數定義(IEEE 754-1985):
以下是以64位元的單精度浮點數定義(IEEE 754-1985):
單精度(雙精度)浮點數=sign*2^exponent*fraction
sign為正負號
exponent為儲存以二為底數的指數的次方數
fraction為儲存小數部分
在計算exponent時需要把2^n次方轉換成二進制,如用補數方式儲存,須減127。
在計算fraction時,只存計算出來的位數中需要的位數,而因為在換算的時候第一個位數都是為一,所以整數部分不存,但是在反推計算的時候,需要先行加一
以-16.312的小數為例子:
11.00000100111111011111001110110110010001011010000111001011*2^4
第一個1為符號:負號
exponent:由2^4可以知道為4-127=-123=11111011
fraction:0000010011111101111100
最後單精度浮點數:1-11111011-0000010011111101111100
- 字元
字元編碼目的是為了能夠在電腦紀錄人類語言的資料,由前述的內容可以知道其實用二進制定義出來的東西其實只有數字而已,對於文字的部分尚未定義,所以使用了類似的的概念去定義文字,基本字元由英文字母來看需要26個大寫、26個小寫,並且加上常用符號以及控制電腦所需要的指令,這樣的編碼才能夠符合紀錄的要求,此外由上述觀察可以發現,字母越多的語言,越不適合當作基礎的字元編碼來使用,如:中文有破萬的文字,需要再編碼中全部定義。
而現行的主要編碼為ASCII,其衍生中Unicode,而utf-8(utf=unicode transformation format)為可變長度的字元編碼,為主流。
ASCII把電腦基本所需的編碼都已經加進去,他是用八進制系統(1 byte)進行編碼,表如下:
unicode可以把它視為ASCII的拓展,就以utf-8為例子,他是用1~4byte為一組的編碼系統,它又相容ASCII,這也是為什麼我會說unicode是拓展的原因,1byte的部分基本上跟ASCII重複內容,以上去衍生其他語言系統的文字、符號,總共可以儲存4294967296個字元,其中的詳細定義必須去unicode官網查詢-連結,也因為utf8可以字元大小是變動的,所以可以減少儲存空間。
- 字串
在有些語言中,是沒有支援字串的功能,因為字串的功能也只是一堆連續的字元組成,因此在一開始的時候並沒有把字串功能加入程式語言當中,而常見的字串處理功能如下:
- 字串複製
- 字串串接
- 字串比較
- 某字元第一次出現的位置
- 某字元會後一次出現的位置
- 從某字元後分割成兩段字串
- 計算字串長度
- 字串存到記憶體
- 字串從記憶體存到另一記憶體
- 將某字元插入都字串的特定位置上
比較先進的語言都已經把上述的功能,用特定的方式定義在程式語言中讓人使用,以節省開發的時間。
在定義變數的時候,有兩種主流方法,一為先定義變數的資料型態、二不定義變數的資料型態,等使用的時候再定義,定二種被稱為泛型。
介紹完數字系統、文字編碼系統、字串相關的處理之後,接下來開始介紹運算。
浮點數:
11.00000100111111011111001110110110010001011010000111001011*2^4
二進制:
110000.0100111111011111001110110110010001011010000111001011
整數:1 10000= - 1*2^4 = -16
小數:0.0100111111011111001110110110010001011010000111001011
= 0*2^0 + 0*2^-1 + 1*2^-2 + .... + ....
= 0.312
所以得到 -16.312
以下是以32位元的單精度浮點數定義(IEEE 754-1985):
以下是以64位元的單精度浮點數定義(IEEE 754-1985):
單精度(雙精度)浮點數=sign*2^exponent*fraction
sign為正負號
exponent為儲存以二為底數的指數的次方數
fraction為儲存小數部分
在計算exponent時需要把2^n次方轉換成二進制,如用補數方式儲存,須減127。
在計算fraction時,只存計算出來的位數中需要的位數,而因為在換算的時候第一個位數都是為一,所以整數部分不存,但是在反推計算的時候,需要先行加一
以-16.312的小數為例子:
11.00000100111111011111001110110110010001011010000111001011*2^4
第一個1為符號:負號
exponent:由2^4可以知道為4-127=-123=11111011
fraction:0000010011111101111100
最後單精度浮點數:1-11111011-0000010011111101111100
- 字串複製
- 字串串接
- 字串比較
- 某字元第一次出現的位置
- 某字元會後一次出現的位置
- 從某字元後分割成兩段字串
- 計算字串長度
- 字串存到記憶體
- 字串從記憶體存到另一記憶體
- 將某字元插入都字串的特定位置上
比較先進的語言都已經把上述的功能,用特定的方式定義在程式語言中讓人使用,以節省開發的時間。
介紹完數字系統、文字編碼系統、字串相關的處理之後,接下來開始介紹運算。
投影片-slideshare:程式語言概念_變數
影片-youtube:程式語言蓋面_變數
留言
張貼留言