[心得] 小我的 x86 組合語言觀念筆記－clarenv6bio@outlook.com

印度語口譯證照※ [本文轉錄自 C_and_CPP 看板 #1Cis6A7c ] 作者: purpose (purpose) 看板: C_and_CPP 標題: Re: [問題] C/C++ 中的 asm 該若何學起？時間: Tue Oct 12 03:12:07 2010 發篇筆記 1、[簡介] 機械說話與80x86 2、[觀念] 組合說話—Intel Style 與 AT&T Style、MASM 與 NASM 3、[教學] 簡單貫穿連接範例—NASM 組合語言與 C/C++ (Windows 平台) ------------------------------------------------------------- 一、[簡介] 機械語言與80x86 大師家裡用的計較機械叫做小我電腦 (PC)翻譯可以拿來安裝 Windows、Linux，甚至 Mac OS X...等功課系統。小我電腦的 CPU 演化歷史，可以說就是 Intel 的歷史。從最早的16位元CPU：「8088/8086 -> 80286」，再演變到32位元的 80386、80486... 後來因為商標不克不及用數字註冊，Intel 不利用 80586 命名，從586最先，改名為歷史上的 Pentium CPU。 AMD 也差不多是在 Pentium 時代開始漸漸成為 Intel 在小我電腦處置器上的競爭者。可以想見 Intel 就是小我電腦處置器的「唯一制訂者」，Intel自己做新的 CPU 也要向後相容以前的東西，就像 Windows 7 也得要能執行 Windows XP 的程式一般。翻譯公司在 286 寫的程式，拿去給 486 的 CPU 也要能跑翻譯所以「個人電腦 CPU = x86 家族」...好啦，可能有人不認同這句話。你跟美國人講話就要講英文、跟法國人講法文；跟 x86 家族的處置器講話，就要講「x86 機械說話」；跟 Intel 8051 單晶片處置器溝通，就講「8051 機械說話」；在算盤本裡面介紹的處置懲罰器是「MIPS」家族，就用「MIPS 機器說話」跟其溝通。所有處置懲罰器裡面，x86家族功能當然是最強，每一代都有增添新功能，又要向後相容，所以其實該說話最複雜、不劃定規矩、欠好學。但只用些根基的功能的話，照舊過得去的翻譯 2、[觀念] 組合語言—Intel Style 與 AT&T Style、MASM 與 NASM 機器說話因為電路關係，原始形式就是 010101 這種二進位形式，但你喜好也能夠轉成十六進位寫出來給他人看。下面這是一個 x86 機械說話指令 (instruction)： 05 0A 00 00 00 (十六進位暗示) 用人類說法就是你告知某顆 x86 家族的 CPU：「把翻譯公司的 eax 暫存器內容取出，將其跟10相加，再把結果寫回 eax 暫存器」用C說話表示法就是：「eax += 10;」機械說話情勢明顯太麻煩了。於是發現了「助憶符號」，好比用 add 代表「相加這個運算動作」；減法動作，用符號 sub 符號；將資料從A處複製過去B處的動作，就用 mov 助憶符號標識表記標幟翻譯 add翻譯社 sub, mov...等是運算子，而 eax 暫存器跟 10 是運算介入單元 (運算元)翻譯若是綜合以上講的運算子跟運算元，想要寫出完全指令時，還會有一個問題！若有 eax, ecx 兩個運算元，想要把 eax 的值掏出，複製到 ecx 去到底該寫 mov eax, ecx 照樣 mov ecx翻譯社 eax ？哪邊濫觞？哪邊目標？ AT&T、Intel 各自有一套語法老例。詳細資料參考這裡： http://www.ibm.com/developerworks/library/l-gas-nasm.html C語言 Intel AT&T 指派運算子的靠最左側的運算元靠最右側的運算元左邊是目標地是目標地。是運算成效放置處。 int eax = 4; mov eax, 4 movl $4, %eax (暫存器名稱前，需加 % 符號；並且4這個立即數值前，需加 $ 符號；且用 movl 默示 move long 這麼長) 西瓜靠大邊，跟人人一起用 Intel 慣例的寫法就好翻譯像上面 mov eax翻譯社 4 如許子的指令情勢，都叫「組合說話」，說穿了只是把當初的「x86 機械說話」寫成比力輕易看懂的形式而已翻譯既然如許，那 x86 機械語言就一套，助憶符號跟暫存器也固定那幾個。為什麼最後卻搞出 MASM、TASM、NASM、FASM...這麼多種組合語言呢？ MASM，軟體界霸主微軟奉行的組合說話 (固然微軟比來變心去搞 MSIL 的樣子？) NASM，在台灣是僅次於微軟的選擇方案，並且跨多個功課系統平台。文件完整、有中文書籍在講它，並且狀態不變翻譯 ※ FASM，較新，雷同於NASM，傳聞比力快？ ※ TASM，老牌子，目下當今很少人用了，可是有 Turbo Debugger 很壯大，可以對 16 位元履行檔做偵錯，偶然也值得一用翻譯上面提到的組合說話都是 Intel Style，而 AT&T 會看到的地方，就是利用「gcc -S」功能時會出現。可是可以用 objdump 去看 Intel Style 的組語。假如是 gdb 偵錯則直接就有選項 disassembly-flavor intel 可以切換到 Intel 風格組語翻譯別離用 VC 跟 GCC ，一樣寫個 C 說話動態函式庫，把某個函數輸出，天成翻譯公司用 VC 時，可以在函數前面加上 __declspec(dllexport) 告知 VC 將該函數輸出翻譯也可以寫個「模組界說檔」(*.def) 去記錄哪些函數要輸出。但是這兩個方法都是 VC 特有，不是 C 說話劃定的翻譯同樣狀況在組合語言亦同，MASM 也有一些組譯器指令是其專有，而 NASM 沒有翻譯乃至在語法上，二者也有差異。詳細資料：http://www.nasm.us/doc/nasmdoc2.html#section-2.2 NASM 對於「LABEL 符號」是有分巨細寫的，MASM 沒有分。 (這不包括暫存器名稱，沒必要非寫 eax 而不寫 EAX，也不包含 NASM 的假指令，好比 SECTION 巨細寫都可以翻譯) 而且 MASM 有些遭詬病的語法規範，NASM 有對其改良之翻譯對於 MASM 「某符號」要拿來「當做記憶體位址」用時，需加上 offset 修飾。對於 NASM 覺得微軟如許太麻煩，直接寫就必然是當位址用，不用加 offset翻譯 MASM 的毛病是若是寫組譯器指令以下，去界說兩個符號： (MASM、NASM 都支援這兩個假指令) foo equ 1 bar dw 2 equ 指令很近似 #define pi 3.141421356 (...偷用他人的梗) dw 這個假指令，是告知組譯器把此刻這個處所，所對應的記憶體位址，取別號叫 bar，而且寫入 double-word (4位元組) 到此處，寄存值為 0x 00 00 00 02。此時，假如 MASM 有兩個指令如下： mov eax, foo ; foo 因為是 equ 設定出來的值，所以 eax 會獲得 1 mov eax, bar ; bar 因為是「組合說話變數」，故 eax 獲得值是 2 上面兩個指令，語法格局看起來完全一致，但假如沒去旁觀 foo 跟 eax 的假指令界說，就不克不及剖斷機械碼該翻成哪一個。假如是用 NASM，因為他強迫劃定只要是「間接取值」者，一概需加上中括號 []翻譯這個間接取值，意思是第一次取到的值，不是我要的，第二次取到的值才是我要的。可以想成「間接取值 = 二次取值」。換言之 mov eax, foo mov eax翻譯社 bar 對於 NASM 來講，不需要去看假指令定義，因為 bar 跟 foo 都沒有用中括號，所以兩個都做一次取值就好。亦即 mov eax, bar 會獲得 bar 對應的記憶體位址，而不是 bar 的寄存內容 2。可是 MASM 很沒規律，因為 foo 是 equ 所定義，所以 eax 得到 1 (沒間接取值)；因為 bar 是一個 dw 界說的「組合說話變數」，所以將會做「間接取值」，先取得 bar 所對應的記憶體位址後，再到該位址再取一次值。抓4位元組得到 2 來傳給 eax。 3、[教授教養] 簡單連結範例—NASM 組合說話與 C/C++ (Windows 平台) 存成檔案 xx.c --------------------------------------- #include <stdio.h> int plusTen(int val); int plusEleven(int x) { return x+11; } int main() { printf("return = %d ", plusEleven(1)); printf("return = %d ", plusTen(0x00123456)); return 0; } --------------------------------------- 用 VC 編譯器的話，履行指令 cl /c xx.c 可以獲得對應的目的檔「xx.obj」從 Visual Studio 200X 號令提醒字元，去下這個 cl 指令，以省略環境變數的設定存成檔案 fun.asm --------------------------------------- section .text global _plusTen _plusTen: push ebp ;函數初始化工作 mov ebp, esp ;函數初始化工作 mov eax翻譯社 0 mov ax, word [ebp+8] add eax, 10 pop ebp ;函數結尾工作 ret ;返回呼喚函數 (caller)，eax 是寄存返回值用 --------------------------------------- 去下載 NASM http://www.nasm.us/pub/nasm/releasebuilds/2.09.02/win32/nasm-2.09.02-win32.zip 解壓縮後，執行指令 nasm -f win32 D:\Desktop\fun.asm 就能取得一樣是 COFF 花樣的目標檔 fun.obj。簡單來講就是這個目標檔跟 cl /c 獲得的目標檔有一樣花式翻譯最後再去「Visual Studio 200X 敕令提醒字元」下指令 link xx.obj fun.obj 就可以獲得 xx.exe 完成 C/C++ 跟 NASM 函數的保持了翻譯 ※對道理有愛好可以參考《程式設計師的自天成翻譯公司教養》一書。 section .text 是 NASM 假指令，示意從這行指令以下的內容，翻譯成機械碼後都要放到 .text 區去。每個 *.obj、*.exe 內部都有 .text 區段。 global 是 NASM 假指令，在這裡示意要把 _function 標籤包孕的機械碼視為全域函數。在 C/C++ 你預設寫個函數，像上面的 plusEleven() 就天然會是這裡說的這類「全域函數」。利用 dumpbinGUI 對象，跳去 xx.obj、fun.obj 查看符號表，便可看到 external 字眼。暗示 xx.obj 可以調用 fun.obj 裡面寫 external 的符號，反之則反翻譯 mov ax翻譯社 word [ebp+8] 這個 ebp+8 是代表 plusTen() 函數的「參數1」查一下 stack frame 的觀念，再用偵錯軟體窺察「函數呼喚」進入前後的堆疊、暫存器轉變，應當就可以理解。要申明的是，[ebp+8] 是「二次取值」，當第一次取值獲得 ebp+8 位址假定是 0x0012FF74，接著要在這個處所做二次取值，在 C/C++ 要取幾個位元組的值是看該指標的資料型態。假如是在 MASM，則是在中括號前寫 word ptr [ebp+8] 代表 2位元組；若寫 byte ptr [ebp+8] 則代表 1位元組。而 NASM 跟 MASM 差不多，但必須拿掉 ptr 字眼，不然會組譯毛病。因C說話還沒公然前，就已留下一堆目標檔、一堆函數，他們都用正常的定名，一些好記的名字都被用過了，所以 C 說話在使用函數時，其實一概主動加 _ 來定名。是以本來的 C 函數呼喚固然是 plusTen，但在 fun.asm 裡輸出的全域函數要寫成 _plusTen 才能讓 xx.c 可以貫穿連接到。 ------------------------------------ 關於「目標檔」，參考這篇： http://en.wikipedia.org/wiki/Object_file 都只講微軟平台在 DOS 時期目標檔名稱也都是 *.obj；履行檔名稱也都是 *.exe，但這裡的 *.obj 實際上是 OMF 花樣 (Relocatable Object Module Format)。跟你在 Windows 用 VC 編譯出來的目標檔 *.obj 分歧。用 nasm -f obj fun.asm 應該就是產生 OMF 花式的目標檔？用 nasm -f win32 fun.asm 則是產生 COFF 花樣的目的檔。更正確來講這個 COFF 花式是微軟點竄過的變種 COFF 花樣翻譯你也能夠叫它 PE/COFF 花式，乃至叫他 PE 花樣也行，要解讀 PE 花樣，其第一選擇固然也是微軟供應 dumpbin，而軟體 dumpbinGUI 是圖形介面的前端。真要說的話 dumpbin 也是一個前端，實際上是呼叫 VC 的 link.exe，給潛藏選項 link /DUMP /ALL xx.obj。 http://en.wikipedia.org/wiki/Portable_Executable PE 花式紛歧定是 *.exe 履行檔，也能夠是 *.dll 也能夠是 *.obj...等。因為 VC 編譯出的目標檔都是 PE 花式，而 VC 的 link.exe 不克不及處理古早的目標檔 OMF 花式，所以上面需要叫 nasm 用 -f win32 選項去產生 PE 目的檔。也許會有某個很強的連結器，可以把 OMF 跟 PE 目標檔保持成 PE 執行檔吧？乃至把 gcc 編出來的目標檔跟 PE 目標檔 link 成 PE 履行檔？看有沒有人知道囉 ------------------------------------ MASM 組譯器指令清單 http://msdn.microsoft.com/en-us/library/8t163bt0.aspx 恰好看到，彌補上來翻譯 ------------------------------------ (怕以後忘記，再寫篇記錄，上文不改觀，新增內容於下) 16位元記憶體模子—Segment:Offset (分段記憶體模型) 32位元記憶體模型—Flat Memory Model 加 Paging ( http://en.wikipedia.org/wiki/X86_architecture ) 小我電腦 x86 家族的 CPU，在 16 位元時期是 8088/8086/80286 這三位；而 x86 家族第一個 32 位元始祖是劃時代的 80386。 8088跟8086的位址匯流排都有20條線，每條線都是一端毗連記憶體，一端毗連處置懲罰器，在凹凸電位變化下 (0、1)，總共可有 2^20 種節制轉變。換言之，依照每個記憶體位址對應一個位元組的老例，可以定位 2^20 巨細的記憶體位址； 80286 則進化到 24 條位址線，定址能力達 2^24，即 16M 記憶體。省麻煩，把它當成跟 8088/8086 一樣，只能定址到 1M 記憶體就好。 ※ 在 x86 的術語中，記憶體位址可以分成三種：邏輯位址、線性位址、真實位址(物理位址) 必須先「邏輯位址→線性位址」，然後接著才是「線性位址→真實位址」。自從32位元 CPU 呈現 (自 80386 後)，記憶體 Model 釀成 Flat Memory，邏輯位址就已等於線性位址了。然後是因為有「分頁機制」武力介入，所以需要先透過度頁機制轉換，線性位址才會釀成真實的物理位址。而分頁機制是從 80386 開始使用 (保護模式的完全版也是從 80386 最先)。那為什麼 16 位元處理器，不使用 Flat Memory Model？為什麼當初的邏輯位址要先顛末轉換才會釀成線性位址？因為16位元CPU內部，介入運算的暫存器那時都還逗留在16位元 (如：ax, bx, cx 翻譯社 dx)，乃至最重要的指令暫存器 (IP) 也是 16 位元，故只有定位到 0~65535 也就是 64K 記憶體的能力翻譯 Intel 用額外提供的四個「分段暫存器」(CS、DS、ES、SS)，搭配其他暫存器後，使得每次記憶體定址體例實際上是 Segment:Offset，此時這種位址表達法叫邏輯位址翻譯 CS 是 Code Segment、DS 是 Data Segment、SS 是 Stack Segment ... 邏輯位址→線性位址，公式是：「Segment Register * 0x10 + Offset」假設我們有個程式，裡面的「全域變數」(不是放在堆疊的那種區域變數)，有個很大的整數陣列，總共有 128K。當程式執行時，這些資料區段假定放在「線性位址=物理位址」的 0x0 ～ 0x1FFFF 這段持續的記憶體空間裡。在邏輯位址(以寫程式的角度去觀看的位址)，這 128K 資料會被分成兩段，第一段是 DS=0 且 offset = 0x0000～0xFFFF，第二段是 DS=1 且 offset = 0x0000～0xFFFF。換言之，假如我要把某陣列元素移到 ax 暫存器，指令可能長如許 mov ax, word ptr[0x1234] 若是履行這行時 DS=0，則會取到物理記憶體位址 0x01234 處 (第一段)；如果執行這行時 DS=1，則會取道物理記憶體位址 1*0x10 + 0x1234 = 0x11234。若要讀取最後一個位元組到ax，只要履行以下指令便可： mov ds翻譯社 1 mov al, byte ptr[0xFFFF] 因為不知道當時的 DS 值為多少，所以保險點，先設定 DS，然後因為 ax 是 16 位元，沒必要用到這麼大。所以用 al 寄存即可翻譯 al 就是 ax 暫存器低 8 位元別名翻譯 (ax 在 32 位元以上的 CPU 時，其實也是 eax 暫存器的低16位元處別號) 當今的執行檔，比如 PE 履行檔，常常內部都有分 .text (.code)、.data，可能就是承繼當初的記憶體分段機制？

文章來自: https://www.ptt.cc/bbs/ASM/M.1286960542.A.5B9.html有關各國語文翻譯公證的問題歡迎諮詢天成翻譯公司02-77260931

翻譯社

clarenv6bio

clarenv6bio@outlook.com

clarenv6bio 發表在痞客邦留言(0) 人氣()

E-mail轉寄

clarenv6bio@outlook.com

歡迎光臨clarenv6bio在痞客邦的小天地

[心得] 小我的 x86 組合語言觀念筆記

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

POWERED BY