ucore操作系统学习(五) ucore lab5用户进程管理
1. ucore lab5介绍
2. ucore lab5实验细节分析
2.1 lab5中线程控制块的变化
为此,ucore在lab5中在进程控制块proc_sturct中加入了exit_code、wait_state以及标识线程之间父子关系的链表节点*cptr, *yptr, *optr。
/** * 进程控制块结构(ucore进程和线程都使用proc_struct进行管理) * */ struct proc_struct { 。。。 只列出了lab5中新增加的属性项 // 当前线程退出时的原因(在回收子线程时会发送给父线程) int exit_code; // exit code (be sent to parent proc) // 当前线程进入wait阻塞态的原因 uint32_t wait_state; // waiting state /** * cptr即child ptr,当前线程子线程(链表结构) * yptr即younger sibling ptr; * optr即older sibling ptr; * cptr为当前线程的子线程双向链表头结点,通过yptr和optr可以找到关联的所有子线程 * */ struct proc_struct *cptr, *yptr, *optr; // relations between processes };
2.2 系统调用的实现原理
#define T_SYSCALL 0x80 /* idt_init - initialize IDT to each of the entry points in kern/trap/vectors.S */ void idt_init(void) { extern uintptr_t __vectors[]; int i; // 首先通过tools/vector.c通过程序生成/kern/trap/verctor.S,并在加载内核时对之前已经声明的全局变量__vectors进行整体的赋值 // __vectors数组中的每一项对应于中断描述符的中断服务例程的入口地址,在SETGATE宏的使用中可以体现出来 // 将__vectors数组中每一项关于中断描述符的描述设置到下标相同的idt中,通过宏SETGATE构造出最终的中断描述符结构 for (i = 0; i < sizeof(idt) / sizeof(struct gatedesc); i ++) { // 遍历idt数组,将其中的内容(中断描述符)设置进IDT中断描述符表中(默认的DPL特权级都是内核态DPL_KERNEL-0) SETGATE(idt[i], 0, GD_KTEXT, __vectors[i], DPL_KERNEL); } // 设置系统调用的中断描述符(T_SYSCALL 0x80),因为是提供给应用程序使用的,因此DPL特权级设置为用户态(DPL_USER) SETGATE(idt[T_SYSCALL], 1, GD_KTEXT, __vectors[T_SYSCALL], DPL_USER); // load the IDT 令IDTR中断描述符表寄存器指向idt_pd,加载IDT // idt_pd结构体中的前16位为描述符表的界限,pd_base指向之前完成了赋值操作的idt数组的起始位置 lidt(&idt_pd); }
static void trap_dispatch(struct trapframe *tf) { char c; int ret=0; switch (tf->tf_trapno) { 。。。 省略其它中断号的处理逻辑 case T_SYSCALL: syscall(); break; 。。。 省略其它中断号的处理逻辑 }
static int (*syscalls[])(uint32_t arg[]) = { [SYS_exit] sys_exit, [SYS_fork] sys_fork, [SYS_wait] sys_wait, [SYS_exec] sys_exec, [SYS_yield] sys_yield, [SYS_kill] sys_kill, [SYS_getpid] sys_getpid, [SYS_putc] sys_putc, [SYS_pgdir] sys_pgdir, }; #define NUM_SYSCALLS ((sizeof(syscalls)) / (sizeof(syscalls[0]))) void syscall(void) { struct trapframe *tf = current->tf; uint32_t arg[5]; int num = tf->tf_regs.reg_eax; if (num >= 0 && num < NUM_SYSCALLS) { if (syscalls[num] != NULL) { arg[0] = tf->tf_regs.reg_edx; arg[1] = tf->tf_regs.reg_ecx; arg[2] = tf->tf_regs.reg_ebx; arg[3] = tf->tf_regs.reg_edi; arg[4] = tf->tf_regs.reg_esi; tf->tf_regs.reg_eax = syscalls[num](arg); return ; } } print_trapframe(tf); panic("undefined syscall %d, pid = %d, name = %s.\n", num, current->pid, current->name); }
库函数syscall.c中不同的系统调用最终都通过syscall函数进行统一处理,syscall通过内联汇编的形式,执行了int i 0x80(T_SYSCALL)以发起系统调用中断。系统调用号num赋值给了eax(a),且将需要传递的参数赋值(a[i])分别给了edx(d)、ecx(c)、ebx(b)、edi(D)和esi(S),且令返回值ret等于中断返回后的eax(=a ret)。
#include <defs.h> #include <unistd.h> #include <stdarg.h> #include <syscall.h> #define MAX_ARGS 5 static inline int syscall(int num, ...) { va_list ap; va_start(ap, num); uint32_t a[MAX_ARGS]; int i, ret; for (i = 0; i < MAX_ARGS; i ++) { a[i] = va_arg(ap, uint32_t); } va_end(ap); asm volatile ( "int %1;" : "=a" (ret) : "i" (T_SYSCALL), "a" (num), "d" (a[0]), "c" (a[1]), "b" (a[2]), "D" (a[3]), "S" (a[4]) : "cc", "memory"); return ret; } int sys_exit(int error_code) { return syscall(SYS_exit, error_code); } int sys_fork(void) { return syscall(SYS_fork); } int sys_wait(int pid, int *store) { return syscall(SYS_wait, pid, store); } int sys_yield(void) { return syscall(SYS_yield); } int sys_kill(int pid) { return syscall(SYS_kill, pid); } int sys_getpid(void) { return syscall(SYS_getpid); } int sys_putc(int c) { return syscall(SYS_putc, c); } int sys_pgdir(void) { return syscall(SYS_pgdir); }
2.3 应用程序的加载
lab4在总控函数kern_init中通过proc_init创建了两个内核线程idle_proc和init_proc,其中init_proc只是单单在控制台中打印了hello world。
// init_main - the second kernel thread used to create user_main kernel threads static int init_main(void *arg) { size_t nr_free_pages_store = nr_free_pages(); size_t kernel_allocated_store = kallocated(); // fork创建一个线程执行user_main int pid = kernel_thread(user_main, NULL, 0); if (pid <= 0) { panic("create user_main failed.\n"); } // do_wait等待回收僵尸态子线程(第一个参数pid为0代表回收任意僵尸子线程) while (do_wait(0, NULL) == 0) { // 回收一个僵尸子线程后,进行调度 schedule(); } // 跳出了上述循环代表init_main的所有子线程都退出并回收完了 cprintf("all user-mode processes have quit.\n"); assert(initproc->cptr == NULL && initproc->yptr == NULL && initproc->optr == NULL); assert(nr_process == 2); assert(list_next(&proc_list) == &(initproc->list_link)); assert(list_prev(&proc_list) == &(initproc->list_link)); assert(nr_free_pages_store == nr_free_pages()); assert(kernel_allocated_store == kallocated()); cprintf("init check memory pass.\n"); return 0; }
// user_main - kernel thread used to exec a user program static int user_main(void *arg) { #ifdef TEST KERNEL_EXECVE2(TEST, TESTSTART, TESTSIZE); #else KERNEL_EXECVE(exit); #endif panic("user_main execve failed.\n"); } #define __KERNEL_EXECVE(name, binary, size) ({ \ cprintf("kernel_execve: pid = %d, name = \"%s\".\n", \ current->pid, name); \ kernel_execve(name, binary, (size_t)(size)); \ }) #define KERNEL_EXECVE(x) ({ \ extern unsigned char _binary_obj___user_##x##_out_start[], \ _binary_obj___user_##x##_out_size[]; \ __KERNEL_EXECVE(#x, _binary_obj___user_##x##_out_start, \ _binary_obj___user_##x##_out_size); \ }) #define __KERNEL_EXECVE2(x, xstart, xsize) ({ \ extern unsigned char xstart[], xsize[]; \ __KERNEL_EXECVE(#x, xstart, (size_t)xsize); \ }) #define KERNEL_EXECVE2(x, xstart, xsize) __KERNEL_EXECVE2(x, xstart, xsize) // kernel_execve - do SYS_exec syscall to exec a user program called by user_main kernel_thread static int kernel_execve(const char *name, unsigned char *binary, size_t size) { int ret, len = strlen(name); // 内核中执行系统调用SYS_exec asm volatile ( "int %1;" : "=a" (ret) : "i" (T_SYSCALL), "0" (SYS_exec), "d" (name), "c" (len), "b" (binary), "D" (size) : "memory"); return ret; }
static int sys_exec(uint32_t arg[]) { const char *name = (const char *)arg[0]; size_t len = (size_t)arg[1]; unsigned char *binary = (unsigned char *)arg[2]; size_t size = (size_t)arg[3]; return do_execve(name, len, binary, size); }
// do_execve - call exit_mmap(mm)&put_pgdir(mm) to reclaim memory space of current process // - call load_icode to setup new memory space accroding binary prog. // 执行binary对应的应用程序 int do_execve(const char *name, size_t len, unsigned char *binary, size_t size) { struct mm_struct *mm = current->mm; if (!user_mem_check(mm, (uintptr_t)name, len, 0)) { return -E_INVAL; } if (len > PROC_NAME_LEN) { len = PROC_NAME_LEN; } char local_name[PROC_NAME_LEN + 1]; memset(local_name, 0, sizeof(local_name)); memcpy(local_name, name, len); if (mm != NULL) { lcr3(boot_cr3); // 由于一般是通过fork一个新线程来执行do_execve,然后通过load_icode进行腾笼换鸟 // 令所加载的新程序占据这个被fork出来的临时线程的壳,所以需要先令当前线程的mm被引用次数-1(后续会创建新的mm给当前线程) if (mm_count_dec(mm) == 0) { // 如果当前线程的mm被引用次数为0,回收整个mm exit_mmap(mm); put_pgdir(mm); mm_destroy(mm); } current->mm = NULL; } int ret; // 开始腾笼换鸟,将二进制格式的elf文件加载到内存中,令current线程执行被加载完毕后的新程序 if ((ret = load_icode(binary, size)) != 0) { goto execve_exit; } // 设置进程名 set_proc_name(current, local_name); return 0; execve_exit: do_exit(ret); panic("already exit: %e.\n", ret); }
1. 为当前进程创建一个新的mm结构。
2. 为新的mm分配并设置一个新的页目录表。
3. 在二进制数据空间中分配内存(虚拟、物理内存空间),从elf格式的二进制程序中复制出对应的代码/数据段,并初始化BSS段(需要对ELF格式的文件有一定的了解)。
4. 为当前进程创建、分配对应的用户栈。
5. 将前面构造好的新的mm_struct结构与当前线程关联起来。
6. 为了令当前应用程序能够在加载后顺利的回到用户态执行,需要构造对应的中断栈帧(设置中断返回时的应用程序入口以及用户态权限的代码段寄存器、数据段、栈段寄存器等等)。在中断返回后欺骗CPU,令CPU以为当前线程在之前发生了一次特权级切换的中断(其实已经是一个和之前线程完全不同的新程序了)。
/* load_icode - load the content of binary program(ELF format) as the new content of current process * @binary: the memory addr of the content of binary program * @size: the size of the content of binary program */ static int load_icode(unsigned char *binary, size_t size) { if (current->mm != NULL) { panic("load_icode: current->mm must be empty.\n"); } int ret = -E_NO_MEM; struct mm_struct *mm; //(1) create a new mm for current process // 为当前进程创建一个新的mm结构 if ((mm = mm_create()) == NULL) { goto bad_mm; } //(2) create a new PDT, and mm->pgdir= kernel virtual addr of PDT // 为mm分配并设置一个新的页目录表 if (setup_pgdir(mm) != 0) { goto bad_pgdir_cleanup_mm; } //(3) copy TEXT/DATA section, build BSS parts in binary to memory space of process // 从进程的二进制数据空间中分配内存,复制出对应的代码/数据段,建立BSS部分 struct Page *page; //(3.1) get the file header of the binary program (ELF format) // 从二进制程序中得到ELF格式的文件头(二进制程序数据的最开头的一部分是elf文件头,以elfhdr指针的形式将其映射、提取出来) struct elfhdr *elf = (struct elfhdr *)binary; //(3.2) get the entry of the program section headers of the bianry program (ELF format) // 找到并映射出binary中程序段头的入口起始位置 struct proghdr *ph = (struct proghdr *)(binary + elf->e_phoff); //(3.3) This program is valid? // 根据elf的魔数,判断其是否是一个合法的ELF文件 if (elf->e_magic != ELF_MAGIC) { ret = -E_INVAL_ELF; goto bad_elf_cleanup_pgdir; } uint32_t vm_flags, perm; // 找到并映射出binary中程序段头的入口截止位置(根据elf->e_phnum进行对应的指针偏移) struct proghdr *ph_end = ph + elf->e_phnum; // 遍历每一个程序段头 for (; ph < ph_end; ph ++) { //(3.4) find every program section headers if (ph->p_type != ELF_PT_LOAD) { // 如果不是需要加载的段,直接跳过 continue ; } if (ph->p_filesz > ph->p_memsz) { // 如果文件头标明的文件段大小大于所占用的内存大小(memsz可能包括了BSS,所以这是错误的程序段头) ret = -E_INVAL_ELF; goto bad_cleanup_mmap; } if (ph->p_filesz == 0) { // 文件段大小为0,直接跳过 continue ; } //(3.5) call mm_map fun to setup the new vma ( ph->p_va, ph->p_memsz) // vm_flags => VMA段的权限 // perm => 对应物理页的权限(因为是用户程序,所以设置为PTE_U用户态) vm_flags = 0, perm = PTE_U; // 根据文件头中的配置,设置VMA段的权限 if (ph->p_flags & ELF_PF_X) vm_flags |= VM_EXEC; if (ph->p_flags & ELF_PF_W) vm_flags |= VM_WRITE; if (ph->p_flags & ELF_PF_R) vm_flags |= VM_READ; // 设置程序段所包含的物理页的权限 if (vm_flags & VM_WRITE) perm |= PTE_W; // 在mm中建立ph->p_va到ph->va+ph->p_memsz的合法虚拟地址空间段 if ((ret = mm_map(mm, ph->p_va, ph->p_memsz, vm_flags, NULL)) != 0) { goto bad_cleanup_mmap; } unsigned char *from = binary + ph->p_offset; size_t off, size; uintptr_t start = ph->p_va, end, la = ROUNDDOWN(start, PGSIZE); ret = -E_NO_MEM; //(3.6) alloc memory, and copy the contents of every program section (from, from+end) to process's memory (la, la+end) end = ph->p_va + ph->p_filesz; //(3.6.1) copy TEXT/DATA section of bianry program // 上面建立了合法的虚拟地址段,现在为这个虚拟地址段分配实际的物理内存页 while (start < end) { // 分配一个内存页,建立la对应页的虚实映射关系 if ((page = pgdir_alloc_page(mm->pgdir, la, perm)) == NULL) { goto bad_cleanup_mmap; } off = start - la, size = PGSIZE - off, la += PGSIZE; if (end < la) { size -= la - end; } // 根据elf中程序头的设置,将binary中的对应数据复制到新分配的物理页中 memcpy(page2kva(page) + off, from, size); start += size, from += size; } //(3.6.2) build BSS section of binary program // 设置当前程序段的BSS段 end = ph->p_va + ph->p_memsz; // start < la代表BSS段存在,且最后一个物理页没有被填满。剩下空间作为BSS段 if (start < la) { /* ph->p_memsz == ph->p_filesz */ if (start == end) { continue ; } off = start + PGSIZE - la, size = PGSIZE - off; if (end < la) { size -= la - end; } // 将BSS段所属的部分格式化清零 memset(page2kva(page) + off, 0, size); start += size; assert((end < la && start == end) || (end >= la && start == la)); } // start < end代表还需要为BSS段分配更多的物理空间 while (start < end) { // 为BSS段分配更多的物理页 if ((page = pgdir_alloc_page(mm->pgdir, la, perm)) == NULL) { goto bad_cleanup_mmap; } off = start - la, size = PGSIZE - off, la += PGSIZE; if (end < la) { size -= la - end; } // 将BSS段所属的部分格式化清零 memset(page2kva(page) + off, 0, size); start += size; } } //(4) build user stack memory // 建立用户栈空间 vm_flags = VM_READ | VM_WRITE | VM_STACK; // 为用户栈设置对应的合法虚拟内存空间 if ((ret = mm_map(mm, USTACKTOP - USTACKSIZE, USTACKSIZE, vm_flags, NULL)) != 0) { goto bad_cleanup_mmap; } assert(pgdir_alloc_page(mm->pgdir, USTACKTOP-PGSIZE , PTE_USER) != NULL); assert(pgdir_alloc_page(mm->pgdir, USTACKTOP-2*PGSIZE , PTE_USER) != NULL); assert(pgdir_alloc_page(mm->pgdir, USTACKTOP-3*PGSIZE , PTE_USER) != NULL); assert(pgdir_alloc_page(mm->pgdir, USTACKTOP-4*PGSIZE , PTE_USER) != NULL); //(5) set current process's mm, sr3, and set CR3 reg = physical addr of Page Directory // 当前mm被线程引用次数+1 mm_count_inc(mm); // 设置当前线程的mm current->mm = mm; // 设置当前线程的cr3 current->cr3 = PADDR(mm->pgdir); // 将指定的页表地址mm->pgdir,加载进cr3寄存器 lcr3(PADDR(mm->pgdir)); //(6) setup trapframe for user environment // 设置用户环境下的中断栈帧 struct trapframe *tf = current->tf; memset(tf, 0, sizeof(struct trapframe)); /* LAB5:EXERCISE1 YOUR CODE * should set tf_cs,tf_ds,tf_es,tf_ss,tf_esp,tf_eip,tf_eflags * NOTICE: If we set trapframe correctly, then the user level process can return to USER MODE from kernel. So * tf_cs should be USER_CS segment (see memlayout.h) * tf_ds=tf_es=tf_ss should be USER_DS segment * tf_esp should be the top addr of user stack (USTACKTOP) * tf_eip should be the entry point of this binary program (elf->e_entry) * tf_eflags should be set to enable computer to produce Interrupt */ // 为了令内核态完成加载的应用程序能够在加载流程完毕后顺利的回到用户态运行,需要对当前的中断栈帧进行对应的设置 // CS段设置为用户态段(平坦模型下只有一个唯一的用户态代码段USER_CS) tf->tf_cs = USER_CS; // DS、ES、SS段设置为用户态的段(平坦模型下只有一个唯一的用户态数据段USER_DS) tf->tf_ds = tf->tf_es = tf->tf_ss = USER_DS; // DS // 设置用户态的栈顶指针 tf->tf_esp = USTACKTOP; // 设置系统调用中断返回后执行的程序入口,令其为elf头中设置的e_entry(中断返回后会复原中断栈帧中的eip) tf->tf_eip = elf->e_entry; // 默认中断返回后,用户态执行时是开中断的 tf->tf_eflags = FL_IF; ret = 0; out: return ret; bad_cleanup_mmap: exit_mmap(mm); bad_elf_cleanup_pgdir: put_pgdir(mm); bad_pgdir_cleanup_mm: mm_destroy(mm); bad_mm: goto out; }
2.4 exit.c应用程序执行流程分析
#include <stdio.h> #include <ulib.h> int magic = -0x10384; /** * 用户态的应用程序 * */ int main(void) { int pid, code; cprintf("I am the parent. Forking the child...\n"); // 通过fork库函数执行do_fork系统调用复制一个子线程执行 if ((pid = fork()) == 0) { // 子线程fork返回后的pid为0 cprintf("I am the child.\n"); yield(); yield(); yield(); yield(); yield(); yield(); yield(); // 通过exit库函数执行do_exit系统调用,退出子线程 exit(magic); } else { // 父线程会执行到这里,fork返回的pid为子线程的pid,不等于0 cprintf("I am parent, fork a child pid %d\n",pid); } assert(pid > 0); cprintf("I am the parent, waiting now..\n"); // 父线程通过wait库函数执行do_wait系统调用,等待子线程退出并回收(waitpid返回值=0代表回收成功) assert(waitpid(pid, &code) == 0 && code == magic); // 再次回收会失败waitpid返回值不等于0 assert(waitpid(pid, &code) != 0 && wait() != 0); cprintf("waitpid %d ok.\n", pid); cprintf("exit pass.\n"); return 0; }
// init_main - the second kernel thread used to create user_main kernel threads static int init_main(void *arg) { size_t nr_free_pages_store = nr_free_pages(); size_t kernel_allocated_store = kallocated(); // fork创建一个线程执行user_main int pid = kernel_thread(user_main, NULL, 0); if (pid <= 0) { panic("create user_main failed.\n"); } // do_wait等待回收僵尸态子线程(第一个参数pid为0代表回收任意僵尸子线程) while (do_wait(0, NULL) == 0) { // 回收一个僵尸子线程后,进行调度 schedule(); } // 跳出了上述循环代表init_main的所有子线程都退出并回收完了 cprintf("all user-mode processes have quit.\n"); assert(initproc->cptr == NULL && initproc->yptr == NULL && initproc->optr == NULL); assert(nr_process == 2); assert(list_next(&proc_list) == &(initproc->list_link)); assert(list_prev(&proc_list) == &(initproc->list_link)); assert(nr_free_pages_store == nr_free_pages()); assert(kernel_allocated_store == kallocated()); cprintf("init check memory pass.\n"); return 0; }
在exit.c的main函数中,首先执行了语句"cprintf("I am the parent. Forking the child...\n");",然后便通过用户库执行了fork系统调用,fork系统调用最终的处理逻辑在内核的syscall.c中定义的sys_fork处。sys_fork中调用do_fork函数用于fork复制一个子线程。
static int sys_fork(uint32_t arg[]) { struct trapframe *tf = current->tf; uintptr_t stack = tf->tf_esp; return do_fork(0, stack, tf); }
/* do_fork - parent process for a new child process * @clone_flags: used to guide how to clone the child process * @stack: the parent's user stack pointer. if stack==0, It means to fork a kernel thread. * @tf: the trapframe info, which will be copied to child process's proc->tf */ int do_fork(uint32_t clone_flags, uintptr_t stack, struct trapframe *tf) { int ret = -E_NO_FREE_PROC; struct proc_struct *proc; if (nr_process >= MAX_PROCESS) { goto fork_out; } ret = -E_NO_MEM; // 1. call alloc_proc to allocate a proc_struct // 2. call setup_kstack to allocate a kernel stack for child process // 3. call copy_mm to dup OR share mm according clone_flag // 4. call copy_thread to setup tf & context in proc_struct // 5. insert proc_struct into hash_list && proc_list // 6. call wakeup_proc to make the new child process RUNNABLE // 7. set ret vaule using child proc's pid // 分配一个未初始化的线程控制块 if ((proc = alloc_proc()) == NULL) { goto fork_out; } // 其父进程属于current当前进程 proc->parent = current; assert(current->wait_state == 0); // 设置,分配新线程的内核栈 if (setup_kstack(proc) != 0) { // 分配失败,回滚释放之前所分配的内存 goto bad_fork_cleanup_proc; } // 由于是fork,因此fork的一瞬间父子线程的内存空间是一致的(clone_flags决定是否采用写时复制) if (copy_mm(clone_flags, proc) != 0) { // 分配失败,回滚释放之前所分配的内存 goto bad_fork_cleanup_kstack; } // 复制proc线程时,设置proc的上下文信息 copy_thread(proc, stack, tf); bool intr_flag; local_intr_save(intr_flag); { // 生成并设置新的pid proc->pid = get_pid(); // 加入全局线程控制块哈希表 hash_proc(proc); set_links(proc); } local_intr_restore(intr_flag); // 唤醒proc,令其处于就绪态PROC_RUNNABLE wakeup_proc(proc); ret = proc->pid; fork_out: return ret; bad_fork_cleanup_kstack: put_kstack(proc); bad_fork_cleanup_proc: kfree(proc); goto fork_out; }
如果父线程的fork流程执行过程中没有出错最终会执行到ret = proc->pid,do_fork系统调用再到最终用户库的fork函数便会返回子线程的pid,一个大于0的值。
子线程则由于在do_fork的copy_thread逻辑中,通过"proc->tf->tf_regs.reg_eax = 0;"设置了中断栈帧的eax的值为0,且由于其陷入内核时的中断栈帧中指令指针和父线程一样(sys_fork函数中传入的中断栈帧),在iret返回到用户态时,也会进行fork函数的调用返回。但返回时用户态中断栈帧复原时eax的值为0,导致exit.c中子线程fork函数的返回值为0。
// copy_thread - setup the trapframe on the process's kernel stack top and // - setup the kernel entry point and stack of process static void copy_thread(struct proc_struct *proc, uintptr_t esp, struct trapframe *tf) { // 令proc-tf 指向proc内核栈顶向下偏移一个struct trapframe大小的位置 proc->tf = (struct trapframe *)(proc->kstack + KSTACKSIZE) - 1; // 将参数tf中的结构体数据复制填入上述proc->tf指向的位置(正好是上面struct trapframe指针-1腾出来的那部分空间) *(proc->tf) = *tf; proc->tf->tf_regs.reg_eax = 0; proc->tf->tf_esp = esp; proc->tf->tf_eflags |= FL_IF; // 令proc上下文中的eip指向forkret,切换恢复上下文后,新线程proc便会跳转至forkret proc->context.eip = (uintptr_t)forkret; // 令proc上下文中的esp指向proc->tf,指向中断返回时的中断栈帧 proc->context.esp = (uintptr_t)(proc->tf); }
在父线程fork完成之后,fork的返回值不为0,因此会执行else块的逻辑打印(I am parent, fork a child pid %d),以及打印(I am the parent, waiting now..)。子线程则会打印(I am the child)。
在ucore lab5的参考示例代码中,idleproc线程的pid为0、initproc线程的pid为1;而执行user_main的父线程pid为2,其fork出的子线程pid为3。
static int sys_exit(uint32_t arg[]) { int error_code = (int)arg[0]; return do_exit(error_code); } // do_exit - called by sys_exit // 1. call exit_mmap & put_pgdir & mm_destroy to free the almost all memory space of process // 调用exit_mmap & put_pgdir & mm_destroy去释放退出线程占用的几乎全部的内存空间(线程栈等需要父进程来回收) // 2. set process' state as PROC_ZOMBIE, then call wakeup_proc(parent) to ask parent reclaim itself. // 设置线程的状态为僵尸态PROC_ZOMBIE,然后唤醒父进程去回收退出的进程 // 3. call scheduler to switch to other process // 调用调度器切换为其它线程 int do_exit(int error_code) { if (current == idleproc) { panic("idleproc exit.\n"); } if (current == initproc) { panic("initproc exit.\n"); } struct mm_struct *mm = current->mm; if (mm != NULL) { // 内核线程的mm是null,mm != null说明是用户线程退出了 lcr3(boot_cr3); // 由于mm是当前进程内所有线程共享的,当最后一个线程退出时(mm->mm_count == 0),需要彻底释放整个mm管理的内存空间 if (mm_count_dec(mm) == 0) { // 解除mm对应一级页表、二级页表的所有虚实映射关系 exit_mmap(mm); // 释放一级页表(页目录表)所占用的内存空间 put_pgdir(mm); // 将mm中的vma链表清空(释放所占用内存),并回收mm所占物理内存 mm_destroy(mm); } current->mm = NULL; } // 设置当前线程状态为僵尸态,等待父线程回收 current->state = PROC_ZOMBIE; // 设置退出线程的原因(exit_code) current->exit_code = error_code; bool intr_flag; struct proc_struct *proc; local_intr_save(intr_flag); { proc = current->parent; // 如果父线程等待状态为WT_CHILD if (proc->wait_state == WT_CHILD) { // 唤醒父线程,令其进入就绪态,准备回收该线程(调用了do_wait等待) wakeup_proc(proc); } // 遍历当前退出线程的子线程(通过子线程链表) while (current->cptr != NULL) { // proc为子线程链表头 proc = current->cptr; // 遍历子线程链表的每一个子线程 current->cptr = proc->optr; proc->yptr = NULL; if ((proc->optr = initproc->cptr) != NULL) { initproc->cptr->yptr = proc; } // 将退出线程的子线程托管给initproc,令其父线程为initproc proc->parent = initproc; initproc->cptr = proc; if (proc->state == PROC_ZOMBIE) { // 如果当前遍历的线程proc为僵尸态 if (initproc->wait_state == WT_CHILD) { // initproc等待状态为WT_CHILD(调用了do_wait等待) // 唤醒initproc,令其准备回收僵尸态的子线程 wakeup_proc(initproc); } } } } local_intr_restore(intr_flag); // 当前线程退出后,进行其它就绪态线程的调度 schedule(); panic("do_exit will not return!! %d.\n", current->pid); }
1. 如果当前线程不存在任何可以回收的子线程,sys_wait会直接返回一个错误码。
2. 如果调用sys_wait时当前线程能够找到一个符合要求的,且可以立即回收的僵尸态子线程,那么就会将其回收(一次sys_wait只会回收一个子线程)。
3. 如果调用sys_wait时当前线程存在可以回收的子线程,但是却不是僵尸态。那么当前线程将进入阻塞态,等待可以回收的子线程退出(前面介绍的sys_exit中就有子线程退出时对应的父线程唤醒机制)。
static int sys_wait(uint32_t arg[]) { int pid = (int)arg[0]; int *store = (int *)arg[1]; return do_wait(pid, store); } // do_wait - wait one OR any children with PROC_ZOMBIE state, and free memory space of kernel stack // - proc struct of this child. // 令当前线程等待一个或多个子线程进入僵尸态,并且回收其内核栈和线程控制块 // NOTE: only after do_wait function, all resources of the child proces are free. // 注意:只有在do_wait函数执行完成之后,子线程的所有资源才被完全释放 int do_wait(int pid, int *code_store) { struct mm_struct *mm = current->mm; if (code_store != NULL) { if (!user_mem_check(mm, (uintptr_t)code_store, sizeof(int), 1)) { return -E_INVAL; } } struct proc_struct *proc; bool intr_flag, haskid; repeat: haskid = 0; if (pid != 0) { // 参数指定了pid(pid不为0),代表回收pid对应的僵尸态线程 proc = find_proc(pid); // 对应的线程必须是当前线程的子线程 if (proc != NULL && proc->parent == current) { haskid = 1; if (proc->state == PROC_ZOMBIE) { // pid对应的线程确实是僵尸态,跳转found进行回收 goto found; } } } else { // 参数未指定pid(pid为0),代表回收当前线程的任意一个僵尸态子线程 proc = current->cptr; for (; proc != NULL; proc = proc->optr) { // 遍历当前线程的所有子线程进行查找 haskid = 1; if (proc->state == PROC_ZOMBIE) { // 找到了一个僵尸态子线程,跳转found进行回收 goto found; } } } if (haskid) { // 当前线程需要回收僵尸态子线程,但是没有可以回收的僵尸态子线程(如果找到去执行found段会直接返回,不会执行到这里) // 令当前线程进入休眠态,让出CPU current->state = PROC_SLEEPING; // 令其等待状态置为等待子进程退出 current->wait_state = WT_CHILD; // 进行一次线程调度(当有子线程退出进入僵尸态时,父线程会被唤醒) schedule(); if (current->flags & PF_EXITING) { // 如果当前线程被杀了(do_kill),将自己退出(被唤醒之后发现自己已经被判了死刑,自我了断) do_exit(-E_KILLED); } // schedule调度完毕后当前线程被再次唤醒,跳转到repeat循环起始位置,继续尝试回收一个僵尸态子线程 goto repeat; } return -E_BAD_PROC; found: if (proc == idleproc || proc == initproc) { // idleproc和initproc是不应该被回收的 panic("wait idleproc or initproc.\n"); } if (code_store != NULL) { // 将子线程退出的原因保存在*code_store中返回 *code_store = proc->exit_code; } local_intr_save(intr_flag); { // 暂时关中断,避免中断导致并发问题 // 从线程控制块hash表中移除被回收的子线程 unhash_proc(proc); // 从线程控制块链表中移除被回收的子线程 remove_links(proc); } local_intr_restore(intr_flag); // 释放被回收的子线程的内核栈 put_kstack(proc); // 释放被回收的子线程的线程控制块结构 kfree(proc); return 0; }
在exit.c中fork完毕的子线程通过sys_exit成功退出后,waitpid的父线程也随之被唤醒进行对应子线程的回收工作。依照顺序执行打印语句"waitpid %d ok."和"exit pass.\n"(由于子线程在exit之后就不会得到CPU了,因此不会打印这些)。
.text .globl kernel_thread_entry kernel_thread_entry: # void kernel_thread(void) pushl %edx # push arg call *%ebx # call fn pushl %eax # save the return value of fn(arg) call do_exit # call do_exit to terminate current thread
在执行exit.c的父线程也退出后,最初加载exit.c应用程序的initproc作为它的父线程被唤醒并通过do_wait进行了最终的回收工作(init_main函数)。最终打印出了"all user-mode processes have quit."。
3. 总结
1. 了解了系统调用的实现原理。意识到通过中断实现的系统调用效率是很低的,这也是为什么在应用程序的开发中要尽量避免使用系统调用而陷入内核的主要原因(比如陷入内核阻塞线程的操作系统级的悲观锁以及用户态轮询重试的乐观锁)。
2. 了解了线程是如何去加载并执行一个应用程序的。对动态的进程/线程与静态的程序之间的关系有了更深的理解。
3. 了解了诸如fork、exit、wait等系统调用的大致工作原理。
这篇博客的完整代码注释在我的github上:https://github.com/1399852153/ucore_os_lab (fork自官方仓库)中的lab5_answer。