所有的系統(tǒng)調(diào)用,基于都可以在它的名字前加上“sys_”前綴,這就是它在內(nèi)核中對應(yīng)的函數(shù)。比如系統(tǒng)調(diào)用open、read、write、poll,與之對應(yīng)的內(nèi)核函數(shù)為:sys_open、sys_read、sys_write、sys_poll。
一、內(nèi)核框架:
對于系統(tǒng)調(diào)用poll或select,它們對應(yīng)的內(nèi)核函數(shù)都是sys_poll。分析sys_poll,即可理解poll機(jī)制。
1.
sys_poll函數(shù)位于fs/select.c文件中,代碼如下:
asmlinkage long sys_poll(struct pollfd __user *ufds, unsigned int nfds,
long timeout_msecs)
{
s64 timeout_jiffies;
if (timeout_msecs > 0) {
#if HZ > 1000
/* We can only overflow if HZ > 1000 */
if (timeout_msecs / 1000 > (s64)0x7fffffffffffffffULL / (s64)HZ)
timeout_jiffies = -1;
else
#endif
timeout_jiffies = msecs_to_jiffies(timeout_msecs);
} else {
/* Infinite ( 0) or no (0) timeout */
timeout_jiffies = timeout_msecs;
}
return do_sys_poll(ufds, nfds, timeout_jiffies);
}
它對超時參數(shù)稍作處理后,直接調(diào)用do_sys_poll。
2.
do_sys_poll函數(shù)也位于位于fs/select.c文件中,我們忽略其他代碼:
int do_sys_poll(struct pollfd __user *ufds, unsigned int nfds, s64 *timeout)
{
……
poll_initwait(table);
……
fdcount = do_poll(nfds, head, table, timeout);
……
}
poll_initwait函數(shù)非常簡單,它初始化一個poll_wqueues變量table:
poll_initwait > init_poll_funcptr(pwq->pt, __pollwait); > pt->qproc = qproc;
即table->pt->qproc = __pollwait,__pollwait將在驅(qū)動的poll函數(shù)里用到。
3.
do_sys_poll函數(shù)位于fs/select.c文件中,代碼如下:
static int do_poll(unsigned int nfds,
struct poll_list *list,
struct poll_wqueues *wait, s64 *timeout)
{
01 ……
02
for (;;) {
03 ……
04
if (do_pollfd(pfd, pt)) {
05
count++;
06
pt = NULL;
07
}
08 ……
09
if (count || !*timeout || signal_pending(current))
10
break;
11
count = wait->error;
12
if (count)
13
break;
14
15
if (*timeout 0) {
16
/* Wait indefinitely */
17
__timeout = MAX_SCHEDULE_TIMEOUT;
18
} else if (unlikely(*timeout >= (s64)MAX_SCHEDULE_TIMEOUT-1)) {
19
/*
20
* Wait for longer than MAX_SCHEDULE_TIMEOUT. Do it in
21
* a loop
22
*/
23
__timeout = MAX_SCHEDULE_TIMEOUT - 1;
24
*timeout -= __timeout;
25
} else {
26
__timeout = *timeout;
27
*timeout = 0;
28
}
29
30
__timeout = schedule_timeout(__timeout);
31
if (*timeout >= 0)
32
*timeout += __timeout;
33
}
34
__set_current_state(TASK_RUNNING);
35
return count;
36 }
分析其中的代碼,可以發(fā)現(xiàn),它的作用如下:
①從02行可以知道,這是個循環(huán),它退出的條件為:
a. 09行的3個條件之一(count非0,超時、有信號等待處理)
count順0表示04行的do_pollfd至少有一個成功。
b. 11、12行:發(fā)生錯誤
②重點在do_pollfd函數(shù),后面再分析
③第30行,讓本進(jìn)程休眠一段時間,注意:應(yīng)用程序執(zhí)行poll調(diào)用后,如果①②的條件不滿足,進(jìn)程就會進(jìn)入休眠。那么,誰喚醒呢?除了休眠到指定時間被系統(tǒng)喚醒外,還可以被驅(qū)動程序喚醒──記住這點,這就是為什么驅(qū)動的poll里要調(diào)用poll_wait的原因,后面分析。
4.
do_pollfd函數(shù)位于fs/select.c文件中,代碼如下:
static inline unsigned int do_pollfd(struct pollfd *pollfd, poll_table *pwait)
{
……
if (file->f_op file->f_op->poll)
mask = file->f_op->poll(file, pwait);
……
}
可見,它就是調(diào)用我們的驅(qū)動程序里注冊的poll函數(shù)。
二、驅(qū)動程序:
驅(qū)動程序里與poll相關(guān)的地方有兩處:一是構(gòu)造file_operation結(jié)構(gòu)時,要定義自己的poll函數(shù)。二是通過poll_wait來調(diào)用上面說到的__pollwait函數(shù),pollwait的代碼如下:
static inline void poll_wait(struct file * filp, wait_queue_head_t * wait_address, poll_table *p)
{
if (p wait_address)
p->qproc(filp, wait_address, p);
}
p->qproc就是__pollwait函數(shù),從它的代碼可知,它只是把當(dāng)前進(jìn)程掛入我們驅(qū)動程序里定義的一個隊列里而已。它的代碼如下:
static void __pollwait(struct file *filp, wait_queue_head_t *wait_address,
poll_table *p)
{
struct poll_table_entry *entry = poll_get_entry(p);
if (!entry)
return;
get_file(filp);
entry->filp = filp;
entry->wait_address = wait_address;
init_waitqueue_entry(entry->wait, current);
add_wait_queue(wait_address, entry->wait);
}
執(zhí)行到驅(qū)動程序的poll_wait函數(shù)時,進(jìn)程并沒有休眠,我們的驅(qū)動程序里實現(xiàn)的poll函數(shù)是不會引起休眠的。讓進(jìn)程進(jìn)入休眠,是前面分析的do_sys_poll函數(shù)的30行“__timeout = schedule_timeout(__timeout)”。
poll_wait只是把本進(jìn)程掛入某個隊列,應(yīng)用程序調(diào)用poll > sys_poll > do_sys_poll > poll_initwait,do_poll > do_pollfd > 我們自己寫的poll函數(shù)后,再調(diào)用schedule_timeout進(jìn)入休眠。如果我們的驅(qū)動程序發(fā)現(xiàn)情況就緒,可以把這個隊列上掛著的進(jìn)程喚醒??梢姡琾oll_wait的作用,只是為了讓驅(qū)動程序能找到要喚醒的進(jìn)程。即使不用poll_wait,我們的程序也有機(jī)會被喚醒:chedule_timeout(__timeout),只是休眠_(dá)_time_out這段時間。
現(xiàn)在來總結(jié)一下poll機(jī)制:
1. poll > sys_poll > do_sys_poll > poll_initwait,poll_initwait函數(shù)注冊一下回調(diào)函數(shù)__pollwait,它就是我們的驅(qū)動程序執(zhí)行poll_wait時,真正被調(diào)用的函數(shù)。
2. 接下來執(zhí)行file->f_op->poll,即我們驅(qū)動程序里自己實現(xiàn)的poll函數(shù)
它會調(diào)用poll_wait把自己掛入某個隊列,這個隊列也是我們的驅(qū)動自己定義的;
它還判斷一下設(shè)備是否就緒。
3. 如果設(shè)備未就緒,do_sys_poll里會讓進(jìn)程休眠一定時間
4. 進(jìn)程被喚醒的條件有2:一是上面說的“一定時間”到了,二是被驅(qū)動程序喚醒。驅(qū)動程序發(fā)現(xiàn)條件就緒時,就把“某個隊列”上掛著的進(jìn)程喚醒,這個隊列,就是前面通過poll_wait把本進(jìn)程掛過去的隊列。
5. 如果驅(qū)動程序沒有去喚醒進(jìn)程,那么chedule_timeout(__timeou)超時后,會重復(fù)2、3動作,直到應(yīng)用程序的poll調(diào)用傳入的時間到達(dá)。