BinaryVision

Linux Kernel Module, באגים ותיקונם

מאת בתאריך 25/06/09, תחת כללי

בהתעסקותי עם הOpenMoko שלי, גיליתי באג ממש מעצבן בKernel של לינוקס.
או יותר נכון באחד מהמודולים שבאים איתו.
הבאג הוא Null Dereference והנה הסיפור שלו.

מתי זה קורה?

יש לי מחשב Windows XP SP3 בבית, והוא מעודכן עם כל הפאטצ'ים של מיקרוסופט.
באחד מן הימים אני מחבר את המכשיר (OpenMoko) עם כבל USB למחשב, ואני רואה שבWindows לא קורה כלום.
אבל המערכת הפעלה בפלאפון נתקעה, והוא מהבהב את המנורה שמסמנת Kernel Panic.

מה לא ניסיתי?

מיותר לציין שניסיתי לחפש על זה מידע באינטרנט, אבל כיוון שזה בעיה חדשה, שבאה בעקבות בעיה שהWindows חוטף Blue Screen במקרה דומה, אז כל התוצאות חיפוש זה המקרה ההוא, ואף מילה על Kernel Panic.
אחרי דיונים ממושכים עם אנשים בFreenode שעונים פעם בשעה בערך, וגם אז קשה להביא אותם למצב שהם עוזרים איכשהו,
הגעתי למסקנה שצריך את ההודעה של הKernel Panic כדי להבין מה הולך שם, וכדי שאנשים יוכלו לעזור לי יותר טוב.
רק מה, המכשיר לא בדיוק מאפשר לך להתחבר אליו אחרי הPanic ולשאול אותו מה קרה, הדבר היחיד שאפשר לעשות זה לעשות Restart למכשיר ולאבד את ההודעה.
מסתבר שמישהו כתב Patch לקרנל של לינוקס שמאפשר לשמור את ההודעות מערכת בRAM ואז בעליית המערכת פעם הבאה אפשר לבדוק את ההודעות שהיו.

קימפול מחדש של הקרנל עם הPatch

הPatch הוא של Lindi, וקוראים לו ramconsole.
אז דבר ראשון שהייתי צריך זה להשיג את המקור של הKernel בגרסה המתאימה, ואת קובץ ההגדרות שיתאים למכשיר.
את המקור ממש קל להשיג, את הקובץ הגדרות השגתי מהRepository של SHR (הפצה שמותקנת אצלי על הMoko)
דבר שני צריך לשים את הPatch על הקוד מקור, ולוודא שכל החלקים שלו נרשמו בצורה תקינה.
ודבר שלישי, צריך להשיג קומפילר שיקמפל לי למעבד ARM ולא X86, זה הבאתי מהOpenMoko ויקיפדיה שמכיל דף והורדה של הCrosstools שצריך כדי לקמפל דברים למכשיר.
אחרי כל זה, יש לי קרנל, ויש לי מודולים שבאים איתו, ואני מעביר אותם למכשיר, ומתפלל…
המכשיר עולה, הקרנל החדש עובד, נשרא לקמפל את הכלי ramconsole-dump(שגם הוא נכתב ע"י lindi) כדי לראות את ההודעות,
להעביר אותו למכשיר, לגרום לKernel Panic, ולראות את הפלט.

מסתבר שזה לא הכל

כדי לאתחל מחדש את המכשיר אחרי הKernel Panic, אני צריך להוציא סוללה ולהכניס חזרה.
חבל מאד שהפעולה הזאת מוחקת את הRAM שצריך זרם כדי לשמור על המידע שלו.
אחרי שיחה קצרה עם lindi מסתבר שאני צריך לאתחל את הקרנל עם פרמטרים נוספים:

panic=10 mem=127M

הראשון כדי שאחרי 10 שניות מהPanic הוא יעשה אתחול בעצמו, והשני כדי שהוא לא ישתמש בכל הזיכרון וידרוס את הRamconsole כשיעלה שוב.
אז כדי להפעיל את הKernel עם פרמטרים אני צריך להחליף את הBootloader שעל המכשיר, כי כרגע הוא Qi, והוא לא מאפשר עריכת פרמטרים.
אז אני מחליף את הBootloader בu-boot, ונכנס לקונסול שלו (לא פשוט, אבל אני לא אפרט) כדי לערוך את הפרמטרים.
אחרי כל הסיפור, עולה הקרנל, אני מקפיא אותו, אחרי 10 שניות הוא עושה לעצמו Reboot, ואז אני מפעיל את ramconsole-dump לתוך קובץ.
וזהו! יש לי את הdump, נשאר רק למצוא ולתקן את הבעיה. הנה השגיאה מי שרוצה לראות:

<6>[   44.390000] g_ether gadget: full speed config #2: RNDIS
<1>[   44.755000] Unable to handle kernel NULL pointer dereference at virtual address 00000000
<1>[   44.755000] pgd = c0004000
<1>[   44.755000] [00000000] *pgd=00000000
<4>[   44.755000] Internal error: Oops: 17 [#1] PREEMPT
<4>[   44.755000] Modules linked in: sco bnep snd_pcm_oss snd_mixer_oss ar6000 snd_soc_neo1973_gta02_wm8753 snd_soc_s3c24xx_i2s
   snd_soc_s3c24xx s3cmci btusb rfcomm ppp_generic slhc ohci_hcd ipv6 hidp l2cap bluetooth g_ether snd_soc_wm8753 snd_soc_core
   snd_pcm snd_timer snd_page_alloc snd
<4>[   44.755000] CPU: 0    Not tainted  (2.6.29-GTA02_fate-mokodev #2)
<4>[   44.755000] PC is at strlen+0x18/0x2c
<4>[   44.755000] LR is at gen_ndis_query_resp+0x574/0xc38 [g_ether]
<4>[   44.755000] pc : []    lr : []    psr: 60000093
<4>[   44.755000] sp : c0391cf8  ip : c0391d08  fp : c0391d04
<4>[   44.755000] r10: c655b3e0  r9 : 000001c0  r8 : c655b3f4
<4>[   44.755000] r7 : 00000000  r6 : c655b40c  r5 : 00000000  r4 : 00000000
<4>[   44.755000] r3 : bf0672b8  r2 : 00000000  r1 : 00000000  r0 : 00000000
<4>[   44.755000] Flags: nZCv  IRQs off  FIQs on  Mode SVC_32  ISA ARM  Segment kernel
<4>[   44.755000] Control: c000717f  Table: 371ac000  DAC: 00000017
<4>[   44.755000] Process swapper (pid: 0, stack limit = 0xc0390268)
<4>[   44.755000] Stack: (0xc0391cf8 to 0xc0392000)
<4>[   44.755000] 1ce0:                                                       c0391d2c c0391d08 
<4>[   44.755000] 1d00: bf05f708 c01623e8 c655b3f4 c7b77000 bf0672b8 c64e3aa0 00000000 00000004 
<4>[   44.755000] 1d20: c0391d54 c0391d30 bf05fe48 bf05f1a4 c655b3e0 c09203e4 c0391d64 00000000 
<4>[   44.755000] 1d40: c7b77000 0000004c c0391dec c0391d58 bf06002c bf05fddc c0391d84 c0391d68 
<4>[   44.755000] 1d60: c0070cbc c0070200 c784d000 00000006 c674ca40 c03b5b14 c64e3aa8 c0391dc4 
<4>[   44.755000] 1d80: c0391d98 c01e9d68 c01e808c c0367c68 c02d37b8 c03b5b14 00000000 c03934c8 
<4>[   44.755000] 1da0: 00000000 00000000 00000000 0000000a c0391e04 c0391dc0 c006ed3c c006d3cc 
<4>[   44.755000] 1dc0: c0391de4 c64e3aa8 c7b0be00 00000000 c64e3aa0 00000000 000001c0 00000004 
<4>[   44.755000] 1de0: c0391e14 c0391df0 bf06075c bf05fea4 00000000 30025864 c0391e4c c64e3aa0 
<4>[   44.755000] 1e00: c03b5b14 00000000 c0391e34 c0391e18 c01e7f2c bf060740 c08be5d4 00000001 
<4>[   44.755000] 1e20: c08be5d4 00000000 c0391e74 c0391e38 c01e8dc0 c01e7ee0 00000001 00000000 
<4>[   44.755000] 1e40: c03b5b14 c7b77000 c0390000 00000001 c03b5af0 00000000 c03b5b14 00000001 
<4>[   44.755000] 1e60: 00000000 c64e3aa0 c0391eac c0391e78 c01e92f8 c01e8bd0 c02b3b14 c0070bb8 
<4>[   44.755000] 1e80: 00000001 c03b5af0 00000000 00000001 00000000 00000000 00000000 c08be5d4 
<4>[   44.755000] 1ea0: c0391ef4 c0391eb0 c01e977c c01e9194 00000000 00000001 c007026c 00000001 
<4>[   44.755000] 1ec0: 00000000 40000093 00000000 c79bfa40 00000000 00000000 00000029 00000001 
<4>[   44.755000] 1ee0: c0390000 30025864 c0391f14 c0391ef8 c007c3e4 c01e95ac c03a0360 00000029 
<4>[   44.755000] 1f00: c79bfa40 c03a0394 c0391f34 c0391f18 c007df34 c007c3c8 00000029 00000000 
<4>[   44.755000] 1f20: 02000000 00000002 c0391f4c c0391f38 c002a054 c007de20 ffffffff f4000000 
<4>[   44.755000] 1f40: c0391fa4 c0391f50 c002a958 c002a010 00000001 00000032 f4100000 60000013 
<4>[   44.755000] 1f60: c002c554 c0390000 c00282a8 c0395008 30025900 41129200 30025864 c0391fa4 
<4>[   44.755000] 1f80: c0391f88 c0391f98 c002be20 c002c5a0 60000013 ffffffff c0391fbc c0391fa8 
<4>[   44.755000] 1fa0: c002c344 c002c564 c08af150 c03bf744 c0391fcc c0391fc0 c02aeff0 c002c318 
<4>[   44.755000] 1fc0: c0391ff4 c0391fd0 c0008ae0 c02aef98 c000858c 00000000 00000000 c0027ea4 
<4>[   44.755000] 1fe0: c0007175 c03bfbec 00000000 c0391ff8 30008034 c00088e8 00000000 00000000 
<4>[   44.755000] Backtrace: 
<4>[   44.755000] [] (strlen+0x0/0x2c) from [] (gen_ndis_query_resp+0x574/0xc38 [g_ether])
<4>[   44.755000] [] (gen_ndis_query_resp+0x0/0xc38 [g_ether]) from [] (rndis_query_response+0x7c/0xc8 [g_ether])
<4>[   44.755000] [] (rndis_query_response+0x0/0xc8 [g_ether]) from [] (rndis_msg_parser+0x198/0x3c8 [g_ether])
<4>[   44.755000]  r6:0000004c r5:c7b77000 r4:00000000
<4>[   44.755000] [] (rndis_msg_parser+0x0/0x3c8 [g_ether]) from [] (rndis_command_complete+0x2c/0x70 [g_ether])
<4>[   44.755000] [] (rndis_command_complete+0x0/0x70 [g_ether]) from [] (s3c2410_udc_done+0x5c/0x70)
<4>[   44.755000]  r6:00000000 r5:c03b5b14 r4:c64e3aa0
<4>[   44.755000] [] (s3c2410_udc_done+0x0/0x70) from [] (s3c2410_udc_read_fifo+0x200/0x274)
<4>[   44.755000]  r6:00000000 r5:c08be5d4 r4:00000001
<4>[   44.755000] [] (s3c2410_udc_read_fifo+0x0/0x274) from [] (s3c2410_udc_handle_ep0+0x174/0x1c4)
<4>[   44.755000] [] (s3c2410_udc_handle_ep0+0x0/0x1c4) from [] (s3c2410_udc_irq+0x1e0/0x298)
<4>[   44.755000] [] (s3c2410_udc_irq+0x0/0x298) from [] (handle_IRQ_event+0x2c/0x68)
<4>[   44.755000] [] (handle_IRQ_event+0x0/0x68) from [] (handle_edge_irq+0x124/0x174)
<4>[   44.755000]  r7:c03a0394 r6:c79bfa40 r5:00000029 r4:c03a0360
<4>[   44.755000] [] (handle_edge_irq+0x0/0x174) from [] (__exception_text_start+0x54/0x6c)
<4>[   44.755000]  r7:00000002 r6:02000000 r5:00000000 r4:00000029
<4>[   44.755000] [] (__exception_text_start+0x0/0x6c) from [] (__irq_svc+0x38/0xc8)
<4>[   44.755000] Exception stack(0xc0391f50 to 0xc0391f98)
<4>[   44.755000] 1f40:                                     00000001 00000032 f4100000 60000013 
<4>[   44.755000] 1f60: c002c554 c0390000 c00282a8 c0395008 30025900 41129200 30025864 c0391fa4 
<4>[   44.755000] 1f80: c0391f88 c0391f98 c002be20 c002c5a0 60000013 ffffffff                   
<4>[   44.755000]  r5:f4000000 r4:ffffffff
<4>[   44.755000] [] (default_idle+0x0/0x54) from [] (cpu_idle+0x3c/0x68)
<4>[   44.755000] [] (cpu_idle+0x0/0x68) from [] (rest_init+0x68/0x7c)
<4>[   44.755000]  r5:c03bf744 r4:c08af150
<4>[   44.755000] [] (rest_init+0x0/0x7c) from [] (start_kernel+0x208/0x268)
<4>[   44.755000] [] (start_kernel+0x0/0x268) from [<30008034>] (0x30008034)
<4>[   44.755000]  r5:c03bfbec r4:c0007175
<4>[   44.755000] Code: e24cb004 e1a02000 ea000000 e2800001 (e5d03000) 
<0>[   44.760000] Kernel panic - not syncing: Fatal exception in interrupt
<0>[   44.765000] Rebooting in 10 seconds..arch_reset: attempting watchdog reset

תיקון המודול בקרנל

הCrash Dump ממש מדוייק, עד כדי הפונקצייה האחרונה שהורצה, ומאיזה קובץ.
תודות לעזרה של TAsn ושל עוד בחור מFreenode, הם הצליחו למצוא את הבעיה בקוד של rndis.c.
ומה שמסתבר שמי שכתב את זה הניח שאחד הפרמטרים לא יכול להיות Null, ועשה עליו strlen().
מה שגרם לstrlen לעשות Null Dereference ולמות.
התיקון היה להוסיף כמה שורות שממציאות שם לDevice, ומחיזרות את השם המומצא.

התיקון

--- a/drivers/usb/gadget/rndis.c
+++ b/drivers/usb/gadget/rndis.c
@@ -294,9 +294,14 @@ gen_ndis_query_resp (int configNr, u32 OID, u8 *buf, unsigned buf_len,
 	/* mandatory */
 	case OID_GEN_VENDOR_DESCRIPTION:
 		pr_debug("%s: OID_GEN_VENDOR_DESCRIPTION\n", __func__);
+#if 0
 		length = strlen (rndis_per_dev_params [configNr].vendorDescr);
 		memcpy (outbuf,
 			rndis_per_dev_params [configNr].vendorDescr, length);
+#endif
+		const char vendorDescr[]="dummy";
+		length = strlen (vendorDescr);
+		memcpy (outbuf,	vendorDescr, length);
 		retval = 0;
 		break;

לסיכום

לאחר תיקון הבאג, הקרנל עובד, מתחבר לווינדווס מזדהה כמו שצריך כRNDIS Device,
וכולם שמחים ומאושרים, או יותר נכון אני שמח ומאושר שאני יכול לחזור לעבוד על תוכנות במכשיר 🙂

אתם מוזמנים להגיב ולשאול דברים אם תרצו….

:, , , ,
6 תגובות:
  1. cP

    מגניב ביותר, כיף לראות בחור שלא מוותר, יש תקלה- חופרים עד שמוצאים 🙂 מי כתב את התיקון?

    אגב, יש את הפתרון הקלאסי לבעיה הזאת, (לא הספציפית של המוקו, אלה של הNull Dereference..
    כנס לפה:
    http://www.splint.org/manual/html/sec2.html

    למרות שזה לא בדיוק אותו הדבר, הרעיון זהה, וגם בפתרון, פחות או יותר אותו רעיון.

    בכל אופן, מגניב! בהצלחה עם המשך הפיתוח 🙂

  2. spdr

    good job fate 🙂

  3. TAsn

    דבר ראשון, יש לך באג בקוד, זה אמור להיות:
    const char[] vendorDescr="dummy";
    שכחת את הסוגריים המרובעים (ד"א הבחור מפרינוד גם שכח אותם שהוא שלח את הפאטץ לקרנל 🙂 )
    בכל מקרה, אני הצעתי פתרון יותר אלגנטי (או לפחות לשים את זה במיקום הנכון ולא חורני כמו שזה עכשיו), אבל גם הפתרון שלי היה מספיק מכוער בשביל לא לריב עליו 🙂
    זה בעיה, צריך פשוט להוסיף למקום של ה kernel config כל מיני אפשרויות של בחירת ה"חברה המייצרת", דבר שאני מניח שבד"כ hardcodded אצל חברות חיצוניות (כלומר התקנים שמשתמשים בלינוקס) אבל אולי כדאי לעשות את זה configurable…

    ד"א CP, גם בפרינוד אמרו לו, "איזה יופי, סוף סוף משתמש ווינדוס שלא רק מתבכיין אלא גם פותר את הבעיות שלו ונותן מידע רלוונטי".

    אבל העיקר שהכל עובד, ועובד טוב 🙂 וכן, אני ממש הייתי מרוצה מה crash dump הנפלא והמפורט הזה, למען האמת, לא ציפיתי…

    בכל מקרה, המשך פיתוח מהנה על המוקו, אתה יודע שאני אדבוקאט 🙂

  4. Fate

    צודק תוקן 🙂

  5. אלכס

    יש מישהו שמוכר FreeRunner בארץ ?

  6. Fate

    יש את דורון אופק, אבל המחיר שלו לא כלכך סביר לפי דעתי.
    אני הזמנתי את שלי מקנדה, מkoolu.com.
    1600 ש"ח המכשיר, +500 ש"ח מכס לקחו לי.
    אבל הכל בלי להציק לי, וזה עדיין פחות ממה שדורון מוכר למיטב זיכרוני.

    זה סיפור של מישהו שקנה מקנדה, הסיפור שלי דומה.
    http://www.whatsup.org.il/index.php?name=PNphpBB2&file=viewtopic&t=48564

    הפוסט בבלוג שלו שמדבר על מכירה בארץ: http://ofek.biz/blog/archives/710
    שלח לו מייל, אולי נשאר לו כמה למכירה:
    doron AT ofek.biz

השאר תגובה

מחפש משהו?

תשתמש בטופס למטה כדי לחפש באתר: