free empty blocks at the end of GC
[ghc-hetmet.git] / rts / sm / GC.c
1 /* -----------------------------------------------------------------------------
2  *
3  * (c) The GHC Team 1998-2006
4  *
5  * Generational garbage collector
6  *
7  * Documentation on the architecture of the Garbage Collector can be
8  * found in the online commentary:
9  * 
10  *   http://hackage.haskell.org/trac/ghc/wiki/Commentary/Rts/Storage/GC
11  *
12  * ---------------------------------------------------------------------------*/
13
14 // #include "PosixSource.h"
15 #include "Rts.h"
16 #include "RtsFlags.h"
17 #include "RtsUtils.h"
18 #include "Apply.h"
19 #include "OSThreads.h"
20 #include "LdvProfile.h"
21 #include "Updates.h"
22 #include "Stats.h"
23 #include "Schedule.h"
24 #include "Sanity.h"
25 #include "BlockAlloc.h"
26 #include "MBlock.h"
27 #include "ProfHeap.h"
28 #include "SchedAPI.h"
29 #include "Weak.h"
30 #include "Prelude.h"
31 #include "ParTicky.h"           // ToDo: move into Rts.h
32 #include "RtsSignals.h"
33 #include "STM.h"
34 #include "HsFFI.h"
35 #include "Linker.h"
36 #if defined(RTS_GTK_FRONTPANEL)
37 #include "FrontPanel.h"
38 #endif
39 #include "Trace.h"
40 #include "RetainerProfile.h"
41 #include "RaiseAsync.h"
42 #include "Sparks.h"
43 #include "Papi.h"
44
45 #include "GC.h"
46 #include "Compact.h"
47 #include "Evac.h"
48 #include "Scav.h"
49 #include "GCUtils.h"
50 #include "MarkWeak.h"
51 #include "Sparks.h"
52
53 #include <string.h> // for memset()
54 #include <unistd.h>
55
56 /* -----------------------------------------------------------------------------
57    Global variables
58    -------------------------------------------------------------------------- */
59
60 /* STATIC OBJECT LIST.
61  *
62  * During GC:
63  * We maintain a linked list of static objects that are still live.
64  * The requirements for this list are:
65  *
66  *  - we need to scan the list while adding to it, in order to
67  *    scavenge all the static objects (in the same way that
68  *    breadth-first scavenging works for dynamic objects).
69  *
70  *  - we need to be able to tell whether an object is already on
71  *    the list, to break loops.
72  *
73  * Each static object has a "static link field", which we use for
74  * linking objects on to the list.  We use a stack-type list, consing
75  * objects on the front as they are added (this means that the
76  * scavenge phase is depth-first, not breadth-first, but that
77  * shouldn't matter).  
78  *
79  * A separate list is kept for objects that have been scavenged
80  * already - this is so that we can zero all the marks afterwards.
81  *
82  * An object is on the list if its static link field is non-zero; this
83  * means that we have to mark the end of the list with '1', not NULL.  
84  *
85  * Extra notes for generational GC:
86  *
87  * Each generation has a static object list associated with it.  When
88  * collecting generations up to N, we treat the static object lists
89  * from generations > N as roots.
90  *
91  * We build up a static object list while collecting generations 0..N,
92  * which is then appended to the static object list of generation N+1.
93  */
94
95 /* N is the oldest generation being collected, where the generations
96  * are numbered starting at 0.  A major GC (indicated by the major_gc
97  * flag) is when we're collecting all generations.  We only attempt to
98  * deal with static objects and GC CAFs when doing a major GC.
99  */
100 nat N;
101 rtsBool major_gc;
102
103 /* Data used for allocation area sizing.
104  */
105 static lnat g0s0_pcnt_kept = 30; // percentage of g0s0 live at last minor GC 
106
107 /* Mut-list stats */
108 #ifdef DEBUG
109 nat mutlist_MUTVARS,
110     mutlist_MUTARRS,
111     mutlist_MVARS,
112     mutlist_OTHERS;
113 #endif
114
115 /* Thread-local data for each GC thread
116  */
117 gc_thread **gc_threads = NULL;
118 // gc_thread *gct = NULL;  // this thread's gct TODO: make thread-local
119
120 // Number of threads running in *this* GC.  Affects how many
121 // step->todos[] lists we have to look in to find work.
122 nat n_gc_threads;
123
124 // For stats:
125 long copied;        // *words* copied & scavenged during this GC
126
127 #ifdef THREADED_RTS
128 SpinLock recordMutableGen_sync;
129 #endif
130
131 /* -----------------------------------------------------------------------------
132    Static function declarations
133    -------------------------------------------------------------------------- */
134
135 static void mark_root               (StgClosure **root);
136 static void zero_static_object_list (StgClosure* first_static);
137 static nat  initialise_N            (rtsBool force_major_gc);
138 static void alloc_gc_threads        (void);
139 static void init_collected_gen      (nat g, nat threads);
140 static void init_uncollected_gen    (nat g, nat threads);
141 static void init_gc_thread          (gc_thread *t);
142 static void update_task_list        (void);
143 static void resize_generations      (void);
144 static void resize_nursery          (void);
145 static void start_gc_threads        (void);
146 static void gc_thread_work          (void);
147 static nat  inc_running             (void);
148 static nat  dec_running             (void);
149 static void wakeup_gc_threads       (nat n_threads);
150 static void shutdown_gc_threads     (nat n_threads);
151
152 #if 0 && defined(DEBUG)
153 static void gcCAFs                  (void);
154 #endif
155
156 /* -----------------------------------------------------------------------------
157    The mark bitmap & stack.
158    -------------------------------------------------------------------------- */
159
160 #define MARK_STACK_BLOCKS 4
161
162 bdescr *mark_stack_bdescr;
163 StgPtr *mark_stack;
164 StgPtr *mark_sp;
165 StgPtr *mark_splim;
166
167 // Flag and pointers used for falling back to a linear scan when the
168 // mark stack overflows.
169 rtsBool mark_stack_overflowed;
170 bdescr *oldgen_scan_bd;
171 StgPtr  oldgen_scan;
172
173 /* -----------------------------------------------------------------------------
174    GarbageCollect: the main entry point to the garbage collector.
175
176    Locks held: all capabilities are held throughout GarbageCollect().
177    -------------------------------------------------------------------------- */
178
179 void
180 GarbageCollect ( rtsBool force_major_gc )
181 {
182   bdescr *bd;
183   step *stp;
184   lnat live, allocated, max_copied, avg_copied;
185   lnat oldgen_saved_blocks = 0;
186   gc_thread *saved_gct;
187   nat g, s, t, n;
188
189   // necessary if we stole a callee-saves register for gct:
190   saved_gct = gct;
191
192 #ifdef PROFILING
193   CostCentreStack *prev_CCS;
194 #endif
195
196   ACQUIRE_SM_LOCK;
197
198 #if defined(RTS_USER_SIGNALS)
199   if (RtsFlags.MiscFlags.install_signal_handlers) {
200     // block signals
201     blockUserSignals();
202   }
203 #endif
204
205   // tell the stats department that we've started a GC 
206   stat_startGC();
207
208   // tell the STM to discard any cached closures it's hoping to re-use
209   stmPreGCHook();
210
211 #ifdef DEBUG
212   mutlist_MUTVARS = 0;
213   mutlist_MUTARRS = 0;
214   mutlist_OTHERS = 0;
215 #endif
216
217   // attribute any costs to CCS_GC 
218 #ifdef PROFILING
219   prev_CCS = CCCS;
220   CCCS = CCS_GC;
221 #endif
222
223   /* Approximate how much we allocated.  
224    * Todo: only when generating stats? 
225    */
226   allocated = calcAllocated();
227
228   /* Figure out which generation to collect
229    */
230   n = initialise_N(force_major_gc);
231
232   /* Allocate + initialise the gc_thread structures.
233    */
234   alloc_gc_threads();
235
236   /* Start threads, so they can be spinning up while we finish initialisation.
237    */
238   start_gc_threads();
239
240   /* How many threads will be participating in this GC?
241    * We don't try to parallelise minor GC.
242    */
243 #if defined(THREADED_RTS)
244   if (n < (4*1024*1024 / BLOCK_SIZE)) {
245       n_gc_threads = 1;
246   } else {
247       n_gc_threads = RtsFlags.ParFlags.gcThreads;
248   }
249 #else
250   n_gc_threads = 1;
251 #endif
252   trace(TRACE_gc|DEBUG_gc, "GC (gen %d): %dKB to collect, using %d thread(s)",
253         N, n * (BLOCK_SIZE / 1024), n_gc_threads);
254
255 #ifdef RTS_GTK_FRONTPANEL
256   if (RtsFlags.GcFlags.frontpanel) {
257       updateFrontPanelBeforeGC(N);
258   }
259 #endif
260
261 #ifdef DEBUG
262   // check for memory leaks if DEBUG is on 
263   memInventory(traceClass(DEBUG_gc));
264 #endif
265
266   // check stack sanity *before* GC (ToDo: check all threads) 
267   IF_DEBUG(sanity, checkFreeListSanity());
268
269   // Initialise all our gc_thread structures
270   for (t = 0; t < n_gc_threads; t++) {
271       init_gc_thread(gc_threads[t]);
272   }
273
274   // Initialise all the generations/steps that we're collecting.
275   for (g = 0; g <= N; g++) {
276       init_collected_gen(g,n_gc_threads);
277   }
278   
279   // Initialise all the generations/steps that we're *not* collecting.
280   for (g = N+1; g < RtsFlags.GcFlags.generations; g++) {
281       init_uncollected_gen(g,n_gc_threads);
282   }
283
284   /* Allocate a mark stack if we're doing a major collection.
285    */
286   if (major_gc) {
287       mark_stack_bdescr = allocGroup(MARK_STACK_BLOCKS);
288       mark_stack = (StgPtr *)mark_stack_bdescr->start;
289       mark_sp    = mark_stack;
290       mark_splim = mark_stack + (MARK_STACK_BLOCKS * BLOCK_SIZE_W);
291   } else {
292       mark_stack_bdescr = NULL;
293   }
294
295   // this is the main thread
296   gct = gc_threads[0];
297
298   /* -----------------------------------------------------------------------
299    * follow all the roots that we know about:
300    *   - mutable lists from each generation > N
301    * we want to *scavenge* these roots, not evacuate them: they're not
302    * going to move in this GC.
303    * Also do them in reverse generation order, for the usual reason:
304    * namely to reduce the likelihood of spurious old->new pointers.
305    */
306   for (g = RtsFlags.GcFlags.generations-1; g > N; g--) {
307       generations[g].saved_mut_list = generations[g].mut_list;
308       generations[g].mut_list = allocBlock(); 
309       // mut_list always has at least one block.
310   }
311
312   // the main thread is running: this prevents any other threads from
313   // exiting prematurely, so we can start them now.
314   // NB. do this after the mutable lists have been saved above, otherwise
315   // the other GC threads will be writing into the old mutable lists.
316   inc_running();
317   wakeup_gc_threads(n_gc_threads);
318
319   for (g = RtsFlags.GcFlags.generations-1; g > N; g--) {
320       scavenge_mutable_list(&generations[g]);
321   }
322
323   // follow roots from the CAF list (used by GHCi)
324   gct->evac_step = 0;
325   markCAFs(mark_root);
326
327   // follow all the roots that the application knows about.
328   gct->evac_step = 0;
329   GetRoots(mark_root);
330
331 #if defined(RTS_USER_SIGNALS)
332   // mark the signal handlers (signals should be already blocked)
333   markSignalHandlers(mark_root);
334 #endif
335
336   // Mark the weak pointer list, and prepare to detect dead weak pointers.
337   markWeakPtrList();
338   initWeakForGC();
339
340   // Mark the stable pointer table.
341   markStablePtrTable(mark_root);
342
343   /* -------------------------------------------------------------------------
344    * Repeatedly scavenge all the areas we know about until there's no
345    * more scavenging to be done.
346    */
347   for (;;)
348   {
349       gc_thread_work();
350       // The other threads are now stopped.  We might recurse back to
351       // here, but from now on this is the only thread.
352       
353       // if any blackholes are alive, make the threads that wait on
354       // them alive too.
355       if (traverseBlackholeQueue()) {
356           inc_running(); 
357           continue;
358       }
359   
360       // must be last...  invariant is that everything is fully
361       // scavenged at this point.
362       if (traverseWeakPtrList()) { // returns rtsTrue if evaced something 
363           inc_running();
364           continue;
365       }
366
367       // If we get to here, there's really nothing left to do.
368       break;
369   }
370
371   shutdown_gc_threads(n_gc_threads);
372
373   // Update pointers from the Task list
374   update_task_list();
375
376   // Now see which stable names are still alive.
377   gcStablePtrTable();
378
379 #ifdef PROFILING
380   // We call processHeapClosureForDead() on every closure destroyed during
381   // the current garbage collection, so we invoke LdvCensusForDead().
382   if (RtsFlags.ProfFlags.doHeapProfile == HEAP_BY_LDV
383       || RtsFlags.ProfFlags.bioSelector != NULL)
384     LdvCensusForDead(N);
385 #endif
386
387   // NO MORE EVACUATION AFTER THIS POINT!
388   // Finally: compaction of the oldest generation.
389   if (major_gc && oldest_gen->steps[0].is_compacted) {
390       // save number of blocks for stats
391       oldgen_saved_blocks = oldest_gen->steps[0].n_old_blocks;
392       compact();
393   }
394
395   IF_DEBUG(sanity, checkGlobalTSOList(rtsFalse));
396
397   // Two-space collector: free the old to-space.
398   // g0s0->old_blocks is the old nursery
399   // g0s0->blocks is to-space from the previous GC
400   if (RtsFlags.GcFlags.generations == 1) {
401       if (g0s0->blocks != NULL) {
402           freeChain(g0s0->blocks);
403           g0s0->blocks = NULL;
404       }
405   }
406
407   // For each workspace, in each thread:
408   //    * clear the BF_EVACUATED flag from each copied block
409   //    * move the copied blocks to the step
410   {
411       gc_thread *thr;
412       step_workspace *ws;
413       bdescr *prev, *next;
414
415       for (t = 0; t < n_gc_threads; t++) {
416           thr = gc_threads[t];
417
418           // not step 0
419           for (s = 1; s < total_steps; s++) {
420               ws = &thr->steps[s];
421
422               // Push the final block
423               if (ws->todo_bd) { 
424                   push_scanned_block(ws->todo_bd, ws);
425               }
426
427               ASSERT(gct->scan_bd == NULL);
428               ASSERT(countBlocks(ws->scavd_list) == ws->n_scavd_blocks);
429               
430               prev = NULL;
431               for (bd = ws->scavd_list; bd != NULL; bd = bd->link) {
432                   bd->flags &= ~BF_EVACUATED;    // now from-space 
433                   ws->step->n_words += bd->free - bd->start;
434                   prev = bd;
435               }
436               if (prev != NULL) {
437                   prev->link = ws->step->blocks;
438                   ws->step->blocks = ws->scavd_list;
439               } 
440               ws->step->n_blocks += ws->n_scavd_blocks;
441
442               prev = NULL;
443               for (bd = ws->part_list; bd != NULL; bd = next) {
444                   next = bd->link;
445                   if (bd->free == bd->start) {
446                       if (prev == NULL) {
447                           ws->part_list = next;
448                       } else {
449                           prev->link = next;
450                       }
451                       freeGroup(bd);
452                       ws->n_part_blocks--;
453                   } else {
454                       bd->flags &= ~BF_EVACUATED;        // now from-space 
455                       ws->step->n_words += bd->free - bd->start;
456                       prev = bd;
457                   }
458               }
459               if (prev != NULL) {
460                   prev->link = ws->step->blocks;
461                   ws->step->blocks = ws->part_list;
462               }
463               ws->step->n_blocks += ws->n_part_blocks;
464
465               ASSERT(countBlocks(ws->step->blocks) == ws->step->n_blocks);
466               ASSERT(countOccupied(ws->step->blocks) == ws->step->n_words);
467           }
468       }
469   }
470
471   // Two-space collector: swap the semi-spaces around.
472   // Currently: g0s0->old_blocks is the old nursery
473   //            g0s0->blocks is to-space from this GC
474   // We want these the other way around.
475   if (RtsFlags.GcFlags.generations == 1) {
476       bdescr *nursery_blocks = g0s0->old_blocks;
477       nat n_nursery_blocks = g0s0->n_old_blocks;
478       g0s0->old_blocks = g0s0->blocks;
479       g0s0->n_old_blocks = g0s0->n_blocks;
480       g0s0->blocks = nursery_blocks;
481       g0s0->n_blocks = n_nursery_blocks;
482   }
483
484   /* run through all the generations/steps and tidy up 
485    */
486   copied = 0;
487   max_copied = 0;
488   avg_copied = 0;
489   { 
490       nat i;
491       for (i=0; i < n_gc_threads; i++) {
492           if (n_gc_threads > 1) {
493               trace(TRACE_gc,"thread %d:", i);
494               trace(TRACE_gc,"   copied           %ld", gc_threads[i]->copied * sizeof(W_));
495               trace(TRACE_gc,"   scanned          %ld", gc_threads[i]->scanned * sizeof(W_));
496               trace(TRACE_gc,"   any_work         %ld", gc_threads[i]->any_work);
497               trace(TRACE_gc,"   no_work          %ld", gc_threads[i]->no_work);
498               trace(TRACE_gc,"   scav_find_work %ld",   gc_threads[i]->scav_find_work);
499           }
500           copied += gc_threads[i]->copied;
501           max_copied = stg_max(gc_threads[i]->copied, max_copied);
502       }
503       if (n_gc_threads == 1) {
504           max_copied = 0;
505           avg_copied = 0;
506       } else {
507           avg_copied = copied;
508       }
509   }
510
511   for (g = 0; g < RtsFlags.GcFlags.generations; g++) {
512
513     if (g == N) {
514       generations[g].collections++; // for stats 
515       if (n_gc_threads > 1) generations[g].par_collections++;
516     }
517
518     // Count the mutable list as bytes "copied" for the purposes of
519     // stats.  Every mutable list is copied during every GC.
520     if (g > 0) {
521         nat mut_list_size = 0;
522         for (bd = generations[g].mut_list; bd != NULL; bd = bd->link) {
523             mut_list_size += bd->free - bd->start;
524         }
525         copied +=  mut_list_size;
526
527         debugTrace(DEBUG_gc,
528                    "mut_list_size: %lu (%d vars, %d arrays, %d MVARs, %d others)",
529                    (unsigned long)(mut_list_size * sizeof(W_)),
530                    mutlist_MUTVARS, mutlist_MUTARRS, mutlist_MVARS, mutlist_OTHERS);
531     }
532
533     for (s = 0; s < generations[g].n_steps; s++) {
534       bdescr *next;
535       stp = &generations[g].steps[s];
536
537       // for generations we collected... 
538       if (g <= N) {
539
540         /* free old memory and shift to-space into from-space for all
541          * the collected steps (except the allocation area).  These
542          * freed blocks will probaby be quickly recycled.
543          */
544         if (!(g == 0 && s == 0 && RtsFlags.GcFlags.generations > 1)) {
545             if (stp->is_compacted)
546             {
547                 // for a compacted step, just shift the new to-space
548                 // onto the front of the now-compacted existing blocks.
549                 for (bd = stp->blocks; bd != NULL; bd = bd->link) {
550                     bd->flags &= ~BF_EVACUATED;  // now from-space 
551                     stp->n_words += bd->free - bd->start;
552                 }
553                 // tack the new blocks on the end of the existing blocks
554                 if (stp->old_blocks != NULL) {
555                     for (bd = stp->old_blocks; bd != NULL; bd = next) {
556                         // NB. this step might not be compacted next
557                         // time, so reset the BF_COMPACTED flags.
558                         // They are set before GC if we're going to
559                         // compact.  (search for BF_COMPACTED above).
560                         bd->flags &= ~BF_COMPACTED;
561                         next = bd->link;
562                         if (next == NULL) {
563                             bd->link = stp->blocks;
564                         }
565                     }
566                     stp->blocks = stp->old_blocks;
567                 }
568                 // add the new blocks to the block tally
569                 stp->n_blocks += stp->n_old_blocks;
570                 ASSERT(countBlocks(stp->blocks) == stp->n_blocks);
571                 ASSERT(countOccupied(stp->blocks) == stp->n_words);
572             }
573             else // not copacted
574             {
575                 freeChain(stp->old_blocks);
576             }
577             stp->old_blocks = NULL;
578             stp->n_old_blocks = 0;
579         }
580
581         /* LARGE OBJECTS.  The current live large objects are chained on
582          * scavenged_large, having been moved during garbage
583          * collection from large_objects.  Any objects left on
584          * large_objects list are therefore dead, so we free them here.
585          */
586         for (bd = stp->large_objects; bd != NULL; bd = next) {
587           next = bd->link;
588           freeGroup(bd);
589           bd = next;
590         }
591
592         // update the count of blocks used by large objects
593         for (bd = stp->scavenged_large_objects; bd != NULL; bd = bd->link) {
594           bd->flags &= ~BF_EVACUATED;
595         }
596         stp->large_objects  = stp->scavenged_large_objects;
597         stp->n_large_blocks = stp->n_scavenged_large_blocks;
598
599       }
600       else // for older generations... 
601       {
602         /* For older generations, we need to append the
603          * scavenged_large_object list (i.e. large objects that have been
604          * promoted during this GC) to the large_object list for that step.
605          */
606         for (bd = stp->scavenged_large_objects; bd; bd = next) {
607           next = bd->link;
608           bd->flags &= ~BF_EVACUATED;
609           dbl_link_onto(bd, &stp->large_objects);
610         }
611
612         // add the new blocks we promoted during this GC 
613         stp->n_large_blocks += stp->n_scavenged_large_blocks;
614       }
615     }
616   }
617
618   // update the max size of older generations after a major GC
619   resize_generations();
620   
621   // Calculate the amount of live data for stats.
622   live = calcLiveWords();
623
624   // Free the small objects allocated via allocate(), since this will
625   // all have been copied into G0S1 now.  
626   if (RtsFlags.GcFlags.generations > 1) {
627       if (g0s0->blocks != NULL) {
628           freeChain(g0s0->blocks);
629           g0s0->blocks = NULL;
630       }
631       g0s0->n_blocks = 0;
632       g0s0->n_words = 0;
633   }
634   alloc_blocks = 0;
635   alloc_blocks_lim = RtsFlags.GcFlags.minAllocAreaSize;
636
637   // Start a new pinned_object_block
638   pinned_object_block = NULL;
639
640   // Free the mark stack.
641   if (mark_stack_bdescr != NULL) {
642       freeGroup(mark_stack_bdescr);
643   }
644
645   // Free any bitmaps.
646   for (g = 0; g <= N; g++) {
647       for (s = 0; s < generations[g].n_steps; s++) {
648           stp = &generations[g].steps[s];
649           if (stp->bitmap != NULL) {
650               freeGroup(stp->bitmap);
651               stp->bitmap = NULL;
652           }
653       }
654   }
655
656   resize_nursery();
657
658  // mark the garbage collected CAFs as dead 
659 #if 0 && defined(DEBUG) // doesn't work at the moment 
660   if (major_gc) { gcCAFs(); }
661 #endif
662   
663 #ifdef PROFILING
664   // resetStaticObjectForRetainerProfiling() must be called before
665   // zeroing below.
666   if (n_gc_threads > 1) {
667       barf("profiling is currently broken with multi-threaded GC");
668       // ToDo: fix the gct->scavenged_static_objects below
669   }
670   resetStaticObjectForRetainerProfiling(gct->scavenged_static_objects);
671 #endif
672
673   // zero the scavenged static object list 
674   if (major_gc) {
675       nat i;
676       for (i = 0; i < n_gc_threads; i++) {
677           zero_static_object_list(gc_threads[i]->scavenged_static_objects);
678       }
679   }
680
681   // Reset the nursery
682   resetNurseries();
683
684   // start any pending finalizers 
685   RELEASE_SM_LOCK;
686   scheduleFinalizers(last_free_capability, old_weak_ptr_list);
687   ACQUIRE_SM_LOCK;
688   
689   // send exceptions to any threads which were about to die 
690   RELEASE_SM_LOCK;
691   resurrectThreads(resurrected_threads);
692   ACQUIRE_SM_LOCK;
693
694   // Update the stable pointer hash table.
695   updateStablePtrTable(major_gc);
696
697   // check sanity after GC 
698   IF_DEBUG(sanity, checkSanity());
699
700   // extra GC trace info 
701   if (traceClass(TRACE_gc|DEBUG_gc)) statDescribeGens();
702
703 #ifdef DEBUG
704   // symbol-table based profiling 
705   /*  heapCensus(to_blocks); */ /* ToDo */
706 #endif
707
708   // restore enclosing cost centre 
709 #ifdef PROFILING
710   CCCS = prev_CCS;
711 #endif
712
713 #ifdef DEBUG
714   // check for memory leaks if DEBUG is on 
715   memInventory(traceClass(DEBUG_gc));
716 #endif
717
718 #ifdef RTS_GTK_FRONTPANEL
719   if (RtsFlags.GcFlags.frontpanel) {
720       updateFrontPanelAfterGC( N, live );
721   }
722 #endif
723
724   // ok, GC over: tell the stats department what happened. 
725   stat_endGC(allocated, live, copied, N, max_copied, avg_copied);
726
727 #if defined(RTS_USER_SIGNALS)
728   if (RtsFlags.MiscFlags.install_signal_handlers) {
729     // unblock signals again
730     unblockUserSignals();
731   }
732 #endif
733
734   RELEASE_SM_LOCK;
735
736   gct = saved_gct;
737 }
738
739 /* -----------------------------------------------------------------------------
740  * Mark all nodes pointed to by sparks in the spark queues (for GC) Does an
741  * implicit slide i.e. after marking all sparks are at the beginning of the
742  * spark pool and the spark pool only contains sparkable closures 
743  * -------------------------------------------------------------------------- */
744
745 #ifdef THREADED_RTS
746 static void
747 markSparkQueue (evac_fn evac, Capability *cap)
748
749     StgClosure **sparkp, **to_sparkp;
750     nat n, pruned_sparks; // stats only
751     StgSparkPool *pool;
752     
753     PAR_TICKY_MARK_SPARK_QUEUE_START();
754     
755     n = 0;
756     pruned_sparks = 0;
757     
758     pool = &(cap->r.rSparks);
759     
760     ASSERT_SPARK_POOL_INVARIANTS(pool);
761     
762 #if defined(PARALLEL_HASKELL)
763     // stats only
764     n = 0;
765     pruned_sparks = 0;
766 #endif
767         
768     sparkp = pool->hd;
769     to_sparkp = pool->hd;
770     while (sparkp != pool->tl) {
771         ASSERT(*sparkp!=NULL);
772         ASSERT(LOOKS_LIKE_CLOSURE_PTR(((StgClosure *)*sparkp)));
773         // ToDo?: statistics gathering here (also for GUM!)
774         if (closure_SHOULD_SPARK(*sparkp)) {
775             evac(sparkp);
776             *to_sparkp++ = *sparkp;
777             if (to_sparkp == pool->lim) {
778                 to_sparkp = pool->base;
779             }
780             n++;
781         } else {
782             pruned_sparks++;
783         }
784         sparkp++;
785         if (sparkp == pool->lim) {
786             sparkp = pool->base;
787         }
788     }
789     pool->tl = to_sparkp;
790         
791     PAR_TICKY_MARK_SPARK_QUEUE_END(n);
792         
793 #if defined(PARALLEL_HASKELL)
794     debugTrace(DEBUG_sched, 
795                "marked %d sparks and pruned %d sparks on [%x]",
796                n, pruned_sparks, mytid);
797 #else
798     debugTrace(DEBUG_sched, 
799                "marked %d sparks and pruned %d sparks",
800                n, pruned_sparks);
801 #endif
802     
803     debugTrace(DEBUG_sched,
804                "new spark queue len=%d; (hd=%p; tl=%p)\n",
805                sparkPoolSize(pool), pool->hd, pool->tl);
806 }
807 #endif
808
809 /* ---------------------------------------------------------------------------
810    Where are the roots that we know about?
811
812         - all the threads on the runnable queue
813         - all the threads on the blocked queue
814         - all the threads on the sleeping queue
815         - all the thread currently executing a _ccall_GC
816         - all the "main threads"
817      
818    ------------------------------------------------------------------------ */
819
820 void
821 GetRoots( evac_fn evac )
822 {
823     nat i;
824     Capability *cap;
825     Task *task;
826
827     // Each GC thread is responsible for following roots from the
828     // Capability of the same number.  There will usually be the same
829     // or fewer Capabilities as GC threads, but just in case there
830     // are more, we mark every Capability whose number is the GC
831     // thread's index plus a multiple of the number of GC threads.
832     for (i = gct->thread_index; i < n_capabilities; i += n_gc_threads) {
833         cap = &capabilities[i];
834         evac((StgClosure **)(void *)&cap->run_queue_hd);
835         evac((StgClosure **)(void *)&cap->run_queue_tl);
836 #if defined(THREADED_RTS)
837         evac((StgClosure **)(void *)&cap->wakeup_queue_hd);
838         evac((StgClosure **)(void *)&cap->wakeup_queue_tl);
839 #endif
840         for (task = cap->suspended_ccalling_tasks; task != NULL; 
841              task=task->next) {
842             debugTrace(DEBUG_sched,
843                        "evac'ing suspended TSO %lu", (unsigned long)task->suspended_tso->id);
844             evac((StgClosure **)(void *)&task->suspended_tso);
845         }
846
847 #if defined(THREADED_RTS)
848         markSparkQueue(evac,cap);
849 #endif
850     }
851     
852 #if !defined(THREADED_RTS)
853     evac((StgClosure **)(void *)&blocked_queue_hd);
854     evac((StgClosure **)(void *)&blocked_queue_tl);
855     evac((StgClosure **)(void *)&sleeping_queue);
856 #endif 
857 }
858
859 /* -----------------------------------------------------------------------------
860    isAlive determines whether the given closure is still alive (after
861    a garbage collection) or not.  It returns the new address of the
862    closure if it is alive, or NULL otherwise.
863
864    NOTE: Use it before compaction only!
865          It untags and (if needed) retags pointers to closures.
866    -------------------------------------------------------------------------- */
867
868
869 StgClosure *
870 isAlive(StgClosure *p)
871 {
872   const StgInfoTable *info;
873   bdescr *bd;
874   StgWord tag;
875   StgClosure *q;
876
877   while (1) {
878     /* The tag and the pointer are split, to be merged later when needed. */
879     tag = GET_CLOSURE_TAG(p);
880     q = UNTAG_CLOSURE(p);
881
882     ASSERT(LOOKS_LIKE_CLOSURE_PTR(q));
883     info = get_itbl(q);
884
885     // ignore static closures 
886     //
887     // ToDo: for static closures, check the static link field.
888     // Problem here is that we sometimes don't set the link field, eg.
889     // for static closures with an empty SRT or CONSTR_STATIC_NOCAFs.
890     //
891     if (!HEAP_ALLOCED(q)) {
892         return p;
893     }
894
895     // ignore closures in generations that we're not collecting. 
896     bd = Bdescr((P_)q);
897     if (bd->gen_no > N) {
898         return p;
899     }
900
901     // if it's a pointer into to-space, then we're done
902     if (bd->flags & BF_EVACUATED) {
903         return p;
904     }
905
906     // large objects use the evacuated flag
907     if (bd->flags & BF_LARGE) {
908         return NULL;
909     }
910
911     // check the mark bit for compacted steps
912     if ((bd->flags & BF_COMPACTED) && is_marked((P_)q,bd)) {
913         return p;
914     }
915
916     switch (info->type) {
917
918     case IND:
919     case IND_STATIC:
920     case IND_PERM:
921     case IND_OLDGEN:            // rely on compatible layout with StgInd 
922     case IND_OLDGEN_PERM:
923       // follow indirections 
924       p = ((StgInd *)q)->indirectee;
925       continue;
926
927     case EVACUATED:
928       // alive! 
929       return ((StgEvacuated *)q)->evacuee;
930
931     case TSO:
932       if (((StgTSO *)q)->what_next == ThreadRelocated) {
933         p = (StgClosure *)((StgTSO *)q)->link;
934         continue;
935       } 
936       return NULL;
937
938     default:
939       // dead. 
940       return NULL;
941     }
942   }
943 }
944
945 /* -----------------------------------------------------------------------------
946    Figure out which generation to collect, initialise N and major_gc.
947
948    Also returns the total number of blocks in generations that will be
949    collected.
950    -------------------------------------------------------------------------- */
951
952 static nat
953 initialise_N (rtsBool force_major_gc)
954 {
955     int g;
956     nat s, blocks, blocks_total;
957
958     blocks = 0;
959     blocks_total = 0;
960
961     if (force_major_gc) {
962         N = RtsFlags.GcFlags.generations - 1;
963     } else {
964         N = 0;
965     }
966
967     for (g = RtsFlags.GcFlags.generations - 1; g >= 0; g--) {
968         blocks = 0;
969         for (s = 0; s < generations[g].n_steps; s++) {
970             blocks += generations[g].steps[s].n_words / BLOCK_SIZE_W;
971             blocks += generations[g].steps[s].n_large_blocks;
972         }
973         if (blocks >= generations[g].max_blocks) {
974             N = stg_max(N,g);
975         }
976         if ((nat)g <= N) {
977             blocks_total += blocks;
978         }
979     }
980
981     blocks_total += countNurseryBlocks();
982
983     major_gc = (N == RtsFlags.GcFlags.generations-1);
984     return blocks_total;
985 }
986
987 /* -----------------------------------------------------------------------------
988    Initialise the gc_thread structures.
989    -------------------------------------------------------------------------- */
990
991 static gc_thread *
992 alloc_gc_thread (int n)
993 {
994     nat s;
995     step_workspace *ws;
996     gc_thread *t;
997
998     t = stgMallocBytes(sizeof(gc_thread) + total_steps * sizeof(step_workspace),
999                        "alloc_gc_thread");
1000
1001 #ifdef THREADED_RTS
1002     t->id = 0;
1003     initCondition(&t->wake_cond);
1004     initMutex(&t->wake_mutex);
1005     t->wakeup = rtsTrue;  // starts true, so we can wait for the
1006                           // thread to start up, see wakeup_gc_threads
1007     t->exit   = rtsFalse;
1008 #endif
1009
1010     t->thread_index = n;
1011     t->free_blocks = NULL;
1012     t->gc_count = 0;
1013
1014     init_gc_thread(t);
1015     
1016 #ifdef USE_PAPI
1017     t->papi_events = -1;
1018 #endif
1019
1020     for (s = 0; s < total_steps; s++)
1021     {
1022         ws = &t->steps[s];
1023         ws->step = &all_steps[s];
1024         ASSERT(s == ws->step->abs_no);
1025         ws->gct = t;
1026         
1027         ws->todo_bd = NULL;
1028         ws->buffer_todo_bd = NULL;
1029         
1030         ws->part_list = NULL;
1031         ws->n_part_blocks = 0;
1032
1033         ws->scavd_list = NULL;
1034         ws->n_scavd_blocks = 0;
1035     }
1036
1037     return t;
1038 }
1039
1040
1041 static void
1042 alloc_gc_threads (void)
1043 {
1044     if (gc_threads == NULL) {
1045 #if defined(THREADED_RTS)
1046         nat i;
1047         gc_threads = stgMallocBytes (RtsFlags.ParFlags.gcThreads * 
1048                                      sizeof(gc_thread*), 
1049                                      "alloc_gc_threads");
1050
1051         for (i = 0; i < RtsFlags.ParFlags.gcThreads; i++) {
1052             gc_threads[i] = alloc_gc_thread(i);
1053         }
1054 #else
1055         gc_threads = stgMallocBytes (sizeof(gc_thread*), 
1056                                      "alloc_gc_threads");
1057
1058         gc_threads[0] = alloc_gc_thread(0);
1059 #endif
1060     }
1061 }
1062
1063 /* ----------------------------------------------------------------------------
1064    Start GC threads
1065    ------------------------------------------------------------------------- */
1066
1067 static nat gc_running_threads;
1068
1069 #if defined(THREADED_RTS)
1070 static Mutex gc_running_mutex;
1071 #endif
1072
1073 static nat
1074 inc_running (void)
1075 {
1076     nat n_running;
1077     ACQUIRE_LOCK(&gc_running_mutex);
1078     n_running = ++gc_running_threads;
1079     RELEASE_LOCK(&gc_running_mutex);
1080     ASSERT(n_running <= n_gc_threads);
1081     return n_running;
1082 }
1083
1084 static nat
1085 dec_running (void)
1086 {
1087     nat n_running;
1088     ACQUIRE_LOCK(&gc_running_mutex);
1089     ASSERT(n_gc_threads != 0);
1090     n_running = --gc_running_threads;
1091     RELEASE_LOCK(&gc_running_mutex);
1092     return n_running;
1093 }
1094
1095 //
1096 // gc_thread_work(): Scavenge until there's no work left to do and all
1097 // the running threads are idle.
1098 //
1099 static void
1100 gc_thread_work (void)
1101 {
1102     nat r;
1103         
1104     debugTrace(DEBUG_gc, "GC thread %d working", gct->thread_index);
1105
1106     // gc_running_threads has already been incremented for us; either
1107     // this is the main thread and we incremented it inside
1108     // GarbageCollect(), or this is a worker thread and the main
1109     // thread bumped gc_running_threads before waking us up.
1110
1111     // Every thread evacuates some roots.
1112     gct->evac_step = 0;
1113     GetRoots(mark_root);
1114
1115 loop:
1116     scavenge_loop();
1117     // scavenge_loop() only exits when there's no work to do
1118     r = dec_running();
1119     
1120     debugTrace(DEBUG_gc, "GC thread %d idle (%d still running)", 
1121                gct->thread_index, r);
1122
1123     while (gc_running_threads != 0) {
1124         usleep(1);
1125         if (any_work()) {
1126             inc_running();
1127             goto loop;
1128         }
1129         // any_work() does not remove the work from the queue, it
1130         // just checks for the presence of work.  If we find any,
1131         // then we increment gc_running_threads and go back to 
1132         // scavenge_loop() to perform any pending work.
1133     }
1134     
1135     // All threads are now stopped
1136     debugTrace(DEBUG_gc, "GC thread %d finished.", gct->thread_index);
1137 }
1138
1139
1140 #if defined(THREADED_RTS)
1141 static void
1142 gc_thread_mainloop (void)
1143 {
1144     while (!gct->exit) {
1145
1146         // Wait until we're told to wake up
1147         ACQUIRE_LOCK(&gct->wake_mutex);
1148         gct->wakeup = rtsFalse;
1149         while (!gct->wakeup) {
1150             debugTrace(DEBUG_gc, "GC thread %d standing by...", 
1151                        gct->thread_index);
1152             waitCondition(&gct->wake_cond, &gct->wake_mutex);
1153         }
1154         RELEASE_LOCK(&gct->wake_mutex);
1155         if (gct->exit) break;
1156
1157 #ifdef USE_PAPI
1158         // start performance counters in this thread...
1159         if (gct->papi_events == -1) {
1160             papi_init_eventset(&gct->papi_events);
1161         }
1162         papi_thread_start_gc1_count(gct->papi_events);
1163 #endif
1164
1165         gc_thread_work();
1166
1167 #ifdef USE_PAPI
1168         // count events in this thread towards the GC totals
1169         papi_thread_stop_gc1_count(gct->papi_events);
1170 #endif
1171     }
1172 }       
1173 #endif
1174
1175 #if defined(THREADED_RTS)
1176 static void
1177 gc_thread_entry (gc_thread *my_gct)
1178 {
1179     gct = my_gct;
1180     debugTrace(DEBUG_gc, "GC thread %d starting...", gct->thread_index);
1181     gct->id = osThreadId();
1182     gc_thread_mainloop();
1183 }
1184 #endif
1185
1186 static void
1187 start_gc_threads (void)
1188 {
1189 #if defined(THREADED_RTS)
1190     nat i;
1191     OSThreadId id;
1192     static rtsBool done = rtsFalse;
1193
1194     gc_running_threads = 0;
1195     initMutex(&gc_running_mutex);
1196
1197     if (!done) {
1198         // Start from 1: the main thread is 0
1199         for (i = 1; i < RtsFlags.ParFlags.gcThreads; i++) {
1200             createOSThread(&id, (OSThreadProc*)&gc_thread_entry, 
1201                            gc_threads[i]);
1202         }
1203         done = rtsTrue;
1204     }
1205 #endif
1206 }
1207
1208 static void
1209 wakeup_gc_threads (nat n_threads USED_IF_THREADS)
1210 {
1211 #if defined(THREADED_RTS)
1212     nat i;
1213     for (i=1; i < n_threads; i++) {
1214         inc_running();
1215         debugTrace(DEBUG_gc, "waking up gc thread %d", i);
1216         do {
1217             ACQUIRE_LOCK(&gc_threads[i]->wake_mutex);
1218             if (gc_threads[i]->wakeup) {
1219                 RELEASE_LOCK(&gc_threads[i]->wake_mutex);
1220                 continue;
1221             } else {
1222                 break;
1223             }
1224         } while (1);
1225         gc_threads[i]->wakeup = rtsTrue;
1226         signalCondition(&gc_threads[i]->wake_cond);
1227         RELEASE_LOCK(&gc_threads[i]->wake_mutex);
1228     }
1229 #endif
1230 }
1231
1232 // After GC is complete, we must wait for all GC threads to enter the
1233 // standby state, otherwise they may still be executing inside
1234 // any_work(), and may even remain awake until the next GC starts.
1235 static void
1236 shutdown_gc_threads (nat n_threads USED_IF_THREADS)
1237 {
1238 #if defined(THREADED_RTS)
1239     nat i;
1240     rtsBool wakeup;
1241     for (i=1; i < n_threads; i++) {
1242         do {
1243             ACQUIRE_LOCK(&gc_threads[i]->wake_mutex);
1244             wakeup = gc_threads[i]->wakeup;
1245             // wakeup is false while the thread is waiting
1246             RELEASE_LOCK(&gc_threads[i]->wake_mutex);
1247         } while (wakeup);
1248     }
1249 #endif
1250 }
1251
1252 /* ----------------------------------------------------------------------------
1253    Initialise a generation that is to be collected 
1254    ------------------------------------------------------------------------- */
1255
1256 static void
1257 init_collected_gen (nat g, nat n_threads)
1258 {
1259     nat s, t, i;
1260     step_workspace *ws;
1261     step *stp;
1262     bdescr *bd;
1263
1264     // Throw away the current mutable list.  Invariant: the mutable
1265     // list always has at least one block; this means we can avoid a
1266     // check for NULL in recordMutable().
1267     if (g != 0) {
1268         freeChain(generations[g].mut_list);
1269         generations[g].mut_list = allocBlock();
1270         for (i = 0; i < n_capabilities; i++) {
1271             freeChain(capabilities[i].mut_lists[g]);
1272             capabilities[i].mut_lists[g] = allocBlock();
1273         }
1274     }
1275
1276     for (s = 0; s < generations[g].n_steps; s++) {
1277
1278         // generation 0, step 0 doesn't need to-space 
1279         if (g == 0 && s == 0 && RtsFlags.GcFlags.generations > 1) { 
1280             continue; 
1281         }
1282         
1283         stp = &generations[g].steps[s];
1284         ASSERT(stp->gen_no == g);
1285
1286         // deprecate the existing blocks
1287         stp->old_blocks   = stp->blocks;
1288         stp->n_old_blocks = stp->n_blocks;
1289         stp->blocks       = NULL;
1290         stp->n_blocks     = 0;
1291         stp->n_words      = 0;
1292
1293         // we don't have any to-be-scavenged blocks yet
1294         stp->todos = NULL;
1295         stp->todos_last = NULL;
1296         stp->n_todos = 0;
1297
1298         // initialise the large object queues.
1299         stp->scavenged_large_objects = NULL;
1300         stp->n_scavenged_large_blocks = 0;
1301
1302         // mark the large objects as not evacuated yet 
1303         for (bd = stp->large_objects; bd; bd = bd->link) {
1304             bd->flags &= ~BF_EVACUATED;
1305         }
1306
1307         // for a compacted step, we need to allocate the bitmap
1308         if (stp->is_compacted) {
1309             nat bitmap_size; // in bytes
1310             bdescr *bitmap_bdescr;
1311             StgWord *bitmap;
1312             
1313             bitmap_size = stp->n_old_blocks * BLOCK_SIZE / (sizeof(W_)*BITS_PER_BYTE);
1314             
1315             if (bitmap_size > 0) {
1316                 bitmap_bdescr = allocGroup((lnat)BLOCK_ROUND_UP(bitmap_size) 
1317                                            / BLOCK_SIZE);
1318                 stp->bitmap = bitmap_bdescr;
1319                 bitmap = bitmap_bdescr->start;
1320                 
1321                 debugTrace(DEBUG_gc, "bitmap_size: %d, bitmap: %p",
1322                            bitmap_size, bitmap);
1323                 
1324                 // don't forget to fill it with zeros!
1325                 memset(bitmap, 0, bitmap_size);
1326                 
1327                 // For each block in this step, point to its bitmap from the
1328                 // block descriptor.
1329                 for (bd=stp->old_blocks; bd != NULL; bd = bd->link) {
1330                     bd->u.bitmap = bitmap;
1331                     bitmap += BLOCK_SIZE_W / (sizeof(W_)*BITS_PER_BYTE);
1332                     
1333                     // Also at this point we set the BF_COMPACTED flag
1334                     // for this block.  The invariant is that
1335                     // BF_COMPACTED is always unset, except during GC
1336                     // when it is set on those blocks which will be
1337                     // compacted.
1338                     bd->flags |= BF_COMPACTED;
1339                 }
1340             }
1341         }
1342     }
1343
1344     // For each GC thread, for each step, allocate a "todo" block to
1345     // store evacuated objects to be scavenged, and a block to store
1346     // evacuated objects that do not need to be scavenged.
1347     for (t = 0; t < n_threads; t++) {
1348         for (s = 0; s < generations[g].n_steps; s++) {
1349
1350             // we don't copy objects into g0s0, unless -G0
1351             if (g==0 && s==0 && RtsFlags.GcFlags.generations > 1) continue;
1352
1353             ws = &gc_threads[t]->steps[g * RtsFlags.GcFlags.steps + s];
1354
1355             ws->todo_large_objects = NULL;
1356
1357             ws->part_list = NULL;
1358             ws->n_part_blocks = 0;
1359
1360             // allocate the first to-space block; extra blocks will be
1361             // chained on as necessary.
1362             ws->todo_bd = NULL;
1363             ws->buffer_todo_bd = NULL;
1364             alloc_todo_block(ws,0);
1365
1366             ws->scavd_list = NULL;
1367             ws->n_scavd_blocks = 0;
1368         }
1369     }
1370 }
1371
1372
1373 /* ----------------------------------------------------------------------------
1374    Initialise a generation that is *not* to be collected 
1375    ------------------------------------------------------------------------- */
1376
1377 static void
1378 init_uncollected_gen (nat g, nat threads)
1379 {
1380     nat s, t, i;
1381     step_workspace *ws;
1382     step *stp;
1383     bdescr *bd;
1384
1385     for (s = 0; s < generations[g].n_steps; s++) {
1386         stp = &generations[g].steps[s];
1387         stp->scavenged_large_objects = NULL;
1388         stp->n_scavenged_large_blocks = 0;
1389     }
1390     
1391     for (t = 0; t < threads; t++) {
1392         for (s = 0; s < generations[g].n_steps; s++) {
1393             
1394             ws = &gc_threads[t]->steps[g * RtsFlags.GcFlags.steps + s];
1395             stp = ws->step;
1396             
1397             ws->buffer_todo_bd = NULL;
1398             ws->todo_large_objects = NULL;
1399
1400             ws->part_list = NULL;
1401             ws->n_part_blocks = 0;
1402
1403             ws->scavd_list = NULL;
1404             ws->n_scavd_blocks = 0;
1405
1406             // If the block at the head of the list in this generation
1407             // is less than 3/4 full, then use it as a todo block.
1408             if (stp->blocks && isPartiallyFull(stp->blocks))
1409             {
1410                 ws->todo_bd = stp->blocks;
1411                 ws->todo_free = ws->todo_bd->free;
1412                 ws->todo_lim = ws->todo_bd->start + BLOCK_SIZE_W;
1413                 stp->blocks = stp->blocks->link;
1414                 stp->n_blocks -= 1;
1415                 stp->n_words -= ws->todo_bd->free - ws->todo_bd->start;
1416                 ws->todo_bd->link = NULL;
1417                 // we must scan from the current end point.
1418                 ws->todo_bd->u.scan = ws->todo_bd->free;
1419             } 
1420             else
1421             {
1422                 ws->todo_bd = NULL;
1423                 alloc_todo_block(ws,0);
1424             }
1425         }
1426     }
1427
1428     // Move the private mutable lists from each capability onto the
1429     // main mutable list for the generation.
1430     for (i = 0; i < n_capabilities; i++) {
1431         for (bd = capabilities[i].mut_lists[g]; 
1432              bd->link != NULL; bd = bd->link) {
1433             /* nothing */
1434         }
1435         bd->link = generations[g].mut_list;
1436         generations[g].mut_list = capabilities[i].mut_lists[g];
1437         capabilities[i].mut_lists[g] = allocBlock();
1438     }
1439 }
1440
1441 /* -----------------------------------------------------------------------------
1442    Initialise a gc_thread before GC
1443    -------------------------------------------------------------------------- */
1444
1445 static void
1446 init_gc_thread (gc_thread *t)
1447 {
1448     t->static_objects = END_OF_STATIC_LIST;
1449     t->scavenged_static_objects = END_OF_STATIC_LIST;
1450     t->scan_bd = NULL;
1451     t->evac_step = 0;
1452     t->failed_to_evac = rtsFalse;
1453     t->eager_promotion = rtsTrue;
1454     t->thunk_selector_depth = 0;
1455     t->copied = 0;
1456     t->scanned = 0;
1457     t->any_work = 0;
1458     t->no_work = 0;
1459     t->scav_find_work = 0;
1460 }
1461
1462 /* -----------------------------------------------------------------------------
1463    Function we pass to GetRoots to evacuate roots.
1464    -------------------------------------------------------------------------- */
1465
1466 static void
1467 mark_root(StgClosure **root)
1468 {
1469   evacuate(root);
1470 }
1471
1472 /* -----------------------------------------------------------------------------
1473    Initialising the static object & mutable lists
1474    -------------------------------------------------------------------------- */
1475
1476 static void
1477 zero_static_object_list(StgClosure* first_static)
1478 {
1479   StgClosure* p;
1480   StgClosure* link;
1481   const StgInfoTable *info;
1482
1483   for (p = first_static; p != END_OF_STATIC_LIST; p = link) {
1484     info = get_itbl(p);
1485     link = *STATIC_LINK(info, p);
1486     *STATIC_LINK(info,p) = NULL;
1487   }
1488 }
1489
1490 /* -----------------------------------------------------------------------------
1491    Reverting CAFs
1492    -------------------------------------------------------------------------- */
1493
1494 void
1495 revertCAFs( void )
1496 {
1497     StgIndStatic *c;
1498
1499     for (c = (StgIndStatic *)revertible_caf_list; c != NULL; 
1500          c = (StgIndStatic *)c->static_link) 
1501     {
1502         SET_INFO(c, c->saved_info);
1503         c->saved_info = NULL;
1504         // could, but not necessary: c->static_link = NULL; 
1505     }
1506     revertible_caf_list = NULL;
1507 }
1508
1509 void
1510 markCAFs( evac_fn evac )
1511 {
1512     StgIndStatic *c;
1513
1514     for (c = (StgIndStatic *)caf_list; c != NULL; 
1515          c = (StgIndStatic *)c->static_link) 
1516     {
1517         evac(&c->indirectee);
1518     }
1519     for (c = (StgIndStatic *)revertible_caf_list; c != NULL; 
1520          c = (StgIndStatic *)c->static_link) 
1521     {
1522         evac(&c->indirectee);
1523     }
1524 }
1525
1526 /* ----------------------------------------------------------------------------
1527    Update the pointers from the task list
1528
1529    These are treated as weak pointers because we want to allow a main
1530    thread to get a BlockedOnDeadMVar exception in the same way as any
1531    other thread.  Note that the threads should all have been retained
1532    by GC by virtue of being on the all_threads list, we're just
1533    updating pointers here.
1534    ------------------------------------------------------------------------- */
1535
1536 static void
1537 update_task_list (void)
1538 {
1539     Task *task;
1540     StgTSO *tso;
1541     for (task = all_tasks; task != NULL; task = task->all_link) {
1542         if (!task->stopped && task->tso) {
1543             ASSERT(task->tso->bound == task);
1544             tso = (StgTSO *) isAlive((StgClosure *)task->tso);
1545             if (tso == NULL) {
1546                 barf("task %p: main thread %d has been GC'd", 
1547 #ifdef THREADED_RTS
1548                      (void *)task->id, 
1549 #else
1550                      (void *)task,
1551 #endif
1552                      task->tso->id);
1553             }
1554             task->tso = tso;
1555         }
1556     }
1557 }
1558
1559 /* ----------------------------------------------------------------------------
1560    Reset the sizes of the older generations when we do a major
1561    collection.
1562   
1563    CURRENT STRATEGY: make all generations except zero the same size.
1564    We have to stay within the maximum heap size, and leave a certain
1565    percentage of the maximum heap size available to allocate into.
1566    ------------------------------------------------------------------------- */
1567
1568 static void
1569 resize_generations (void)
1570 {
1571     nat g;
1572
1573     if (major_gc && RtsFlags.GcFlags.generations > 1) {
1574         nat live, size, min_alloc;
1575         nat max  = RtsFlags.GcFlags.maxHeapSize;
1576         nat gens = RtsFlags.GcFlags.generations;
1577         
1578         // live in the oldest generations
1579         live = (oldest_gen->steps[0].n_words + BLOCK_SIZE_W - 1) / BLOCK_SIZE_W+
1580             oldest_gen->steps[0].n_large_blocks;
1581         
1582         // default max size for all generations except zero
1583         size = stg_max(live * RtsFlags.GcFlags.oldGenFactor,
1584                        RtsFlags.GcFlags.minOldGenSize);
1585         
1586         // minimum size for generation zero
1587         min_alloc = stg_max((RtsFlags.GcFlags.pcFreeHeap * max) / 200,
1588                             RtsFlags.GcFlags.minAllocAreaSize);
1589
1590         // Auto-enable compaction when the residency reaches a
1591         // certain percentage of the maximum heap size (default: 30%).
1592         if (RtsFlags.GcFlags.generations > 1 &&
1593             (RtsFlags.GcFlags.compact ||
1594              (max > 0 &&
1595               oldest_gen->steps[0].n_blocks > 
1596               (RtsFlags.GcFlags.compactThreshold * max) / 100))) {
1597             oldest_gen->steps[0].is_compacted = 1;
1598 //        debugBelch("compaction: on\n", live);
1599         } else {
1600             oldest_gen->steps[0].is_compacted = 0;
1601 //        debugBelch("compaction: off\n", live);
1602         }
1603
1604         // if we're going to go over the maximum heap size, reduce the
1605         // size of the generations accordingly.  The calculation is
1606         // different if compaction is turned on, because we don't need
1607         // to double the space required to collect the old generation.
1608         if (max != 0) {
1609             
1610             // this test is necessary to ensure that the calculations
1611             // below don't have any negative results - we're working
1612             // with unsigned values here.
1613             if (max < min_alloc) {
1614                 heapOverflow();
1615             }
1616             
1617             if (oldest_gen->steps[0].is_compacted) {
1618                 if ( (size + (size - 1) * (gens - 2) * 2) + min_alloc > max ) {
1619                     size = (max - min_alloc) / ((gens - 1) * 2 - 1);
1620                 }
1621             } else {
1622                 if ( (size * (gens - 1) * 2) + min_alloc > max ) {
1623                     size = (max - min_alloc) / ((gens - 1) * 2);
1624                 }
1625             }
1626             
1627             if (size < live) {
1628                 heapOverflow();
1629             }
1630         }
1631         
1632 #if 0
1633         debugBelch("live: %d, min_alloc: %d, size : %d, max = %d\n", live,
1634                    min_alloc, size, max);
1635 #endif
1636         
1637         for (g = 0; g < gens; g++) {
1638             generations[g].max_blocks = size;
1639         }
1640     }
1641 }
1642
1643 /* -----------------------------------------------------------------------------
1644    Calculate the new size of the nursery, and resize it.
1645    -------------------------------------------------------------------------- */
1646
1647 static void
1648 resize_nursery (void)
1649 {
1650     if (RtsFlags.GcFlags.generations == 1)
1651     {   // Two-space collector:
1652         nat blocks;
1653     
1654         /* set up a new nursery.  Allocate a nursery size based on a
1655          * function of the amount of live data (by default a factor of 2)
1656          * Use the blocks from the old nursery if possible, freeing up any
1657          * left over blocks.
1658          *
1659          * If we get near the maximum heap size, then adjust our nursery
1660          * size accordingly.  If the nursery is the same size as the live
1661          * data (L), then we need 3L bytes.  We can reduce the size of the
1662          * nursery to bring the required memory down near 2L bytes.
1663          * 
1664          * A normal 2-space collector would need 4L bytes to give the same
1665          * performance we get from 3L bytes, reducing to the same
1666          * performance at 2L bytes.
1667          */
1668         blocks = g0s0->n_old_blocks;
1669         
1670         if ( RtsFlags.GcFlags.maxHeapSize != 0 &&
1671              blocks * RtsFlags.GcFlags.oldGenFactor * 2 > 
1672              RtsFlags.GcFlags.maxHeapSize )
1673         {
1674             long adjusted_blocks;  // signed on purpose 
1675             int pc_free; 
1676             
1677             adjusted_blocks = (RtsFlags.GcFlags.maxHeapSize - 2 * blocks);
1678             
1679             debugTrace(DEBUG_gc, "near maximum heap size of 0x%x blocks, blocks = %d, adjusted to %ld", 
1680                        RtsFlags.GcFlags.maxHeapSize, blocks, adjusted_blocks);
1681             
1682             pc_free = adjusted_blocks * 100 / RtsFlags.GcFlags.maxHeapSize;
1683             if (pc_free < RtsFlags.GcFlags.pcFreeHeap) /* might even * be < 0 */
1684             {
1685                 heapOverflow();
1686             }
1687             blocks = adjusted_blocks;
1688         }
1689         else
1690         {
1691             blocks *= RtsFlags.GcFlags.oldGenFactor;
1692             if (blocks < RtsFlags.GcFlags.minAllocAreaSize)
1693             {
1694                 blocks = RtsFlags.GcFlags.minAllocAreaSize;
1695             }
1696         }
1697         resizeNurseries(blocks);
1698     }
1699     else  // Generational collector
1700     {
1701         /* 
1702          * If the user has given us a suggested heap size, adjust our
1703          * allocation area to make best use of the memory available.
1704          */
1705         if (RtsFlags.GcFlags.heapSizeSuggestion)
1706         {
1707             long blocks;
1708             nat needed = calcNeeded();  // approx blocks needed at next GC 
1709             
1710             /* Guess how much will be live in generation 0 step 0 next time.
1711              * A good approximation is obtained by finding the
1712              * percentage of g0s0 that was live at the last minor GC.
1713              *
1714              * We have an accurate figure for the amount of copied data in
1715              * 'copied', but we must convert this to a number of blocks, with
1716              * a small adjustment for estimated slop at the end of a block
1717              * (- 10 words).
1718              */
1719             if (N == 0)
1720             {
1721                 g0s0_pcnt_kept = ((copied / (BLOCK_SIZE_W - 10)) * 100)
1722                     / countNurseryBlocks();
1723             }
1724             
1725             /* Estimate a size for the allocation area based on the
1726              * information available.  We might end up going slightly under
1727              * or over the suggested heap size, but we should be pretty
1728              * close on average.
1729              *
1730              * Formula:            suggested - needed
1731              *                ----------------------------
1732              *                    1 + g0s0_pcnt_kept/100
1733              *
1734              * where 'needed' is the amount of memory needed at the next
1735              * collection for collecting all steps except g0s0.
1736              */
1737             blocks = 
1738                 (((long)RtsFlags.GcFlags.heapSizeSuggestion - (long)needed) * 100) /
1739                 (100 + (long)g0s0_pcnt_kept);
1740             
1741             if (blocks < (long)RtsFlags.GcFlags.minAllocAreaSize) {
1742                 blocks = RtsFlags.GcFlags.minAllocAreaSize;
1743             }
1744             
1745             resizeNurseries((nat)blocks);
1746         }
1747         else
1748         {
1749             // we might have added extra large blocks to the nursery, so
1750             // resize back to minAllocAreaSize again.
1751             resizeNurseriesFixed(RtsFlags.GcFlags.minAllocAreaSize);
1752         }
1753     }
1754 }
1755
1756 /* -----------------------------------------------------------------------------
1757    Sanity code for CAF garbage collection.
1758
1759    With DEBUG turned on, we manage a CAF list in addition to the SRT
1760    mechanism.  After GC, we run down the CAF list and blackhole any
1761    CAFs which have been garbage collected.  This means we get an error
1762    whenever the program tries to enter a garbage collected CAF.
1763
1764    Any garbage collected CAFs are taken off the CAF list at the same
1765    time. 
1766    -------------------------------------------------------------------------- */
1767
1768 #if 0 && defined(DEBUG)
1769
1770 static void
1771 gcCAFs(void)
1772 {
1773   StgClosure*  p;
1774   StgClosure** pp;
1775   const StgInfoTable *info;
1776   nat i;
1777
1778   i = 0;
1779   p = caf_list;
1780   pp = &caf_list;
1781
1782   while (p != NULL) {
1783     
1784     info = get_itbl(p);
1785
1786     ASSERT(info->type == IND_STATIC);
1787
1788     if (STATIC_LINK(info,p) == NULL) {
1789         debugTrace(DEBUG_gccafs, "CAF gc'd at 0x%04lx", (long)p);
1790         // black hole it 
1791         SET_INFO(p,&stg_BLACKHOLE_info);
1792         p = STATIC_LINK2(info,p);
1793         *pp = p;
1794     }
1795     else {
1796       pp = &STATIC_LINK2(info,p);
1797       p = *pp;
1798       i++;
1799     }
1800
1801   }
1802
1803   debugTrace(DEBUG_gccafs, "%d CAFs live", i); 
1804 }
1805 #endif