Branch data Line data Source code
1 : : // SPDX-License-Identifier: GPL-2.0-only
2 : : /*
3 : : * linux/kernel/exit.c
4 : : *
5 : : * Copyright (C) 1991, 1992 Linus Torvalds
6 : : */
7 : :
8 : : #include <linux/mm.h>
9 : : #include <linux/slab.h>
10 : : #include <linux/sched/autogroup.h>
11 : : #include <linux/sched/mm.h>
12 : : #include <linux/sched/stat.h>
13 : : #include <linux/sched/task.h>
14 : : #include <linux/sched/task_stack.h>
15 : : #include <linux/sched/cputime.h>
16 : : #include <linux/interrupt.h>
17 : : #include <linux/module.h>
18 : : #include <linux/capability.h>
19 : : #include <linux/completion.h>
20 : : #include <linux/personality.h>
21 : : #include <linux/tty.h>
22 : : #include <linux/iocontext.h>
23 : : #include <linux/key.h>
24 : : #include <linux/cpu.h>
25 : : #include <linux/acct.h>
26 : : #include <linux/tsacct_kern.h>
27 : : #include <linux/file.h>
28 : : #include <linux/fdtable.h>
29 : : #include <linux/freezer.h>
30 : : #include <linux/binfmts.h>
31 : : #include <linux/nsproxy.h>
32 : : #include <linux/pid_namespace.h>
33 : : #include <linux/ptrace.h>
34 : : #include <linux/profile.h>
35 : : #include <linux/mount.h>
36 : : #include <linux/proc_fs.h>
37 : : #include <linux/kthread.h>
38 : : #include <linux/mempolicy.h>
39 : : #include <linux/taskstats_kern.h>
40 : : #include <linux/delayacct.h>
41 : : #include <linux/cgroup.h>
42 : : #include <linux/syscalls.h>
43 : : #include <linux/signal.h>
44 : : #include <linux/posix-timers.h>
45 : : #include <linux/cn_proc.h>
46 : : #include <linux/mutex.h>
47 : : #include <linux/futex.h>
48 : : #include <linux/pipe_fs_i.h>
49 : : #include <linux/audit.h> /* for audit_free() */
50 : : #include <linux/resource.h>
51 : : #include <linux/blkdev.h>
52 : : #include <linux/task_io_accounting_ops.h>
53 : : #include <linux/tracehook.h>
54 : : #include <linux/fs_struct.h>
55 : : #include <linux/init_task.h>
56 : : #include <linux/perf_event.h>
57 : : #include <trace/events/sched.h>
58 : : #include <linux/hw_breakpoint.h>
59 : : #include <linux/oom.h>
60 : : #include <linux/writeback.h>
61 : : #include <linux/shm.h>
62 : : #include <linux/kcov.h>
63 : : #include <linux/random.h>
64 : : #include <linux/rcuwait.h>
65 : : #include <linux/compat.h>
66 : :
67 : : #include <linux/uaccess.h>
68 : : #include <asm/unistd.h>
69 : : #include <asm/pgtable.h>
70 : : #include <asm/mmu_context.h>
71 : :
72 : 3 : static void __unhash_process(struct task_struct *p, bool group_dead)
73 : : {
74 : 3 : nr_threads--;
75 : 3 : detach_pid(p, PIDTYPE_PID);
76 : 3 : if (group_dead) {
77 : 3 : detach_pid(p, PIDTYPE_TGID);
78 : 3 : detach_pid(p, PIDTYPE_PGID);
79 : 3 : detach_pid(p, PIDTYPE_SID);
80 : :
81 : : list_del_rcu(&p->tasks);
82 : 3 : list_del_init(&p->sibling);
83 : 3 : __this_cpu_dec(process_counts);
84 : : }
85 : : list_del_rcu(&p->thread_group);
86 : : list_del_rcu(&p->thread_node);
87 : 3 : }
88 : :
89 : : /*
90 : : * This function expects the tasklist_lock write-locked.
91 : : */
92 : 3 : static void __exit_signal(struct task_struct *tsk)
93 : : {
94 : 3 : struct signal_struct *sig = tsk->signal;
95 : : bool group_dead = thread_group_leader(tsk);
96 : : struct sighand_struct *sighand;
97 : : struct tty_struct *uninitialized_var(tty);
98 : : u64 utime, stime;
99 : :
100 : 3 : sighand = rcu_dereference_check(tsk->sighand,
101 : : lockdep_tasklist_lock_is_held());
102 : : spin_lock(&sighand->siglock);
103 : :
104 : : #ifdef CONFIG_POSIX_TIMERS
105 : 3 : posix_cpu_timers_exit(tsk);
106 : 3 : if (group_dead) {
107 : 3 : posix_cpu_timers_exit_group(tsk);
108 : : } else {
109 : : /*
110 : : * This can only happen if the caller is de_thread().
111 : : * FIXME: this is the temporary hack, we should teach
112 : : * posix-cpu-timers to handle this case correctly.
113 : : */
114 : 3 : if (unlikely(has_group_leader_pid(tsk)))
115 : 0 : posix_cpu_timers_exit_group(tsk);
116 : : }
117 : : #endif
118 : :
119 : 3 : if (group_dead) {
120 : 3 : tty = sig->tty;
121 : 3 : sig->tty = NULL;
122 : : } else {
123 : : /*
124 : : * If there is any task waiting for the group exit
125 : : * then notify it:
126 : : */
127 : 3 : if (sig->notify_count > 0 && !--sig->notify_count)
128 : 0 : wake_up_process(sig->group_exit_task);
129 : :
130 : 3 : if (tsk == sig->curr_target)
131 : 0 : sig->curr_target = next_thread(tsk);
132 : : }
133 : :
134 : 3 : add_device_randomness((const void*) &tsk->se.sum_exec_runtime,
135 : : sizeof(unsigned long long));
136 : :
137 : : /*
138 : : * Accumulate here the counters for all threads as they die. We could
139 : : * skip the group leader because it is the last user of signal_struct,
140 : : * but we want to avoid the race with thread_group_cputime() which can
141 : : * see the empty ->thread_head list.
142 : : */
143 : : task_cputime(tsk, &utime, &stime);
144 : : write_seqlock(&sig->stats_lock);
145 : 3 : sig->utime += utime;
146 : 3 : sig->stime += stime;
147 : 3 : sig->gtime += task_gtime(tsk);
148 : 3 : sig->min_flt += tsk->min_flt;
149 : 3 : sig->maj_flt += tsk->maj_flt;
150 : 3 : sig->nvcsw += tsk->nvcsw;
151 : 3 : sig->nivcsw += tsk->nivcsw;
152 : 3 : sig->inblock += task_io_get_inblock(tsk);
153 : 3 : sig->oublock += task_io_get_oublock(tsk);
154 : 3 : task_io_accounting_add(&sig->ioac, &tsk->ioac);
155 : 3 : sig->sum_sched_runtime += tsk->se.sum_exec_runtime;
156 : 3 : sig->nr_threads--;
157 : 3 : __unhash_process(tsk, group_dead);
158 : : write_sequnlock(&sig->stats_lock);
159 : :
160 : : /*
161 : : * Do this under ->siglock, we can race with another thread
162 : : * doing sigqueue_free() if we have SIGQUEUE_PREALLOC signals.
163 : : */
164 : 3 : flush_sigqueue(&tsk->pending);
165 : 3 : tsk->sighand = NULL;
166 : : spin_unlock(&sighand->siglock);
167 : :
168 : 3 : __cleanup_sighand(sighand);
169 : : clear_tsk_thread_flag(tsk, TIF_SIGPENDING);
170 : 3 : if (group_dead) {
171 : 3 : flush_sigqueue(&sig->shared_pending);
172 : 3 : tty_kref_put(tty);
173 : : }
174 : 3 : }
175 : :
176 : 3 : static void delayed_put_task_struct(struct rcu_head *rhp)
177 : : {
178 : 3 : struct task_struct *tsk = container_of(rhp, struct task_struct, rcu);
179 : :
180 : 3 : perf_event_delayed_put(tsk);
181 : 3 : trace_sched_process_free(tsk);
182 : 3 : put_task_struct(tsk);
183 : 3 : }
184 : :
185 : 3 : void put_task_struct_rcu_user(struct task_struct *task)
186 : : {
187 : 3 : if (refcount_dec_and_test(&task->rcu_users))
188 : 3 : call_rcu(&task->rcu, delayed_put_task_struct);
189 : 3 : }
190 : :
191 : 3 : void release_task(struct task_struct *p)
192 : : {
193 : : struct task_struct *leader;
194 : : int zap_leader;
195 : : repeat:
196 : : /* don't need to get the RCU readlock here - the process is dead and
197 : : * can't be modifying its own credentials. But shut RCU-lockdep up */
198 : : rcu_read_lock();
199 : : atomic_dec(&__task_cred(p)->user->processes);
200 : : rcu_read_unlock();
201 : :
202 : 3 : proc_flush_task(p);
203 : 3 : cgroup_release(p);
204 : :
205 : 3 : write_lock_irq(&tasklist_lock);
206 : 3 : ptrace_release_task(p);
207 : 3 : __exit_signal(p);
208 : :
209 : : /*
210 : : * If we are the last non-leader member of the thread
211 : : * group, and the leader is zombie, then notify the
212 : : * group leader's parent process. (if it wants notification.)
213 : : */
214 : : zap_leader = 0;
215 : 3 : leader = p->group_leader;
216 : 3 : if (leader != p && thread_group_empty(leader)
217 : 3 : && leader->exit_state == EXIT_ZOMBIE) {
218 : : /*
219 : : * If we were the last child thread and the leader has
220 : : * exited already, and the leader's parent ignores SIGCHLD,
221 : : * then we are the one who should release the leader.
222 : : */
223 : 3 : zap_leader = do_notify_parent(leader, leader->exit_signal);
224 : 3 : if (zap_leader)
225 : 0 : leader->exit_state = EXIT_DEAD;
226 : : }
227 : :
228 : 3 : write_unlock_irq(&tasklist_lock);
229 : 3 : release_thread(p);
230 : 3 : put_task_struct_rcu_user(p);
231 : :
232 : : p = leader;
233 : 3 : if (unlikely(zap_leader))
234 : : goto repeat;
235 : 3 : }
236 : :
237 : 3 : void rcuwait_wake_up(struct rcuwait *w)
238 : : {
239 : : struct task_struct *task;
240 : :
241 : : rcu_read_lock();
242 : :
243 : : /*
244 : : * Order condition vs @task, such that everything prior to the load
245 : : * of @task is visible. This is the condition as to why the user called
246 : : * rcuwait_trywake() in the first place. Pairs with set_current_state()
247 : : * barrier (A) in rcuwait_wait_event().
248 : : *
249 : : * WAIT WAKE
250 : : * [S] tsk = current [S] cond = true
251 : : * MB (A) MB (B)
252 : : * [L] cond [L] tsk
253 : : */
254 : 3 : smp_mb(); /* (B) */
255 : :
256 : 3 : task = rcu_dereference(w->task);
257 : 3 : if (task)
258 : 3 : wake_up_process(task);
259 : : rcu_read_unlock();
260 : 3 : }
261 : :
262 : : /*
263 : : * Determine if a process group is "orphaned", according to the POSIX
264 : : * definition in 2.2.2.52. Orphaned process groups are not to be affected
265 : : * by terminal-generated stop signals. Newly orphaned process groups are
266 : : * to receive a SIGHUP and a SIGCONT.
267 : : *
268 : : * "I ask you, have you ever known what it is to be an orphan?"
269 : : */
270 : 3 : static int will_become_orphaned_pgrp(struct pid *pgrp,
271 : : struct task_struct *ignored_task)
272 : : {
273 : : struct task_struct *p;
274 : :
275 : 3 : do_each_pid_task(pgrp, PIDTYPE_PGID, p) {
276 : 3 : if ((p == ignored_task) ||
277 : 0 : (p->exit_state && thread_group_empty(p)) ||
278 : 0 : is_global_init(p->real_parent))
279 : 3 : continue;
280 : :
281 : 0 : if (task_pgrp(p->real_parent) != pgrp &&
282 : : task_session(p->real_parent) == task_session(p))
283 : : return 0;
284 : : } while_each_pid_task(pgrp, PIDTYPE_PGID, p);
285 : :
286 : : return 1;
287 : : }
288 : :
289 : 0 : int is_current_pgrp_orphaned(void)
290 : : {
291 : : int retval;
292 : :
293 : 0 : read_lock(&tasklist_lock);
294 : 0 : retval = will_become_orphaned_pgrp(task_pgrp(current), NULL);
295 : : read_unlock(&tasklist_lock);
296 : :
297 : 0 : return retval;
298 : : }
299 : :
300 : 3 : static bool has_stopped_jobs(struct pid *pgrp)
301 : : {
302 : : struct task_struct *p;
303 : :
304 : 3 : do_each_pid_task(pgrp, PIDTYPE_PGID, p) {
305 : 3 : if (p->signal->flags & SIGNAL_STOP_STOPPED)
306 : : return true;
307 : : } while_each_pid_task(pgrp, PIDTYPE_PGID, p);
308 : :
309 : : return false;
310 : : }
311 : :
312 : : /*
313 : : * Check to see if any process groups have become orphaned as
314 : : * a result of our exiting, and if they have any stopped jobs,
315 : : * send them a SIGHUP and then a SIGCONT. (POSIX 3.2.2.2)
316 : : */
317 : : static void
318 : 3 : kill_orphaned_pgrp(struct task_struct *tsk, struct task_struct *parent)
319 : : {
320 : : struct pid *pgrp = task_pgrp(tsk);
321 : : struct task_struct *ignored_task = tsk;
322 : :
323 : 3 : if (!parent)
324 : : /* exit: our father is in a different pgrp than
325 : : * we are and we were the only connection outside.
326 : : */
327 : 3 : parent = tsk->real_parent;
328 : : else
329 : : /* reparent: our child is in a different pgrp than
330 : : * we are, and it was the only connection outside.
331 : : */
332 : : ignored_task = NULL;
333 : :
334 : 3 : if (task_pgrp(parent) != pgrp &&
335 : 3 : task_session(parent) == task_session(tsk) &&
336 : 3 : will_become_orphaned_pgrp(pgrp, ignored_task) &&
337 : 3 : has_stopped_jobs(pgrp)) {
338 : 0 : __kill_pgrp_info(SIGHUP, SEND_SIG_PRIV, pgrp);
339 : 0 : __kill_pgrp_info(SIGCONT, SEND_SIG_PRIV, pgrp);
340 : : }
341 : 3 : }
342 : :
343 : : #ifdef CONFIG_MEMCG
344 : : /*
345 : : * A task is exiting. If it owned this mm, find a new owner for the mm.
346 : : */
347 : 3 : void mm_update_next_owner(struct mm_struct *mm)
348 : : {
349 : 3 : struct task_struct *c, *g, *p = current;
350 : :
351 : : retry:
352 : : /*
353 : : * If the exiting or execing task is not the owner, it's
354 : : * someone else's problem.
355 : : */
356 : 3 : if (mm->owner != p)
357 : : return;
358 : : /*
359 : : * The current owner is exiting/execing and there are no other
360 : : * candidates. Do not leave the mm pointing to a possibly
361 : : * freed task structure.
362 : : */
363 : 3 : if (atomic_read(&mm->mm_users) <= 1) {
364 : : WRITE_ONCE(mm->owner, NULL);
365 : 3 : return;
366 : : }
367 : :
368 : 3 : read_lock(&tasklist_lock);
369 : : /*
370 : : * Search in the children
371 : : */
372 : 3 : list_for_each_entry(c, &p->children, sibling) {
373 : 3 : if (c->mm == mm)
374 : : goto assign_new_owner;
375 : : }
376 : :
377 : : /*
378 : : * Search in the siblings
379 : : */
380 : 3 : list_for_each_entry(c, &p->real_parent->children, sibling) {
381 : 3 : if (c->mm == mm)
382 : : goto assign_new_owner;
383 : : }
384 : :
385 : : /*
386 : : * Search through everything else, we should not get here often.
387 : : */
388 : 3 : for_each_process(g) {
389 : 3 : if (g->flags & PF_KTHREAD)
390 : 3 : continue;
391 : 3 : for_each_thread(g, c) {
392 : 3 : if (c->mm == mm)
393 : : goto assign_new_owner;
394 : 3 : if (c->mm)
395 : : break;
396 : : }
397 : : }
398 : : read_unlock(&tasklist_lock);
399 : : /*
400 : : * We found no owner yet mm_users > 1: this implies that we are
401 : : * most likely racing with swapoff (try_to_unuse()) or /proc or
402 : : * ptrace or page migration (get_task_mm()). Mark owner as NULL.
403 : : */
404 : : WRITE_ONCE(mm->owner, NULL);
405 : 3 : return;
406 : :
407 : : assign_new_owner:
408 : 3 : BUG_ON(c == p);
409 : : get_task_struct(c);
410 : : /*
411 : : * The task_lock protects c->mm from changing.
412 : : * We always want mm->owner->mm == mm
413 : : */
414 : : task_lock(c);
415 : : /*
416 : : * Delay read_unlock() till we have the task_lock()
417 : : * to ensure that c does not slip away underneath us
418 : : */
419 : : read_unlock(&tasklist_lock);
420 : 3 : if (c->mm != mm) {
421 : : task_unlock(c);
422 : 3 : put_task_struct(c);
423 : 3 : goto retry;
424 : : }
425 : 3 : WRITE_ONCE(mm->owner, c);
426 : : task_unlock(c);
427 : 3 : put_task_struct(c);
428 : : }
429 : : #endif /* CONFIG_MEMCG */
430 : :
431 : : /*
432 : : * Turn us into a lazy TLB process if we
433 : : * aren't already..
434 : : */
435 : 3 : static void exit_mm(void)
436 : : {
437 : 3 : struct mm_struct *mm = current->mm;
438 : : struct core_state *core_state;
439 : :
440 : 3 : exit_mm_release(current, mm);
441 : 3 : if (!mm)
442 : 3 : return;
443 : 3 : sync_mm_rss(mm);
444 : : /*
445 : : * Serialize with any possible pending coredump.
446 : : * We must hold mmap_sem around checking core_state
447 : : * and clearing tsk->mm. The core-inducing thread
448 : : * will increment ->nr_threads for each thread in the
449 : : * group with ->mm != NULL.
450 : : */
451 : 3 : down_read(&mm->mmap_sem);
452 : 3 : core_state = mm->core_state;
453 : 3 : if (core_state) {
454 : : struct core_thread self;
455 : :
456 : 0 : up_read(&mm->mmap_sem);
457 : :
458 : 0 : self.task = current;
459 : 0 : self.next = xchg(&core_state->dumper.next, &self);
460 : : /*
461 : : * Implies mb(), the result of xchg() must be visible
462 : : * to core_state->dumper.
463 : : */
464 : 0 : if (atomic_dec_and_test(&core_state->nr_threads))
465 : 0 : complete(&core_state->startup);
466 : :
467 : : for (;;) {
468 : 0 : set_current_state(TASK_UNINTERRUPTIBLE);
469 : 0 : if (!self.task) /* see coredump_finish() */
470 : : break;
471 : 0 : freezable_schedule();
472 : 0 : }
473 : 0 : __set_current_state(TASK_RUNNING);
474 : 0 : down_read(&mm->mmap_sem);
475 : : }
476 : : mmgrab(mm);
477 : 3 : BUG_ON(mm != current->active_mm);
478 : : /* more a memory barrier than a real lock */
479 : : task_lock(current);
480 : 3 : current->mm = NULL;
481 : 3 : up_read(&mm->mmap_sem);
482 : : enter_lazy_tlb(mm, current);
483 : 3 : task_unlock(current);
484 : 3 : mm_update_next_owner(mm);
485 : 3 : mmput(mm);
486 : 3 : if (test_thread_flag(TIF_MEMDIE))
487 : 0 : exit_oom_victim();
488 : : }
489 : :
490 : : static struct task_struct *find_alive_thread(struct task_struct *p)
491 : : {
492 : : struct task_struct *t;
493 : :
494 : 3 : for_each_thread(p, t) {
495 : 3 : if (!(t->flags & PF_EXITING))
496 : 3 : return t;
497 : : }
498 : : return NULL;
499 : : }
500 : :
501 : 3 : static struct task_struct *find_child_reaper(struct task_struct *father,
502 : : struct list_head *dead)
503 : : __releases(&tasklist_lock)
504 : : __acquires(&tasklist_lock)
505 : : {
506 : 3 : struct pid_namespace *pid_ns = task_active_pid_ns(father);
507 : 3 : struct task_struct *reaper = pid_ns->child_reaper;
508 : : struct task_struct *p, *n;
509 : :
510 : 3 : if (likely(reaper != father))
511 : : return reaper;
512 : :
513 : : reaper = find_alive_thread(father);
514 : 0 : if (reaper) {
515 : 0 : pid_ns->child_reaper = reaper;
516 : 0 : return reaper;
517 : : }
518 : :
519 : 0 : write_unlock_irq(&tasklist_lock);
520 : :
521 : 0 : list_for_each_entry_safe(p, n, dead, ptrace_entry) {
522 : : list_del_init(&p->ptrace_entry);
523 : 0 : release_task(p);
524 : : }
525 : :
526 : 0 : zap_pid_ns_processes(pid_ns);
527 : 0 : write_lock_irq(&tasklist_lock);
528 : :
529 : 0 : return father;
530 : : }
531 : :
532 : : /*
533 : : * When we die, we re-parent all our children, and try to:
534 : : * 1. give them to another thread in our thread group, if such a member exists
535 : : * 2. give it to the first ancestor process which prctl'd itself as a
536 : : * child_subreaper for its children (like a service manager)
537 : : * 3. give it to the init process (PID 1) in our pid namespace
538 : : */
539 : 3 : static struct task_struct *find_new_reaper(struct task_struct *father,
540 : : struct task_struct *child_reaper)
541 : : {
542 : : struct task_struct *thread, *reaper;
543 : :
544 : : thread = find_alive_thread(father);
545 : 3 : if (thread)
546 : : return thread;
547 : :
548 : 3 : if (father->signal->has_child_subreaper) {
549 : 3 : unsigned int ns_level = task_pid(father)->level;
550 : : /*
551 : : * Find the first ->is_child_subreaper ancestor in our pid_ns.
552 : : * We can't check reaper != child_reaper to ensure we do not
553 : : * cross the namespaces, the exiting parent could be injected
554 : : * by setns() + fork().
555 : : * We check pid->level, this is slightly more efficient than
556 : : * task_active_pid_ns(reaper) != task_active_pid_ns(father).
557 : : */
558 : 3 : for (reaper = father->real_parent;
559 : 3 : task_pid(reaper)->level == ns_level;
560 : 3 : reaper = reaper->real_parent) {
561 : 3 : if (reaper == &init_task)
562 : : break;
563 : 3 : if (!reaper->signal->is_child_subreaper)
564 : 3 : continue;
565 : : thread = find_alive_thread(reaper);
566 : 3 : if (thread)
567 : 3 : return thread;
568 : : }
569 : : }
570 : :
571 : 3 : return child_reaper;
572 : : }
573 : :
574 : : /*
575 : : * Any that need to be release_task'd are put on the @dead list.
576 : : */
577 : 3 : static void reparent_leader(struct task_struct *father, struct task_struct *p,
578 : : struct list_head *dead)
579 : : {
580 : 3 : if (unlikely(p->exit_state == EXIT_DEAD))
581 : 3 : return;
582 : :
583 : : /* We don't want people slaying init. */
584 : 3 : p->exit_signal = SIGCHLD;
585 : :
586 : : /* If it has exited notify the new parent about this child's death. */
587 : 3 : if (!p->ptrace &&
588 : 0 : p->exit_state == EXIT_ZOMBIE && thread_group_empty(p)) {
589 : 0 : if (do_notify_parent(p, p->exit_signal)) {
590 : 0 : p->exit_state = EXIT_DEAD;
591 : 0 : list_add(&p->ptrace_entry, dead);
592 : : }
593 : : }
594 : :
595 : 3 : kill_orphaned_pgrp(p, father);
596 : : }
597 : :
598 : : /*
599 : : * This does two things:
600 : : *
601 : : * A. Make init inherit all the child processes
602 : : * B. Check to see if any process groups have become orphaned
603 : : * as a result of our exiting, and if they have any stopped
604 : : * jobs, send them a SIGHUP and then a SIGCONT. (POSIX 3.2.2.2)
605 : : */
606 : 3 : static void forget_original_parent(struct task_struct *father,
607 : : struct list_head *dead)
608 : : {
609 : : struct task_struct *p, *t, *reaper;
610 : :
611 : 3 : if (unlikely(!list_empty(&father->ptraced)))
612 : 0 : exit_ptrace(father, dead);
613 : :
614 : : /* Can drop and reacquire tasklist_lock */
615 : 3 : reaper = find_child_reaper(father, dead);
616 : 3 : if (list_empty(&father->children))
617 : 3 : return;
618 : :
619 : 3 : reaper = find_new_reaper(father, reaper);
620 : 3 : list_for_each_entry(p, &father->children, sibling) {
621 : 3 : for_each_thread(p, t) {
622 : 3 : t->real_parent = reaper;
623 : 3 : BUG_ON((!t->ptrace) != (t->parent == father));
624 : 3 : if (likely(!t->ptrace))
625 : 3 : t->parent = t->real_parent;
626 : 3 : if (t->pdeath_signal)
627 : 0 : group_send_sig_info(t->pdeath_signal,
628 : : SEND_SIG_NOINFO, t,
629 : : PIDTYPE_TGID);
630 : : }
631 : : /*
632 : : * If this is a threaded reparent there is no need to
633 : : * notify anyone anything has happened.
634 : : */
635 : 3 : if (!same_thread_group(reaper, father))
636 : 3 : reparent_leader(father, p, dead);
637 : : }
638 : 3 : list_splice_tail_init(&father->children, &reaper->children);
639 : : }
640 : :
641 : : /*
642 : : * Send signals to all our closest relatives so that they know
643 : : * to properly mourn us..
644 : : */
645 : 3 : static void exit_notify(struct task_struct *tsk, int group_dead)
646 : : {
647 : : bool autoreap;
648 : : struct task_struct *p, *n;
649 : 3 : LIST_HEAD(dead);
650 : :
651 : 3 : write_lock_irq(&tasklist_lock);
652 : 3 : forget_original_parent(tsk, &dead);
653 : :
654 : 3 : if (group_dead)
655 : 3 : kill_orphaned_pgrp(tsk->group_leader, NULL);
656 : :
657 : 3 : tsk->exit_state = EXIT_ZOMBIE;
658 : 3 : if (unlikely(tsk->ptrace)) {
659 : 0 : int sig = thread_group_leader(tsk) &&
660 : 0 : thread_group_empty(tsk) &&
661 : : !ptrace_reparented(tsk) ?
662 : 0 : tsk->exit_signal : SIGCHLD;
663 : 0 : autoreap = do_notify_parent(tsk, sig);
664 : 3 : } else if (thread_group_leader(tsk)) {
665 : 3 : autoreap = thread_group_empty(tsk) &&
666 : 3 : do_notify_parent(tsk, tsk->exit_signal);
667 : : } else {
668 : : autoreap = true;
669 : : }
670 : :
671 : 3 : if (autoreap) {
672 : 3 : tsk->exit_state = EXIT_DEAD;
673 : 3 : list_add(&tsk->ptrace_entry, &dead);
674 : : }
675 : :
676 : : /* mt-exec, de_thread() is waiting for group leader */
677 : 3 : if (unlikely(tsk->signal->notify_count < 0))
678 : 0 : wake_up_process(tsk->signal->group_exit_task);
679 : 3 : write_unlock_irq(&tasklist_lock);
680 : :
681 : 3 : list_for_each_entry_safe(p, n, &dead, ptrace_entry) {
682 : : list_del_init(&p->ptrace_entry);
683 : 3 : release_task(p);
684 : : }
685 : 3 : }
686 : :
687 : : #ifdef CONFIG_DEBUG_STACK_USAGE
688 : : static void check_stack_usage(void)
689 : : {
690 : : static DEFINE_SPINLOCK(low_water_lock);
691 : : static int lowest_to_date = THREAD_SIZE;
692 : : unsigned long free;
693 : :
694 : : free = stack_not_used(current);
695 : :
696 : : if (free >= lowest_to_date)
697 : : return;
698 : :
699 : : spin_lock(&low_water_lock);
700 : : if (free < lowest_to_date) {
701 : : pr_info("%s (%d) used greatest stack depth: %lu bytes left\n",
702 : : current->comm, task_pid_nr(current), free);
703 : : lowest_to_date = free;
704 : : }
705 : : spin_unlock(&low_water_lock);
706 : : }
707 : : #else
708 : : static inline void check_stack_usage(void) {}
709 : : #endif
710 : :
711 : 3 : void __noreturn do_exit(long code)
712 : : {
713 : 3 : struct task_struct *tsk = current;
714 : : int group_dead;
715 : :
716 : : /*
717 : : * We can get here from a kernel oops, sometimes with preemption off.
718 : : * Start by checking for critical errors.
719 : : * Then fix up important state like USER_DS and preemption.
720 : : * Then do everything else.
721 : : */
722 : :
723 : 3 : WARN_ON(blk_needs_flush_plug(tsk));
724 : :
725 : 3 : if (unlikely(in_interrupt()))
726 : 0 : panic("Aiee, killing interrupt handler!");
727 : 3 : if (unlikely(!tsk->pid))
728 : 0 : panic("Attempted to kill the idle task!");
729 : :
730 : : /*
731 : : * If do_exit is called because this processes oopsed, it's possible
732 : : * that get_fs() was left as KERNEL_DS, so reset it to USER_DS before
733 : : * continuing. Amongst other possible reasons, this is to prevent
734 : : * mm_release()->clear_child_tid() from writing to a user-controlled
735 : : * kernel address.
736 : : */
737 : : set_fs(USER_DS);
738 : :
739 : 3 : if (unlikely(in_atomic())) {
740 : 0 : pr_info("note: %s[%d] exited with preempt_count %d\n",
741 : : current->comm, task_pid_nr(current),
742 : : preempt_count());
743 : : preempt_count_set(PREEMPT_ENABLED);
744 : : }
745 : :
746 : 3 : profile_task_exit(tsk);
747 : : kcov_task_exit(tsk);
748 : :
749 : 3 : ptrace_event(PTRACE_EVENT_EXIT, code);
750 : :
751 : : validate_creds_for_do_exit(tsk);
752 : :
753 : : /*
754 : : * We're taking recursive faults here in do_exit. Safest is to just
755 : : * leave this task alone and wait for reboot.
756 : : */
757 : 3 : if (unlikely(tsk->flags & PF_EXITING)) {
758 : 0 : pr_alert("Fixing recursive fault but reboot is needed!\n");
759 : 0 : futex_exit_recursive(tsk);
760 : 0 : set_current_state(TASK_UNINTERRUPTIBLE);
761 : 0 : schedule();
762 : : }
763 : :
764 : 3 : exit_signals(tsk); /* sets PF_EXITING */
765 : :
766 : : /* sync mm's RSS info before statistics gathering */
767 : 3 : if (tsk->mm)
768 : 3 : sync_mm_rss(tsk->mm);
769 : 3 : acct_update_integrals(tsk);
770 : 3 : group_dead = atomic_dec_and_test(&tsk->signal->live);
771 : 3 : if (group_dead) {
772 : : /*
773 : : * If the last thread of global init has exited, panic
774 : : * immediately to get a useable coredump.
775 : : */
776 : 3 : if (unlikely(is_global_init(tsk)))
777 : 0 : panic("Attempted to kill init! exitcode=0x%08x\n",
778 : 0 : tsk->signal->group_exit_code ?: (int)code);
779 : :
780 : : #ifdef CONFIG_POSIX_TIMERS
781 : 3 : hrtimer_cancel(&tsk->signal->real_timer);
782 : 3 : exit_itimers(tsk->signal);
783 : : #endif
784 : 3 : if (tsk->mm)
785 : 3 : setmax_mm_hiwater_rss(&tsk->signal->maxrss, tsk->mm);
786 : : }
787 : 3 : acct_collect(code, group_dead);
788 : 3 : if (group_dead)
789 : 3 : tty_audit_exit();
790 : : audit_free(tsk);
791 : :
792 : 3 : tsk->exit_code = code;
793 : 3 : taskstats_exit(tsk, group_dead);
794 : :
795 : 3 : exit_mm();
796 : :
797 : 3 : if (group_dead)
798 : 3 : acct_process();
799 : 3 : trace_sched_process_exit(tsk);
800 : :
801 : 3 : exit_sem(tsk);
802 : 3 : exit_shm(tsk);
803 : 3 : exit_files(tsk);
804 : 3 : exit_fs(tsk);
805 : 3 : if (group_dead)
806 : 3 : disassociate_ctty(1);
807 : 3 : exit_task_namespaces(tsk);
808 : : exit_task_work(tsk);
809 : 3 : exit_thread(tsk);
810 : : exit_umh(tsk);
811 : :
812 : : /*
813 : : * Flush inherited counters to the parent - before the parent
814 : : * gets woken up by child-exit notifications.
815 : : *
816 : : * because of cgroup mode, must be called before cgroup_exit()
817 : : */
818 : 3 : perf_event_exit_task(tsk);
819 : :
820 : 3 : sched_autogroup_exit_task(tsk);
821 : 3 : cgroup_exit(tsk);
822 : :
823 : : /*
824 : : * FIXME: do that only when needed, using sched_exit tracepoint
825 : : */
826 : 3 : flush_ptrace_hw_breakpoint(tsk);
827 : :
828 : : exit_tasks_rcu_start();
829 : 3 : exit_notify(tsk, group_dead);
830 : : proc_exit_connector(tsk);
831 : : mpol_put_task_policy(tsk);
832 : : #ifdef CONFIG_FUTEX
833 : 3 : if (unlikely(current->pi_state_cache))
834 : 0 : kfree(current->pi_state_cache);
835 : : #endif
836 : : /*
837 : : * Make sure we are holding no locks:
838 : : */
839 : : debug_check_no_locks_held();
840 : :
841 : 3 : if (tsk->io_context)
842 : 3 : exit_io_context(tsk);
843 : :
844 : 3 : if (tsk->splice_pipe)
845 : 0 : free_pipe_info(tsk->splice_pipe);
846 : :
847 : 3 : if (tsk->task_frag.page)
848 : 0 : put_page(tsk->task_frag.page);
849 : :
850 : : validate_creds_for_do_exit(tsk);
851 : :
852 : : check_stack_usage();
853 : 3 : preempt_disable();
854 : 3 : if (tsk->nr_dirtied)
855 : 3 : __this_cpu_add(dirty_throttle_leaks, tsk->nr_dirtied);
856 : 3 : exit_rcu();
857 : : exit_tasks_rcu_finish();
858 : :
859 : : lockdep_free_task(tsk);
860 : 3 : do_task_dead();
861 : : }
862 : : EXPORT_SYMBOL_GPL(do_exit);
863 : :
864 : 0 : void complete_and_exit(struct completion *comp, long code)
865 : : {
866 : 0 : if (comp)
867 : 0 : complete(comp);
868 : :
869 : 0 : do_exit(code);
870 : : }
871 : : EXPORT_SYMBOL(complete_and_exit);
872 : :
873 : 3 : SYSCALL_DEFINE1(exit, int, error_code)
874 : : {
875 : 3 : do_exit((error_code&0xff)<<8);
876 : : }
877 : :
878 : : /*
879 : : * Take down every thread in the group. This is called by fatal signals
880 : : * as well as by sys_exit_group (below).
881 : : */
882 : : void
883 : 3 : do_group_exit(int exit_code)
884 : : {
885 : 3 : struct signal_struct *sig = current->signal;
886 : :
887 : 3 : BUG_ON(exit_code & 0x80); /* core dumps don't get here */
888 : :
889 : 3 : if (signal_group_exit(sig))
890 : 3 : exit_code = sig->group_exit_code;
891 : 3 : else if (!thread_group_empty(current)) {
892 : 3 : struct sighand_struct *const sighand = current->sighand;
893 : :
894 : : spin_lock_irq(&sighand->siglock);
895 : 3 : if (signal_group_exit(sig))
896 : : /* Another thread got here before we took the lock. */
897 : 0 : exit_code = sig->group_exit_code;
898 : : else {
899 : 3 : sig->group_exit_code = exit_code;
900 : 3 : sig->flags = SIGNAL_GROUP_EXIT;
901 : 3 : zap_other_threads(current);
902 : : }
903 : : spin_unlock_irq(&sighand->siglock);
904 : : }
905 : :
906 : 3 : do_exit(exit_code);
907 : : /* NOTREACHED */
908 : : }
909 : :
910 : : /*
911 : : * this kills every thread in the thread group. Note that any externally
912 : : * wait4()-ing process will get the correct exit code - even if this
913 : : * thread is not the thread group leader.
914 : : */
915 : 3 : SYSCALL_DEFINE1(exit_group, int, error_code)
916 : : {
917 : 3 : do_group_exit((error_code & 0xff) << 8);
918 : : /* NOTREACHED */
919 : : return 0;
920 : : }
921 : :
922 : : struct waitid_info {
923 : : pid_t pid;
924 : : uid_t uid;
925 : : int status;
926 : : int cause;
927 : : };
928 : :
929 : : struct wait_opts {
930 : : enum pid_type wo_type;
931 : : int wo_flags;
932 : : struct pid *wo_pid;
933 : :
934 : : struct waitid_info *wo_info;
935 : : int wo_stat;
936 : : struct rusage *wo_rusage;
937 : :
938 : : wait_queue_entry_t child_wait;
939 : : int notask_error;
940 : : };
941 : :
942 : : static int eligible_pid(struct wait_opts *wo, struct task_struct *p)
943 : : {
944 : 3 : return wo->wo_type == PIDTYPE_MAX ||
945 : 3 : task_pid_type(p, wo->wo_type) == wo->wo_pid;
946 : : }
947 : :
948 : : static int
949 : 3 : eligible_child(struct wait_opts *wo, bool ptrace, struct task_struct *p)
950 : : {
951 : 3 : if (!eligible_pid(wo, p))
952 : : return 0;
953 : :
954 : : /*
955 : : * Wait for all children (clone and not) if __WALL is set or
956 : : * if it is traced by us.
957 : : */
958 : 3 : if (ptrace || (wo->wo_flags & __WALL))
959 : : return 1;
960 : :
961 : : /*
962 : : * Otherwise, wait for clone children *only* if __WCLONE is set;
963 : : * otherwise, wait for non-clone children *only*.
964 : : *
965 : : * Note: a "clone" child here is one that reports to its parent
966 : : * using a signal other than SIGCHLD, or a non-leader thread which
967 : : * we can only see if it is traced by us.
968 : : */
969 : 3 : if ((p->exit_signal != SIGCHLD) ^ !!(wo->wo_flags & __WCLONE))
970 : : return 0;
971 : :
972 : 3 : return 1;
973 : : }
974 : :
975 : : /*
976 : : * Handle sys_wait4 work for one task in state EXIT_ZOMBIE. We hold
977 : : * read_lock(&tasklist_lock) on entry. If we return zero, we still hold
978 : : * the lock and this task is uninteresting. If we return nonzero, we have
979 : : * released the lock and the system call should return.
980 : : */
981 : 3 : static int wait_task_zombie(struct wait_opts *wo, struct task_struct *p)
982 : : {
983 : : int state, status;
984 : : pid_t pid = task_pid_vnr(p);
985 : 3 : uid_t uid = from_kuid_munged(current_user_ns(), task_uid(p));
986 : : struct waitid_info *infop;
987 : :
988 : 3 : if (!likely(wo->wo_flags & WEXITED))
989 : : return 0;
990 : :
991 : 3 : if (unlikely(wo->wo_flags & WNOWAIT)) {
992 : 3 : status = p->exit_code;
993 : : get_task_struct(p);
994 : : read_unlock(&tasklist_lock);
995 : : sched_annotate_sleep();
996 : 3 : if (wo->wo_rusage)
997 : 0 : getrusage(p, RUSAGE_BOTH, wo->wo_rusage);
998 : 3 : put_task_struct(p);
999 : 3 : goto out_info;
1000 : : }
1001 : : /*
1002 : : * Move the task's state to DEAD/TRACE, only one thread can do this.
1003 : : */
1004 : 0 : state = (ptrace_reparented(p) && thread_group_leader(p)) ?
1005 : 3 : EXIT_TRACE : EXIT_DEAD;
1006 : 3 : if (cmpxchg(&p->exit_state, EXIT_ZOMBIE, state) != EXIT_ZOMBIE)
1007 : : return 0;
1008 : : /*
1009 : : * We own this thread, nobody else can reap it.
1010 : : */
1011 : : read_unlock(&tasklist_lock);
1012 : : sched_annotate_sleep();
1013 : :
1014 : : /*
1015 : : * Check thread_group_leader() to exclude the traced sub-threads.
1016 : : */
1017 : 3 : if (state == EXIT_DEAD && thread_group_leader(p)) {
1018 : 3 : struct signal_struct *sig = p->signal;
1019 : 3 : struct signal_struct *psig = current->signal;
1020 : : unsigned long maxrss;
1021 : : u64 tgutime, tgstime;
1022 : :
1023 : : /*
1024 : : * The resource counters for the group leader are in its
1025 : : * own task_struct. Those for dead threads in the group
1026 : : * are in its signal_struct, as are those for the child
1027 : : * processes it has previously reaped. All these
1028 : : * accumulate in the parent's signal_struct c* fields.
1029 : : *
1030 : : * We don't bother to take a lock here to protect these
1031 : : * p->signal fields because the whole thread group is dead
1032 : : * and nobody can change them.
1033 : : *
1034 : : * psig->stats_lock also protects us from our sub-theads
1035 : : * which can reap other children at the same time. Until
1036 : : * we change k_getrusage()-like users to rely on this lock
1037 : : * we have to take ->siglock as well.
1038 : : *
1039 : : * We use thread_group_cputime_adjusted() to get times for
1040 : : * the thread group, which consolidates times for all threads
1041 : : * in the group including the group leader.
1042 : : */
1043 : 3 : thread_group_cputime_adjusted(p, &tgutime, &tgstime);
1044 : 3 : spin_lock_irq(¤t->sighand->siglock);
1045 : : write_seqlock(&psig->stats_lock);
1046 : 3 : psig->cutime += tgutime + sig->cutime;
1047 : 3 : psig->cstime += tgstime + sig->cstime;
1048 : 3 : psig->cgtime += task_gtime(p) + sig->gtime + sig->cgtime;
1049 : 3 : psig->cmin_flt +=
1050 : 3 : p->min_flt + sig->min_flt + sig->cmin_flt;
1051 : 3 : psig->cmaj_flt +=
1052 : 3 : p->maj_flt + sig->maj_flt + sig->cmaj_flt;
1053 : 3 : psig->cnvcsw +=
1054 : 3 : p->nvcsw + sig->nvcsw + sig->cnvcsw;
1055 : 3 : psig->cnivcsw +=
1056 : 3 : p->nivcsw + sig->nivcsw + sig->cnivcsw;
1057 : 3 : psig->cinblock +=
1058 : 3 : task_io_get_inblock(p) +
1059 : 3 : sig->inblock + sig->cinblock;
1060 : 3 : psig->coublock +=
1061 : 3 : task_io_get_oublock(p) +
1062 : 3 : sig->oublock + sig->coublock;
1063 : 3 : maxrss = max(sig->maxrss, sig->cmaxrss);
1064 : 3 : if (psig->cmaxrss < maxrss)
1065 : 3 : psig->cmaxrss = maxrss;
1066 : 3 : task_io_accounting_add(&psig->ioac, &p->ioac);
1067 : 3 : task_io_accounting_add(&psig->ioac, &sig->ioac);
1068 : : write_sequnlock(&psig->stats_lock);
1069 : 3 : spin_unlock_irq(¤t->sighand->siglock);
1070 : : }
1071 : :
1072 : 3 : if (wo->wo_rusage)
1073 : 3 : getrusage(p, RUSAGE_BOTH, wo->wo_rusage);
1074 : 3 : status = (p->signal->flags & SIGNAL_GROUP_EXIT)
1075 : 3 : ? p->signal->group_exit_code : p->exit_code;
1076 : 3 : wo->wo_stat = status;
1077 : :
1078 : 3 : if (state == EXIT_TRACE) {
1079 : 0 : write_lock_irq(&tasklist_lock);
1080 : : /* We dropped tasklist, ptracer could die and untrace */
1081 : : ptrace_unlink(p);
1082 : :
1083 : : /* If parent wants a zombie, don't release it now */
1084 : : state = EXIT_ZOMBIE;
1085 : 0 : if (do_notify_parent(p, p->exit_signal))
1086 : : state = EXIT_DEAD;
1087 : 0 : p->exit_state = state;
1088 : 0 : write_unlock_irq(&tasklist_lock);
1089 : : }
1090 : 3 : if (state == EXIT_DEAD)
1091 : 3 : release_task(p);
1092 : :
1093 : : out_info:
1094 : 3 : infop = wo->wo_info;
1095 : 3 : if (infop) {
1096 : 3 : if ((status & 0x7f) == 0) {
1097 : 3 : infop->cause = CLD_EXITED;
1098 : 3 : infop->status = status >> 8;
1099 : : } else {
1100 : 0 : infop->cause = (status & 0x80) ? CLD_DUMPED : CLD_KILLED;
1101 : 0 : infop->status = status & 0x7f;
1102 : : }
1103 : 3 : infop->pid = pid;
1104 : 3 : infop->uid = uid;
1105 : : }
1106 : :
1107 : 3 : return pid;
1108 : : }
1109 : :
1110 : : static int *task_stopped_code(struct task_struct *p, bool ptrace)
1111 : : {
1112 : 1 : if (ptrace) {
1113 : 0 : if (task_is_traced(p) && !(p->jobctl & JOBCTL_LISTENING))
1114 : 0 : return &p->exit_code;
1115 : : } else {
1116 : 1 : if (p->signal->flags & SIGNAL_STOP_STOPPED)
1117 : 0 : return &p->signal->group_exit_code;
1118 : : }
1119 : : return NULL;
1120 : : }
1121 : :
1122 : : /**
1123 : : * wait_task_stopped - Wait for %TASK_STOPPED or %TASK_TRACED
1124 : : * @wo: wait options
1125 : : * @ptrace: is the wait for ptrace
1126 : : * @p: task to wait for
1127 : : *
1128 : : * Handle sys_wait4() work for %p in state %TASK_STOPPED or %TASK_TRACED.
1129 : : *
1130 : : * CONTEXT:
1131 : : * read_lock(&tasklist_lock), which is released if return value is
1132 : : * non-zero. Also, grabs and releases @p->sighand->siglock.
1133 : : *
1134 : : * RETURNS:
1135 : : * 0 if wait condition didn't exist and search for other wait conditions
1136 : : * should continue. Non-zero return, -errno on failure and @p's pid on
1137 : : * success, implies that tasklist_lock is released and wait condition
1138 : : * search should terminate.
1139 : : */
1140 : 3 : static int wait_task_stopped(struct wait_opts *wo,
1141 : : int ptrace, struct task_struct *p)
1142 : : {
1143 : : struct waitid_info *infop;
1144 : : int exit_code, *p_code, why;
1145 : : uid_t uid = 0; /* unneeded, required by compiler */
1146 : : pid_t pid;
1147 : :
1148 : : /*
1149 : : * Traditionally we see ptrace'd stopped tasks regardless of options.
1150 : : */
1151 : 3 : if (!ptrace && !(wo->wo_flags & WUNTRACED))
1152 : : return 0;
1153 : :
1154 : 1 : if (!task_stopped_code(p, ptrace))
1155 : : return 0;
1156 : :
1157 : : exit_code = 0;
1158 : 0 : spin_lock_irq(&p->sighand->siglock);
1159 : :
1160 : : p_code = task_stopped_code(p, ptrace);
1161 : 0 : if (unlikely(!p_code))
1162 : : goto unlock_sig;
1163 : :
1164 : 0 : exit_code = *p_code;
1165 : 0 : if (!exit_code)
1166 : : goto unlock_sig;
1167 : :
1168 : 0 : if (!unlikely(wo->wo_flags & WNOWAIT))
1169 : 0 : *p_code = 0;
1170 : :
1171 : 0 : uid = from_kuid_munged(current_user_ns(), task_uid(p));
1172 : : unlock_sig:
1173 : 0 : spin_unlock_irq(&p->sighand->siglock);
1174 : 0 : if (!exit_code)
1175 : : return 0;
1176 : :
1177 : : /*
1178 : : * Now we are pretty sure this task is interesting.
1179 : : * Make sure it doesn't get reaped out from under us while we
1180 : : * give up the lock and then examine it below. We don't want to
1181 : : * keep holding onto the tasklist_lock while we call getrusage and
1182 : : * possibly take page faults for user memory.
1183 : : */
1184 : : get_task_struct(p);
1185 : : pid = task_pid_vnr(p);
1186 : 0 : why = ptrace ? CLD_TRAPPED : CLD_STOPPED;
1187 : : read_unlock(&tasklist_lock);
1188 : : sched_annotate_sleep();
1189 : 0 : if (wo->wo_rusage)
1190 : 0 : getrusage(p, RUSAGE_BOTH, wo->wo_rusage);
1191 : 0 : put_task_struct(p);
1192 : :
1193 : 0 : if (likely(!(wo->wo_flags & WNOWAIT)))
1194 : 0 : wo->wo_stat = (exit_code << 8) | 0x7f;
1195 : :
1196 : 0 : infop = wo->wo_info;
1197 : 0 : if (infop) {
1198 : 0 : infop->cause = why;
1199 : 0 : infop->status = exit_code;
1200 : 0 : infop->pid = pid;
1201 : 0 : infop->uid = uid;
1202 : : }
1203 : 0 : return pid;
1204 : : }
1205 : :
1206 : : /*
1207 : : * Handle do_wait work for one task in a live, non-stopped state.
1208 : : * read_lock(&tasklist_lock) on entry. If we return zero, we still hold
1209 : : * the lock and this task is uninteresting. If we return nonzero, we have
1210 : : * released the lock and the system call should return.
1211 : : */
1212 : 3 : static int wait_task_continued(struct wait_opts *wo, struct task_struct *p)
1213 : : {
1214 : : struct waitid_info *infop;
1215 : : pid_t pid;
1216 : : uid_t uid;
1217 : :
1218 : 3 : if (!unlikely(wo->wo_flags & WCONTINUED))
1219 : : return 0;
1220 : :
1221 : 1 : if (!(p->signal->flags & SIGNAL_STOP_CONTINUED))
1222 : : return 0;
1223 : :
1224 : 0 : spin_lock_irq(&p->sighand->siglock);
1225 : : /* Re-check with the lock held. */
1226 : 0 : if (!(p->signal->flags & SIGNAL_STOP_CONTINUED)) {
1227 : 0 : spin_unlock_irq(&p->sighand->siglock);
1228 : 0 : return 0;
1229 : : }
1230 : 0 : if (!unlikely(wo->wo_flags & WNOWAIT))
1231 : 0 : p->signal->flags &= ~SIGNAL_STOP_CONTINUED;
1232 : 0 : uid = from_kuid_munged(current_user_ns(), task_uid(p));
1233 : 0 : spin_unlock_irq(&p->sighand->siglock);
1234 : :
1235 : : pid = task_pid_vnr(p);
1236 : : get_task_struct(p);
1237 : : read_unlock(&tasklist_lock);
1238 : : sched_annotate_sleep();
1239 : 0 : if (wo->wo_rusage)
1240 : 0 : getrusage(p, RUSAGE_BOTH, wo->wo_rusage);
1241 : 0 : put_task_struct(p);
1242 : :
1243 : 0 : infop = wo->wo_info;
1244 : 0 : if (!infop) {
1245 : 0 : wo->wo_stat = 0xffff;
1246 : : } else {
1247 : 0 : infop->cause = CLD_CONTINUED;
1248 : 0 : infop->pid = pid;
1249 : 0 : infop->uid = uid;
1250 : 0 : infop->status = SIGCONT;
1251 : : }
1252 : 0 : return pid;
1253 : : }
1254 : :
1255 : : /*
1256 : : * Consider @p for a wait by @parent.
1257 : : *
1258 : : * -ECHILD should be in ->notask_error before the first call.
1259 : : * Returns nonzero for a final return, when we have unlocked tasklist_lock.
1260 : : * Returns zero if the search for a child should continue;
1261 : : * then ->notask_error is 0 if @p is an eligible child,
1262 : : * or still -ECHILD.
1263 : : */
1264 : 3 : static int wait_consider_task(struct wait_opts *wo, int ptrace,
1265 : : struct task_struct *p)
1266 : : {
1267 : : /*
1268 : : * We can race with wait_task_zombie() from another thread.
1269 : : * Ensure that EXIT_ZOMBIE -> EXIT_DEAD/EXIT_TRACE transition
1270 : : * can't confuse the checks below.
1271 : : */
1272 : 3 : int exit_state = READ_ONCE(p->exit_state);
1273 : : int ret;
1274 : :
1275 : 3 : if (unlikely(exit_state == EXIT_DEAD))
1276 : : return 0;
1277 : :
1278 : 3 : ret = eligible_child(wo, ptrace, p);
1279 : 3 : if (!ret)
1280 : : return ret;
1281 : :
1282 : 3 : if (unlikely(exit_state == EXIT_TRACE)) {
1283 : : /*
1284 : : * ptrace == 0 means we are the natural parent. In this case
1285 : : * we should clear notask_error, debugger will notify us.
1286 : : */
1287 : 0 : if (likely(!ptrace))
1288 : 0 : wo->notask_error = 0;
1289 : : return 0;
1290 : : }
1291 : :
1292 : 3 : if (likely(!ptrace) && unlikely(p->ptrace)) {
1293 : : /*
1294 : : * If it is traced by its real parent's group, just pretend
1295 : : * the caller is ptrace_do_wait() and reap this child if it
1296 : : * is zombie.
1297 : : *
1298 : : * This also hides group stop state from real parent; otherwise
1299 : : * a single stop can be reported twice as group and ptrace stop.
1300 : : * If a ptracer wants to distinguish these two events for its
1301 : : * own children it should create a separate process which takes
1302 : : * the role of real parent.
1303 : : */
1304 : 0 : if (!ptrace_reparented(p))
1305 : : ptrace = 1;
1306 : : }
1307 : :
1308 : : /* slay zombie? */
1309 : 3 : if (exit_state == EXIT_ZOMBIE) {
1310 : : /* we don't reap group leaders with subthreads */
1311 : 3 : if (!delay_group_leader(p)) {
1312 : : /*
1313 : : * A zombie ptracee is only visible to its ptracer.
1314 : : * Notification and reaping will be cascaded to the
1315 : : * real parent when the ptracer detaches.
1316 : : */
1317 : 3 : if (unlikely(ptrace) || likely(!p->ptrace))
1318 : 3 : return wait_task_zombie(wo, p);
1319 : : }
1320 : :
1321 : : /*
1322 : : * Allow access to stopped/continued state via zombie by
1323 : : * falling through. Clearing of notask_error is complex.
1324 : : *
1325 : : * When !@ptrace:
1326 : : *
1327 : : * If WEXITED is set, notask_error should naturally be
1328 : : * cleared. If not, subset of WSTOPPED|WCONTINUED is set,
1329 : : * so, if there are live subthreads, there are events to
1330 : : * wait for. If all subthreads are dead, it's still safe
1331 : : * to clear - this function will be called again in finite
1332 : : * amount time once all the subthreads are released and
1333 : : * will then return without clearing.
1334 : : *
1335 : : * When @ptrace:
1336 : : *
1337 : : * Stopped state is per-task and thus can't change once the
1338 : : * target task dies. Only continued and exited can happen.
1339 : : * Clear notask_error if WCONTINUED | WEXITED.
1340 : : */
1341 : 0 : if (likely(!ptrace) || (wo->wo_flags & (WCONTINUED | WEXITED)))
1342 : 0 : wo->notask_error = 0;
1343 : : } else {
1344 : : /*
1345 : : * @p is alive and it's gonna stop, continue or exit, so
1346 : : * there always is something to wait for.
1347 : : */
1348 : 3 : wo->notask_error = 0;
1349 : : }
1350 : :
1351 : : /*
1352 : : * Wait for stopped. Depending on @ptrace, different stopped state
1353 : : * is used and the two don't interact with each other.
1354 : : */
1355 : 3 : ret = wait_task_stopped(wo, ptrace, p);
1356 : 3 : if (ret)
1357 : : return ret;
1358 : :
1359 : : /*
1360 : : * Wait for continued. There's only one continued state and the
1361 : : * ptracer can consume it which can confuse the real parent. Don't
1362 : : * use WCONTINUED from ptracer. You don't need or want it.
1363 : : */
1364 : 3 : return wait_task_continued(wo, p);
1365 : : }
1366 : :
1367 : : /*
1368 : : * Do the work of do_wait() for one thread in the group, @tsk.
1369 : : *
1370 : : * -ECHILD should be in ->notask_error before the first call.
1371 : : * Returns nonzero for a final return, when we have unlocked tasklist_lock.
1372 : : * Returns zero if the search for a child should continue; then
1373 : : * ->notask_error is 0 if there were any eligible children,
1374 : : * or still -ECHILD.
1375 : : */
1376 : 3 : static int do_wait_thread(struct wait_opts *wo, struct task_struct *tsk)
1377 : : {
1378 : : struct task_struct *p;
1379 : :
1380 : 3 : list_for_each_entry(p, &tsk->children, sibling) {
1381 : 3 : int ret = wait_consider_task(wo, 0, p);
1382 : :
1383 : 3 : if (ret)
1384 : 3 : return ret;
1385 : : }
1386 : :
1387 : : return 0;
1388 : : }
1389 : :
1390 : 3 : static int ptrace_do_wait(struct wait_opts *wo, struct task_struct *tsk)
1391 : : {
1392 : : struct task_struct *p;
1393 : :
1394 : 3 : list_for_each_entry(p, &tsk->ptraced, ptrace_entry) {
1395 : 0 : int ret = wait_consider_task(wo, 1, p);
1396 : :
1397 : 0 : if (ret)
1398 : 0 : return ret;
1399 : : }
1400 : :
1401 : : return 0;
1402 : : }
1403 : :
1404 : 3 : static int child_wait_callback(wait_queue_entry_t *wait, unsigned mode,
1405 : : int sync, void *key)
1406 : : {
1407 : : struct wait_opts *wo = container_of(wait, struct wait_opts,
1408 : : child_wait);
1409 : : struct task_struct *p = key;
1410 : :
1411 : 3 : if (!eligible_pid(wo, p))
1412 : : return 0;
1413 : :
1414 : 3 : if ((wo->wo_flags & __WNOTHREAD) && wait->private != p->parent)
1415 : : return 0;
1416 : :
1417 : 3 : return default_wake_function(wait, mode, sync, key);
1418 : : }
1419 : :
1420 : 3 : void __wake_up_parent(struct task_struct *p, struct task_struct *parent)
1421 : : {
1422 : 3 : __wake_up_sync_key(&parent->signal->wait_chldexit,
1423 : : TASK_INTERRUPTIBLE, 1, p);
1424 : 3 : }
1425 : :
1426 : 3 : static long do_wait(struct wait_opts *wo)
1427 : : {
1428 : : struct task_struct *tsk;
1429 : : int retval;
1430 : :
1431 : 3 : trace_sched_process_wait(wo->wo_pid);
1432 : :
1433 : : init_waitqueue_func_entry(&wo->child_wait, child_wait_callback);
1434 : 3 : wo->child_wait.private = current;
1435 : 3 : add_wait_queue(¤t->signal->wait_chldexit, &wo->child_wait);
1436 : : repeat:
1437 : : /*
1438 : : * If there is nothing that can match our criteria, just get out.
1439 : : * We will clear ->notask_error to zero if we see any child that
1440 : : * might later match our criteria, even if we are not able to reap
1441 : : * it yet.
1442 : : */
1443 : 3 : wo->notask_error = -ECHILD;
1444 : 3 : if ((wo->wo_type < PIDTYPE_MAX) &&
1445 : 3 : (!wo->wo_pid || hlist_empty(&wo->wo_pid->tasks[wo->wo_type])))
1446 : : goto notask;
1447 : :
1448 : 3 : set_current_state(TASK_INTERRUPTIBLE);
1449 : 3 : read_lock(&tasklist_lock);
1450 : 3 : tsk = current;
1451 : : do {
1452 : 3 : retval = do_wait_thread(wo, tsk);
1453 : 3 : if (retval)
1454 : : goto end;
1455 : :
1456 : 3 : retval = ptrace_do_wait(wo, tsk);
1457 : 3 : if (retval)
1458 : : goto end;
1459 : :
1460 : 3 : if (wo->wo_flags & __WNOTHREAD)
1461 : : break;
1462 : 3 : } while_each_thread(current, tsk);
1463 : : read_unlock(&tasklist_lock);
1464 : :
1465 : : notask:
1466 : 3 : retval = wo->notask_error;
1467 : 3 : if (!retval && !(wo->wo_flags & WNOHANG)) {
1468 : : retval = -ERESTARTSYS;
1469 : 3 : if (!signal_pending(current)) {
1470 : 3 : schedule();
1471 : 3 : goto repeat;
1472 : : }
1473 : : }
1474 : : end:
1475 : 3 : __set_current_state(TASK_RUNNING);
1476 : 3 : remove_wait_queue(¤t->signal->wait_chldexit, &wo->child_wait);
1477 : 3 : return retval;
1478 : : }
1479 : :
1480 : 0 : static struct pid *pidfd_get_pid(unsigned int fd)
1481 : : {
1482 : : struct fd f;
1483 : : struct pid *pid;
1484 : :
1485 : : f = fdget(fd);
1486 : 0 : if (!f.file)
1487 : : return ERR_PTR(-EBADF);
1488 : :
1489 : 0 : pid = pidfd_pid(f.file);
1490 : 0 : if (!IS_ERR(pid))
1491 : : get_pid(pid);
1492 : :
1493 : : fdput(f);
1494 : 0 : return pid;
1495 : : }
1496 : :
1497 : 3 : static long kernel_waitid(int which, pid_t upid, struct waitid_info *infop,
1498 : : int options, struct rusage *ru)
1499 : : {
1500 : : struct wait_opts wo;
1501 : : struct pid *pid = NULL;
1502 : : enum pid_type type;
1503 : : long ret;
1504 : :
1505 : 3 : if (options & ~(WNOHANG|WNOWAIT|WEXITED|WSTOPPED|WCONTINUED|
1506 : : __WNOTHREAD|__WCLONE|__WALL))
1507 : : return -EINVAL;
1508 : 3 : if (!(options & (WEXITED|WSTOPPED|WCONTINUED)))
1509 : : return -EINVAL;
1510 : :
1511 : 3 : switch (which) {
1512 : : case P_ALL:
1513 : : type = PIDTYPE_MAX;
1514 : : break;
1515 : : case P_PID:
1516 : : type = PIDTYPE_PID;
1517 : 3 : if (upid <= 0)
1518 : : return -EINVAL;
1519 : :
1520 : 3 : pid = find_get_pid(upid);
1521 : 3 : break;
1522 : : case P_PGID:
1523 : : type = PIDTYPE_PGID;
1524 : 0 : if (upid < 0)
1525 : : return -EINVAL;
1526 : :
1527 : 0 : if (upid)
1528 : 0 : pid = find_get_pid(upid);
1529 : : else
1530 : 0 : pid = get_task_pid(current, PIDTYPE_PGID);
1531 : : break;
1532 : : case P_PIDFD:
1533 : : type = PIDTYPE_PID;
1534 : 0 : if (upid < 0)
1535 : : return -EINVAL;
1536 : :
1537 : 0 : pid = pidfd_get_pid(upid);
1538 : 0 : if (IS_ERR(pid))
1539 : 0 : return PTR_ERR(pid);
1540 : : break;
1541 : : default:
1542 : : return -EINVAL;
1543 : : }
1544 : :
1545 : 3 : wo.wo_type = type;
1546 : 3 : wo.wo_pid = pid;
1547 : 3 : wo.wo_flags = options;
1548 : 3 : wo.wo_info = infop;
1549 : 3 : wo.wo_rusage = ru;
1550 : 3 : ret = do_wait(&wo);
1551 : :
1552 : 3 : put_pid(pid);
1553 : 3 : return ret;
1554 : : }
1555 : :
1556 : 3 : SYSCALL_DEFINE5(waitid, int, which, pid_t, upid, struct siginfo __user *,
1557 : : infop, int, options, struct rusage __user *, ru)
1558 : : {
1559 : : struct rusage r;
1560 : 3 : struct waitid_info info = {.status = 0};
1561 : 3 : long err = kernel_waitid(which, upid, &info, options, ru ? &r : NULL);
1562 : : int signo = 0;
1563 : :
1564 : 3 : if (err > 0) {
1565 : : signo = SIGCHLD;
1566 : : err = 0;
1567 : 3 : if (ru && copy_to_user(ru, &r, sizeof(struct rusage)))
1568 : : return -EFAULT;
1569 : : }
1570 : 3 : if (!infop)
1571 : : return err;
1572 : :
1573 : 3 : if (!user_access_begin(infop, sizeof(*infop)))
1574 : : return -EFAULT;
1575 : :
1576 : 3 : unsafe_put_user(signo, &infop->si_signo, Efault);
1577 : 3 : unsafe_put_user(0, &infop->si_errno, Efault);
1578 : 3 : unsafe_put_user(info.cause, &infop->si_code, Efault);
1579 : 3 : unsafe_put_user(info.pid, &infop->si_pid, Efault);
1580 : 3 : unsafe_put_user(info.uid, &infop->si_uid, Efault);
1581 : 3 : unsafe_put_user(info.status, &infop->si_status, Efault);
1582 : : user_access_end();
1583 : 3 : return err;
1584 : : Efault:
1585 : : user_access_end();
1586 : : return -EFAULT;
1587 : : }
1588 : :
1589 : 3 : long kernel_wait4(pid_t upid, int __user *stat_addr, int options,
1590 : : struct rusage *ru)
1591 : : {
1592 : : struct wait_opts wo;
1593 : : struct pid *pid = NULL;
1594 : : enum pid_type type;
1595 : : long ret;
1596 : :
1597 : 3 : if (options & ~(WNOHANG|WUNTRACED|WCONTINUED|
1598 : : __WNOTHREAD|__WCLONE|__WALL))
1599 : : return -EINVAL;
1600 : :
1601 : : /* -INT_MIN is not defined */
1602 : 3 : if (upid == INT_MIN)
1603 : : return -ESRCH;
1604 : :
1605 : 3 : if (upid == -1)
1606 : : type = PIDTYPE_MAX;
1607 : 3 : else if (upid < 0) {
1608 : : type = PIDTYPE_PGID;
1609 : 0 : pid = find_get_pid(-upid);
1610 : 3 : } else if (upid == 0) {
1611 : : type = PIDTYPE_PGID;
1612 : 0 : pid = get_task_pid(current, PIDTYPE_PGID);
1613 : : } else /* upid > 0 */ {
1614 : : type = PIDTYPE_PID;
1615 : 3 : pid = find_get_pid(upid);
1616 : : }
1617 : :
1618 : 3 : wo.wo_type = type;
1619 : 3 : wo.wo_pid = pid;
1620 : 3 : wo.wo_flags = options | WEXITED;
1621 : 3 : wo.wo_info = NULL;
1622 : 3 : wo.wo_stat = 0;
1623 : 3 : wo.wo_rusage = ru;
1624 : 3 : ret = do_wait(&wo);
1625 : 3 : put_pid(pid);
1626 : 3 : if (ret > 0 && stat_addr && put_user(wo.wo_stat, stat_addr))
1627 : : ret = -EFAULT;
1628 : :
1629 : 3 : return ret;
1630 : : }
1631 : :
1632 : 3 : SYSCALL_DEFINE4(wait4, pid_t, upid, int __user *, stat_addr,
1633 : : int, options, struct rusage __user *, ru)
1634 : : {
1635 : : struct rusage r;
1636 : 3 : long err = kernel_wait4(upid, stat_addr, options, ru ? &r : NULL);
1637 : :
1638 : 3 : if (err > 0) {
1639 : 3 : if (ru && copy_to_user(ru, &r, sizeof(struct rusage)))
1640 : : return -EFAULT;
1641 : : }
1642 : 3 : return err;
1643 : : }
1644 : :
1645 : : #ifdef __ARCH_WANT_SYS_WAITPID
1646 : :
1647 : : /*
1648 : : * sys_waitpid() remains for compatibility. waitpid() should be
1649 : : * implemented by calling sys_wait4() from libc.a.
1650 : : */
1651 : : SYSCALL_DEFINE3(waitpid, pid_t, pid, int __user *, stat_addr, int, options)
1652 : : {
1653 : : return kernel_wait4(pid, stat_addr, options, NULL);
1654 : : }
1655 : :
1656 : : #endif
1657 : :
1658 : : #ifdef CONFIG_COMPAT
1659 : : COMPAT_SYSCALL_DEFINE4(wait4,
1660 : : compat_pid_t, pid,
1661 : : compat_uint_t __user *, stat_addr,
1662 : : int, options,
1663 : : struct compat_rusage __user *, ru)
1664 : : {
1665 : : struct rusage r;
1666 : : long err = kernel_wait4(pid, stat_addr, options, ru ? &r : NULL);
1667 : : if (err > 0) {
1668 : : if (ru && put_compat_rusage(&r, ru))
1669 : : return -EFAULT;
1670 : : }
1671 : : return err;
1672 : : }
1673 : :
1674 : : COMPAT_SYSCALL_DEFINE5(waitid,
1675 : : int, which, compat_pid_t, pid,
1676 : : struct compat_siginfo __user *, infop, int, options,
1677 : : struct compat_rusage __user *, uru)
1678 : : {
1679 : : struct rusage ru;
1680 : : struct waitid_info info = {.status = 0};
1681 : : long err = kernel_waitid(which, pid, &info, options, uru ? &ru : NULL);
1682 : : int signo = 0;
1683 : : if (err > 0) {
1684 : : signo = SIGCHLD;
1685 : : err = 0;
1686 : : if (uru) {
1687 : : /* kernel_waitid() overwrites everything in ru */
1688 : : if (COMPAT_USE_64BIT_TIME)
1689 : : err = copy_to_user(uru, &ru, sizeof(ru));
1690 : : else
1691 : : err = put_compat_rusage(&ru, uru);
1692 : : if (err)
1693 : : return -EFAULT;
1694 : : }
1695 : : }
1696 : :
1697 : : if (!infop)
1698 : : return err;
1699 : :
1700 : : if (!user_access_begin(infop, sizeof(*infop)))
1701 : : return -EFAULT;
1702 : :
1703 : : unsafe_put_user(signo, &infop->si_signo, Efault);
1704 : : unsafe_put_user(0, &infop->si_errno, Efault);
1705 : : unsafe_put_user(info.cause, &infop->si_code, Efault);
1706 : : unsafe_put_user(info.pid, &infop->si_pid, Efault);
1707 : : unsafe_put_user(info.uid, &infop->si_uid, Efault);
1708 : : unsafe_put_user(info.status, &infop->si_status, Efault);
1709 : : user_access_end();
1710 : : return err;
1711 : : Efault:
1712 : : user_access_end();
1713 : : return -EFAULT;
1714 : : }
1715 : : #endif
1716 : :
1717 : 0 : __weak void abort(void)
1718 : : {
1719 : 0 : BUG();
1720 : :
1721 : : /* if that doesn't kill us, halt */
1722 : : panic("Oops failed to kill thread");
1723 : : }
1724 : : EXPORT_SYMBOL(abort);
|