\section{Principles and Capabilities of AR} \label{augmented_reality} The first \AR headset was invented by \textcite{sutherland1968headmounted}: With the technology available at the time, it was already capable of displaying virtual objects at a fixed point in space in real time, giving the user the illusion that the content was present in the room (see \figref{sutherland1968headmounted}). Fixed to the ceiling, the headset displayed a stereoscopic (one image per eye) perspective projection of the virtual content on a transparent screen, taking into account the user's position, and thus already following the interaction loop presented in \figref[introduction]{interaction-loop}. \begin{subfigs}{sutherland1968headmounted}{Photos of the first \AR system~\cite{sutherland1968headmounted}. }[ \item The \AR headset. \item Wireframe \ThreeD virtual objects were displayed registered in the real environment (as if there were part of it). ] \subfigsheight{45mm} \subfig{sutherland1970computer3} \subfig{sutherland1970computer2} \end{subfigs} \subsection{What is Augmented Reality?} \label{ar_definition} \paragraph{A Definition} The system of \cite{sutherland1968headmounted} already fulfilled the first formal definition of \AR, proposed by \textcite{azuma1997survey} in the first survey of the domain: \begin{enumerate}[label=(\arabic*)] \item combine real and virtual, \item be interactive in real time, and \item register real and virtual\footnotemark. \end{enumerate} %\footnotetext{There quite confusion in the literature and in (because of) the industry about the terms \AR and \MR. The term \MR is very often used as a synonym of \AR, or a version of \AR that enables an interaction with the virtual content. The title of this section refers to the title of the highly cited paper by \textcite{speicher2019what} that examines this debate.} \footnotetext{This third characteristic has been slightly adapted to use the version of \textcite{marchand2016pose}, the original definition was: \enquote{registered in \ThreeD}.} Each of these characteristics is essential: the real-virtual combination distinguishes \AR from \VR, a movie with integrated digital content is not interactive and a \TwoD overlay like an image filter is not registered. There are also two key aspects to this definition: it does not focus on technology or method, but on the user's perspective of the system experience, and it does not specify a particular human sense, \ie it can be auditory~\cite{yang2022audio}, haptic~\cite{bhatia2024augmenting}, or even olfactory~\cite{brooks2021stereosmell} or gustatory~\cite{brooks2023taste}. Yet, most of the research have focused on visual augmentations, and the term \AR (without a prefix) is almost always understood as \v-\AR. %For example, \textcite{milgram1994taxonomy} proposed a taxonomy of \MR experiences based on the degree of mixing real and virtual environments, and \textcite{skarbez2021revisiting} revisited this taxonomy to include the user's perception of the experience. \paragraph{Applications} Advances in technology, research and development have enabled many usages of \AR, including medicine, education, industrial, navigation, collaboration and entertainment applications~\cite{dey2018systematic}. For example, \AR can help surgeons to visualize \ThreeD images of the brain overlaid on the patient's head prior or during surgery (see \figref{watanabe2016transvisible}) or improve the learning of students with complex concepts and phenomena such as optics or chemistry (see \figref{bousquet2024reconfigurable}). It can also guide workers in complex tasks, such as assembly, maintenance or verification (see \figref{hartl2013mobile}), or can create complete new forms of gaming or tourism experiences (see \figref{roo2017inner}). Most of (visual) \AR/\VR experience can now be implemented with commercially available hardware and software solutions, in particular for tracking, rendering and display. Yet, the user experience in \AR is still highly dependent on the display used. \begin{subfigs}{ar_applications}{Examples of \AR applications. }[ \item Neurosurgery visualization of the brain on a patient's head~\cite{watanabe2016transvisible}. \item HOBIT is a spatial, tangible \AR table simulating an optical bench for educational experimentations~\cite{bousquet2024reconfigurable}. \item \AR can interactively guide in document verification tasks by recognizing and comparing with virtual references ~\cite{hartl2013mobile}. \item Inner Garden is a visually augmented zen garden for relaxation and meditation~\cite{roo2017inner}. ] \subfigsheight{45mm} \subfig{watanabe2016transvisible} \subfig{bousquet2024reconfigurable} \subfig{hartl2013mobile} \subfig{roo2017inner} \end{subfigs} \subsection{AR Displays and Perception} \label{ar_displays} \cite{bimber2005spatial} \paragraph{Spatial Augmented Reality} \paragraph{Window on World Displays} \paragraph{Video See-Through Headsets} \paragraph{Optical See-Through Headsets} \subsection{Presence and Embodiment in AR} \label{ar_presence} Despite the clear and acknowledged definition presented in \secref{ar_definition} and the viewpoint of this thesis that \AR and \VR are two type of \MR experience with different levels of mixing real and virtual environments, as presented in \secref[introduction]{visuo_haptic_augmentations}, there is still a debate on defining \AR and \MR as well as how to characterize and categorized such experiences~\cite{speicher2019what,skarbez2021revisiting}. \paragraph{Presence} Presence is one of the key concept to characterize a \VR experience. \AR and \VR are both essentially illusions as the virtual content does not physically exist but is just digitally simulated and rendered to the user's perception through a user interface and the user's senses. Such experience of disbelief suspension in \VR is what is called presence, and it can be decomposed into two dimensions: \PI and \PSI~\cite{slater2009place}. \PI is the sense of the user of \enquote{being there} in the \VE (see \figref{presence-vr}). It emerges from the real time rendering of the \VE from the user's perspective: to be able to move around inside the \VE and look from different point of views. \PSI is the illusion that the virtual events are really happening, even if the user knows that they are not real. It doesn't mean that the virtual events are realistic, but that they are plausible and coherent with the user's expectations. A third strong illusion in \VR is the \SoE, which is the illusion that the virtual body is one's own~\cite{slater2022separate,guy2023sense}. The \AR presence is far less defined and studied than for \VR~\cite{tran2024survey}, but it will be useful to design, evaluate and discuss our contributions in the next chapters. Thereby, \textcite{slater2022separate} proposed to invert \PI to what we can call \enquote{object illusion}, \ie the sense of the virtual object of \enquote{being here} in the \RE (see \figref{presence-ar}). As with VR, \VOs must be able to be seen from different angles by moving the head but also, this is more difficult, be consistent with the \RE, \eg occlude or be occluded by real objects~\cite{macedo2023occlusion}, cast shadows or reflect lights. The \PSI can be applied to \AR as is, but the \VOs must additionally have knowledge of the \RE and react accordingly to it. \textcite{skarbez2021revisiting} also named \PI for \AR as \enquote{immersion} and \PSI as \enquote{coherence}, and these terms will be used in the remainder of this thesis. \begin{subfigs}{presence}{The sense of immersion in virtual and augmented environments. Adapted from \textcite{stevens2002putting}. }[ \item Place Illusion (PI) is the sense of the user of \enquote{being there} in the \VE. \item Objet illusion is the sense of the virtual object of \enquote{being here} in the \RE. ] \subfigsheight{35mm} \subfig{presence-vr} \subfig{presence-ar} \end{subfigs} \paragraph{Embodiment} As presence, \SoE in \AR is a recent topic and little is known about its perception on the user experience~\cite{genay2021virtual}. \subsection{Direct Hand Interaction in AR} Retour à la boucle d'interaction : on a présenté les interfaces haptiques et de RA (rendu du système vers l'utilisateur) pour faire le rendu du VE, qui essaye de recréer des expériences perceptuelles similaires et comparables à celles de la vie de touts les jours, \ie de rendre la meilleure immersion (voir \secref{ar_presence}) possible. Mais il faut pouvoir permettre à l'utilisateur d'interagir avec l'environment et les objets virtuels (interaction), donc détecter et représenter l'utilisateur dans le VE (tracking). \subsubsection{Interaction Techniques} Pour cela il faut des techniques d'interaction, \cite{billinghurst2005designing} : Physical Elements as Input -- Interaction Technique --> Virtual Elements as Output. Les techniques d'interactions sont cruciales pour l'expérience utilisateur, car elles dictent en grande partie la cohérence du système (voir \secref{ar_presence}) par la qualité des actions possible avec l'environment virtuel. "il s’agit de lier des entrées utilisateurs issues de capteurs physiques (souris, écran tactile, images d’une caméra) à des actions sur l’ordinateur représentées par un résultat en sortie (affichage, son, commande) via une technique d’interaction" ex : "La technique d’interaction est donc une méthode qui permet de traduire ces entrées en commandes : par exemple, le même mouvement avec une souris peut déplacer un curseur ou translater un objet le long d’un axe, ou encore un même déplacement de deux doigts sur un écran tactile peut faire une rotation ou un zoom sur un objet." Principe IHM : [Van Dam, 1997] : réduire l'écart entre les éléments physiques et virtuels, \ie en un sens rendre l'interaction la plus "naturelle" possible, la moins "visible" possible. En RA, surtout immersive et portable, cet écart peut être tellement réduit qu'il n'est presque plus perceptible par l'utilisateur et l'interaction peut être pratiquement la même qu'avec le \RE, \ie essentiellement toucher, saisir et manipuler les objets virtuels directement avec les mains. \cite{laviola20173d} a classé les techniques d'interactions avec les \VE en trois catégories : \enquote{navigation}, \enquote{selection} et \enquote{manipulation}. La navigation est le déplacement de l'utilisateur dans le \VE, mais dans le cas d'un casque de RA, le \VE est aligné avec le \RE et sont perceptuellement un seul et même environment augmenté (immersion) : la navigation est donc essentiellement le déplacement de l'utilisateur dans le \RE. Pour cela le casque se repère dans le \RE avec des capteurs et algorithmes de tracking et l'affichage du \VE est déplacé et orienté similairement au déplacement réel afin de l'afficher dans la bonne perspective de l'utilisateur. Voir aussi \cite{marchand2016pose} pour une revue des techniques de tracking pour la RA. La sélection est le choix d'un objet virtuel dans le \VE, et la manipulation est l'interaction avec cet objet, \ie le déplacer, le tourner, le redimensionner, etc. \subsubsection{Virtual Hands in AR} Dans le cas de la RA immersive avec une interaction "naturelles" (cf \cite{billinghurst2005designing}), la sélection consiste à toucher l'objet virtuel avec les mains, et la manipulation à le saisir et le déplacer avec les mains. C'est ce qu'on appelle les "virtual hands" : les mains virtuelles de l'utilisateur dans le \VE. Le dispositif d'entrée n'est pas une manette comme c'est souvent le cas en VR, mais directement les mains. Les mains sont donc détectées et reproduites dans le \VE, Maglré tout, le principal problème de l'interaction naturelle avec les mains dans un \VE, outre la détection des mains, est le manque de contrainte physique sur le mouvement de la main et des doigts, ce qui rend les actions fatiguantes, imprécises (on ne sait pas si on touche l'objet virtuel sans retour haptique) et difficile (idem, sans retour haptique on ne sent pas l'objet glisser, et on a pas de confirmation qu'il est bien en main). Des techniques d'interactions d'une part sont toujours nécessaire,et un retour haptique adapté aux contraintes d'interactions de la RA est indispensable pour une bonne expérience utilisateur. Cela peut être aussi difficile à comprendre : "\cite{chan2010touching} proposent la combinaison de retours continus, pour que l’utilisateur situe le suivi de son corps, et de retours discrets pour confirmer ses actions." Un rendu et affichage visuel des mains est un retour continu, un bref changement de couleur ou un retour haptique est un retour discret. Mais cette combinaison n'a pas été évaluée. Prototypes : HandyAR and HoloDesk \cite{piumsomboon2013userdefined} : user-defined gestures for manipulation of virtual objects in AR. \cite{piumsomboon2014graspshell} : direct hand manipulation of virtual objects in immersive AR vs vocal commands. \cite{chan2010touching} : cues for touching (selection) virtual objects. Problèmes d'occultation, les objets virtuels doivent toujours êtres visibles : soit en utilisant une main virtuelle transparente plutôt qu’opaque, soit en affichant leurs contours si elle les cache \cite{piumsomboon2014graspshell}. \subsection{Conclusion} \label{ar_conclusion}