Desde siempre, el lenguaje de marcas de la World Wide Web ha sido HTML. Fue diseñado primeramente como un lenguaje de descripción semántica para documentos científicos, sin embargo, su diseño genérico y su adaptación a lo largo de los años, lo ha habilitado para ser usado en la descripción de otros tipos de documentos.
No fue diseñado inicialmente para aplicaciones web, con lo que no ha resultado muy adecuado en este campo. La especificación 5 intenta rectificar esto, actualizando además las especificaciones de HTML para solucionar los problemas surgidos en los últimos años.
Los documentos HTML consisten en un árbol de elementos y texto. Cada elemento está expresado en el código fuente por una etiqueta de inicio y una de fin.