文字列をコンピューターで解析できるよう、印を付けたデータのこと。現在のコンピューターは、文章や音声、画像などの内容を解釈することがほとんどできない。現在、これらのデータを解釈する「コグニティブコンピューター」の開発も進んでいるが、まだ開発途上のため、一般的にはそれぞれのデータに印を付けることでコンピューターが解析できるようにしている。例えばウェブサイトを構築する際には、HTMLなどの印を入れることで、その場所にある単語が何を意味しているかをコンピューターでも理解できるようにしている。

 同様に、電子カルテなどの医療情報や論文のデータについても、コンピューターはそのままでは解釈することができず、どこに病名が記されているのか、どこに検査データが記されているかなどを把握することができない。ビッグデータの医療応用が進む中、これらの非構造化データに印を加えて構造化することで、医薬品開発や安全性情報の取得などに活用しようという動きが活発化している。