Multimodal Large Language Modelを画像認識タスクへの適用