第9回コミック工学研究会参加報告

第9回コミック工学研究会は2023年3月12日，13日に立命館大学大阪茨木キャンパスで行われ，多数の参加者とともに活発な議論が行われました．ここでは，立命館大学大学院の韓くんと関西大学の北畑さんからの参加報告を掲載します

セリフの分析

１．漫画画像内のコマと吹き出しの順序推定手法の提案
齋藤吉平（愛知工業大学），田中海斗（愛知工業大学），堀田政二（東京農工大学），澤野弘明（愛知工業大学）

漫画の宣伝手法の一つに、漫画のワンシーンに音や動き、映像効果を付与して宣伝映像を作る、モーションコミックというものがある。モーションコミックを制作するには、漫画画像から手動でコマや吹き出しを切り取り、読む順序を考慮して音や効果を付与する必要がある。著者らはこれまでに、モーションコミック制作補助を目的として、漫画画像からコマや吹き出しを自動で抽出する方法を提案しており、本稿では漫画のページ内より抽出されたコマ、またはコマ内の吹き出しの読む順序をアルゴリズムにより推定する手法を提案している。提案手法の評価実験として、Manga109より無作為に選出された10作品の漫画データとアノテーション情報を用い、提案手法によって自動で推定したコマまたは吹き出しの読む順序が、目視による順序とどれほど一致するかを調査した結果、提案手法では、98.4%の精度でコマの順序を、99.5%の精度で吹き出しの順序を正しく推定することができた。

感想：第8回のコミック工学研究会でも、モーションコミックに関する研究成果を発表されていた方が参加されている研究プロジェクトで、先行研究と本研究を合わせて活用する展望についても発表内で詳しくお話いただき、モーションコミック制作補助に対する熱い思いを感じました。提案手法の精度によって、人間が漫画を読む際の挙動がある程度規則的であること、誤推定が存在することから、一部例外的な読み方を誰に指示されるでもなく行っていることなどが間接的に明らかにされる、面白い研究だと思いました。（北畑）

２．漫画のマルチモーダル情報を用いたセリフの話者推定
福原大翔（東京大学），田中康太郎（東京大学），高畑智之（東京大学），椋田悠介（東京大学，理化学研究所），原田達也（東京大学，理化学研究所）

漫画は言語情報（セリフ）と画像情報（イラスト）により構成され、離散的な時系列を分割した工夫された配置により読者にストーリーを伝える、複雑なマルチメディアコンテンツである。機械が漫画を理解できると、様々な読者支援や制作者支援を提供することが可能であるが、漫画というコンテンツの複雑さがそれを阻んでいる。コンテンツの理解には、特にセリフとキャラクターの紐づけが重要であると考え、キャラクター画像とセリフのマルチモーダル情報を用いて、発話キャラクターを推定する「話者推定」に取り組んだ。従来手法では漫画のキャラクター画像がどのキャラクターに対応するかのラベルを既知のものとし、セリフとキャラクター画像をマッチングさせることで話者推定を行っていた。本研究ではキャラクター画像に対するキャラクター名ラベルを未知のものとし、セリフからBERTによって言語特徴の抽出するモデル、漫画画像からResNet50によって画像特徴を抽出するモデルの2つを合わせ、多重パーセプトロンで話者推定をする手法を用いた。提案手法によって話者推定するよう作成されたモデルと、言語のみ、画像のみでそれぞれ話者推定をするよう作成されたモデルを使い、推定の正解率から定量的にモデルの性能を評価した。また定性的なモデルの性能評価も同時に行った。結果として、提案手法を使用したモデルのほうが言語のみや画像のみ使用するモデルよりも、話者推定機能が高くなった。また提案手法モデルでは、セリフの周辺にセリフを発したキャラクターが描かれていない場合でも話者推定が可能であるという結果が得られた。

感想：機械に画像情報と言語情報のみを渡し、内容を解釈させるという、論文にも書かれていた通り人間が漫画を読む際の理解タスクに近い形で機械にタスクを解かせるという手法に取り組んだ、興味深い発表でした。実験結果から、人間は漫画を読むときセリフの口調やキャラクター達の関係性・位置関係などを参考にしながらどのセリフを誰が発し、それによってどういったストーリーが紡がれているかを無意識のうちに解釈しているのだと気づかされました。（北畑）

３．イベント特徴語に基づくコミックのイベント推定
藤川雄翔（関西大学総合情報学部），松下光範（関西大学総合情報学部）

コミック作品はそのストーリーの内容によって、「アクション」「ファンタジー」などのジャンルに分類される。同一のジャンルに分類された作品同士には、そのジャンルを強調する特有のイベントがストーリーに出現することが多いため、イベントを計算機によって推定することでストーリーの構成把握を容易化できると考えた。コミックは言語情報（セリフ・モノローグ等）と画像情報（イラスト）が相補的かつ協調的に利用されているクロスモーダルコンテンツであり、コミック中の言語情報のみでは、イベントに関連する情報の取得に大量のコンテンツを必要とし、非効率的である。そこで、コミックの類似コンテンツの一つであり、テキスト情報の取得が容易なライトノベルに着目し、ライトノベルの小説文からTF-IDFを用いてイベントに関連する語彙を抽出し、イベント特徴語辞書の作成、及び作成したイベント特徴語辞書を用いて、コミックのイベント推定を試みる。イベント特徴語を抽出する対象とする小説はWeb小説投稿サイト「小説家になろう」から11作品をジャンルを学園ジャンルに絞り選定した。小説のテキストより特徴語辞書を作成した後、小説10作品のセリフ文とコミック2作品のテキストをそれぞれ対象に、作成したイベント特徴語辞書を用いたイベント推定精度の評価実験を行った。評価実験の結果コミックのテキストを対象としたイベント推定精度は、小説セリフ文を対象としたイベント推定精度に比べ、再現率・適合率・F値全てにおいて上回る結果を示した。

感想：漫画のストーリーを機械に解釈させるために、まずはストーリー内で起こるイベントを理解させようというアプローチは斬新で面白いと感じました。今回は「学園」ジャンルのものだけを対象に評価実験を行われていましたが、「学園」ジャンルのように現実世界と地続きの世界観を共有する背景設定の漫画だけでなく、「SF」「ファンタジー」など現実とは全く違う世界を背景設定として持つ漫画を用いても提案手法が機能するのか、推定する『イベント』をより細かい単位で定義することは可能なのかなど、今後の展開に期待が高まる発表でした。（北畑）

招待講演

イラスト画像における機械学習の潮流：書誌情報の分析から
登壇者：桂井麻里衣（同志社大学）

桂井先生は知的創作活動の支援を目的として、学術データベースやソーシャルメディアを対象としたデータ構築・管理、コンテンツ検索・推薦・分析手法を提案する研究をされています。 2022年に話題となったイラスト画像の自動生成技術に関連し、大量の学習用画像を必要とする生成モデルに対して研究の場ではどのようにイラスト画像を収集しているのか、関連論文の書誌情報の分析と、著作権との関係ともにお話しいただきました。イラスト画像の自動生成技術に関連する研究の動向を調査するため、論文を検索した。「データセットに言及していた論文」が229件、「機械学習について述べられていた論文」が151件、二つの項目で重複していた論文が44本あるため、合計で336本確認された（2023年3月10日時点）。その中でも特に有名な（今回は指標として被引用数を用いた）論文として、Manga109 、ドメイン汎化データセット、PororoQAデータセット、イラスト線画データセット、FSS-1000データセット、COMICSデータセットなどがあった。画像データセット構築系の論文が多いが、画像の入手方法が記述されていなかったり、インターネット検索で取得された画像を使用していたりと、著作権について議論の余地が残されているデータセットも少なくなかった。論文概要に「データセットを作成・構築」という意の文が含まれる論文を自動抽出し、クラスタリングを行った。代表的なクラスタとして「アニメ画像処理・認識、コミックデータセット、image-to-image translation、漫画画像処理、線画の抽出と利用、顔画像処理、4コマ漫画、GANの利用」などがあった。データセットを独自で用意する研究が増えている傾向にあることが分析によって分かったが、こちらも著作権に関して言及しているものは非常に少なかった。著作権に言及する論文が少なかったが、実際画像生成と著作権法にどのような関係があるのか。インターネット上の画像などを収集し機械学習モデルに学習させる行為自体は適法だといえるが、学習済モデルの利用が論点となることが多い。著作権侵害の要件として挙げられるのは依拠性と類似性だが、入力した画像に何らかの変換を加える技術は依拠性が問題となる可能性が高く、同一性保持権侵害となる場合もある。モデルによる生成物を発表すると依拠性と類似性が問題になる可能性が高い。技術開発側の責任を問われる可能性もある。今後のイラスト画像研究の展望として、日本初のCCライセンスデータセットを構築し、研究の在り方のデファクトスタンダードを用意していくのが望ましい。特に画像に良質のメタデータ（タグなど）を付与することはトレンド解析や機械学習の技術開発に重要な手続きであり、良い仕組みが求められる。

感想：画像生成と著作権法については、先生自身が法曹関係の方と話した経験を交えてお話してくださったので、興味深く非常に参考になる内容でした。たくさんの画像データセットが存在する一方で、著作権に関して議論が尽くされていないものが多く、もし著作権問題をクリアしたデータセットをどこかの研究機関いちはやく作成したら、これからの画像生成研究のイニシアチブを握ってしまいそうで恐ろしくもありました。（北畑）

アニメ・イラスト画像の機械学習

４．自己教師あり画像特徴量を用いたイラスト生成器の評価
澤田知也（同志社大学），桂井麻里衣（同志社大学）

深層学習を用いたイラスト制作支援システムが近年盛んに研究されており、キャラクタ画像の自動生成や写真のアニメ調への変換、線画の着色など様々なタスクが存在する。しかし、イラストを対象とした画像生成モデルを評価する方法については十分に検討されておらず、現在はイラストとドメインが大きく乖離した、自然画像を対象とした評価指標をそのまま用いている状況である。本稿では、画像生成モデルの評価方法として広く一般的に用いられているFréchet inception distance（FID）に着目し、自然画像での学習済みモデルに基づくFID（従来手法）による画像生成モデル評価が人の知覚に沿った、有効性のある結果となっているか調査する、また自己教師あり学習を通じて得られた画像特徴量によって算出したFIDがより人の視知覚に近い評価となることを示すことを目的とした。人為的に劣化させたイラスト画像と学習済みのイラスト生成器をそれぞれ用いて、従来手法に基づくFIDと自己教師あり学習を通じて得られた画像特徴量によって算出したFIDによるスコアのどちらが人の感覚に近い評価を得られたか検証した結果、どちらの実験でも従来手法に基づくFIDより、自己教師あり学習モデルに基づいたFIDのほうが人の感覚に近い評価を得られた。

感想：様々なイラスト制作支援システムが世に現れている一方で、それらの性能を客観的に評価するための専用の指標が必要だが、いまだ確立されていないという事実には驚かされました。単純に生成されたイラストの評価を通してモデルの質を評価するだけでなく、個人の趣向なども考慮して描けるかどうかなども評価の対象となれば、システムによるイラスト制作支援の幅が裾野がぐんと広がりそうな研究だと感じました。（北畑）

５．アニメ映像を対象とした人物の行動認識のための擬似アニメデータセット作成
佐久間絢子（青山学院大学），金子直史（青山学院大学），鷲見和彦（青山学院大学）

実映像を対象とした人物の行動認識に関する研究は盛んにおこなわれているが、アニメ映像を対象とした人物の行動認識に関する研究は行われていない。実映像と異なり、人物の行動認識のための大規模なアニメ映像データセットは公開されていない。実映像データセットと同程度の規模のアニメ映像データセットを制作するにはコストがかかる。本稿では、行動認識モデルをトレーニングするためのデータセットとして、行動認識のための実映像データセットにフィルタ処理やGANを用いてアニメ風にスタイル変換したアニメ風テクスチャデータセット、実アニメ映像にシーンごとにラベルを付与した疑似ラベル付きアニメデータセット、テストデータのために用意された実アニメデータセットの3種から成る、疑似アニメデータセットの作成を行った。提案手法の有効性を検証するため、TSMを、作成した疑似アニメデータセットをそれぞれ用いてファインチューニングし、実アニメデータセットでテストを行った。結果として、行動認識モデルをアニメ風テクスチャデータセット用いて訓練すると、作成する際に使用したフィルタの種類によって精度が変化した。行動認識モデルを疑似ラベルデータセットを使用して訓練すると精度が低下した。

感想：アニメ映像内の行動認識をアニメ映像を使って行うのではなく、実映像をアニメ風のテクスチャに変換したアニメ“風”データを使って行うという、発想の柔軟性が素晴らしいと感じました。今回は作成したデータセットに混ざったノイズによって、データセットを用いて訓練したモデルの行動認識の精度はあまり向上しない結果となってしまいましたが、問題点を排除した後、再度実験を行った場合、どれほどの成果を得られるのか期待で胸が膨らむような発表でした。（北畑）

６．アニメキャラクタ毎の顔バランス評価モデル
巽優人（立命館大学），藤田宜久（立命館大学），山西良典（関西大学），仲田晋（立命館大学）

キャラクタの顔を描く際、整った作画の印象を与えるためには顔パーツのバランスが重要である。そのため、キャラクタの顔パーツの位置の妥当性を評価する仕組みを構築し、イラスト描画支援を行いたい。本稿では、キャラクタの顔パーツの特徴点座標をanime-face-detectorによって求め、特徴点座標をオートエンコーダに学習させることで、キャラクタ毎の顔パーツのバランスの妥当性を顔中の3点もしくは6点でそれぞれ評価するモデルを構築することを目的としている。学習させるキャラクタの顔情報は一つのモデルにつき一人のキャラクタのものに限定し、キャラクタに特化した学習モデルを生成することに注力した。提案手法の有効性を検証する多目、実験1ではとあるキャラクターの顔情報を学習させたモデルを用意し、実際に絵の初心者が描いた当該キャラクターの顔イラストの顔パーツバランスを評価させた。実験2ではキャラクタの右目の座標を意図的にずらした絵を入力として与え、モデルの算出する理想的な顔パーツの配置と現在地点の誤差値が大きくなるかを検証した。検証の結果、実験1で提案手法によって訓練されたモデルは描いたキャラクタの顔バランスの評価が行えることが分かった。しかし特徴点同士の比率を保ったまま、特徴点に含まれない部分との描画バランスが崩れている場合、よりよいバランスの提示はできないことが明らかになった。また実験2では意図的に座標をずらした入力を与えると、モデルの算出する誤差値は大きくなった。

感想：提案手法は無難にバランスの整った絵を機械が出力してくれる、のではなくあくまでも”整ったバランスの絵”だと思ってもらうために顔パーツを配置したほうが良い位置を教えてくれる機械学習モデルであるという点に面白みを感じました。イラスト制作支援を行うシステムは近年脚光を浴びていますが、まだまだ研究の余地があるのだと、機械によるイラスト制作支援の奥深さを感じる発表でもありました。特定のキャラクターの顔バランス判断に特化したモデルが作成できるところは特徴であるとともに、まずはじめに「顔バランスの整った特定のキャラクターの顔画像」が一定数以上なければならないというハードルも生み出してしまっている気もしました。（北畑）

読者・視聴者の認識分析１

７．コミックにおける読者依存性の高い地雷表現共有システムの長期利用による実用性の検証
伊藤理紗（明治大学），中村聡史（明治大学）

コミックには様々な作品があり、読者にとって好みの描写もあれば、苦手な描写（本稿では「地雷」と呼称）もある。しかしあるコミックに地雷描写が含まれているかを事前に推測することは難しく、コミックの一部分に地雷描写が出現する場合は、遭遇してしまう確率も高まる。本稿では、既存のWebコミックサービスにて使用可能な地雷表現共有システムを構築した。システムを通してユーザは、コミック内で自身の苦手表現が出現した箇所をデータベースに登録しほかのユーザに共有したり、ほかのユーザが共有したデータによって苦手表現が出現する一ページ前に地雷表現の出現予告を受け取ることが可能になる。共有と予告が可能な地雷表現は、これまでの研究やアンケート調査によって多くの人が苦手であるとした6種類に限定した。システムの有用性を検証するため、実験協力者には本システムを利用して1週間に7作品以上の漫画作品を読むように依頼し、約4週間継続して実験を行った。実験中に付与された地雷フラグは393個、システムによって行われた地雷表現予告回数は105回であり、一般にシステムを導入したとしても一定数の利用が期待できる結果となった。実験後アンケートでは、地雷表現の予告によって心構えができたなどの肯定的な感想もあった一方で予告によって漫画作品へ読みづらさを感じた、予告のタイミングへの不満などの否定的な意見も散見された。

感想：配慮を必要とするユーザへ、心地よい読書体験の提供するための有用なシステムだと感じました。共有する「地雷」表現の細分化やパーソナライズ化が可能になれば、より幅広い層に利用して貰える地雷回避用システムに、反対に「地雷」のデータが大量にあつまれば、そのラベルデータを活用して地雷表現を好む人のための漫画推薦を行うことも可能になりそうだと思いました。（北畑）

８．ソーシャルメディア上の読者反応からの漫画家特性の間接的推定
青山千泰（関西大学），山西良典（関西大学），石渡広一郎（株式会社hottolink）

漫画市場の拡大とともに、コンテンツの生産量と消費者層も確実に増えつつあり、適切なターゲット層を定めて効率的な宣伝活動が求められます。単に作品の内容と性質だけでなく、その作品や作者の支持者であり、消費者でもあるファンの実情も把握する必要が出てきます。伝統的なマーケティング手法だと市場調査や漫画家の特性分析には多大なコストがかかります、そこで本研究は漫画家のSNSへの返信文をベクトル化し、ファンからの言葉を使って漫画家の特性を表現・分類する手法を提案しました。評価実験では、提案した分類手法は漫画家のイラストの特徴や読者層を間接的に推定できる可能性を証明しました。

感想：漫画家本人やその本人の作品ではなく、ファン層に注目して分析を進めるアイディアは面白い。「ファンは推しに似る」という言葉は聞いたことありますし、そういうことなのかな？と思います。最終的にイラストの特徴とファンの発言は関連性があるという結論になりましたが、こういう「作り出す側」と「利用・消費する側」の関係性を分析する手法って、マーケティング系の研究と目的を共有している気がします。関大の松下先生は「車の会社に人間性を感じる」「価値観の合うメーカーの車しか買わない」みたいなことをおしゃっていた記憶があります、「お客さんを選ぶ製品」というのはどれも同じことが言えたじゃないかと思います。（かん）

９．画像生成AIを用いたマンガ表現における表情の分析
迎山和司（はこだて未来大学），関口元起（はこだて未来大学），亀橋樹（はこだて未来大学）

人間の表情は万国共通の普遍性を持ちつつ、各文化圏で理解が異なることもあります。漫画の世界にもこういった表情による人間感情表現の普遍性が存在し（誰が見てもこれは「笑顔」と理解できる）、漫画家さんの独自のスタイルという特殊性も反映されています。漫画における芸術表現の普遍性と特殊性に関する知見を得るために、画像生成AI「Stable Diffusion」を用いて、漫画家の画風を維持しつつ、いろんな表情を作り出す実験を行い、その表情生成の結果を分析するのはこの研究です。「笑」に対して、複数人の漫画家さんの間では表現の普遍性を確認できたが、「泣」の表情は漫画家さんの個性が強く出ているところです。

感想：SDを利用してなんか生成した、というのはすでに散見していますが、SDを利用して漫画家の作家性や漫画の歴史を掘り下げるのは新鮮です。生成AIが把握している「知識」を本来の目的である生成ではなく、その知識を解析していままで人間が見落としているかもしれない部分を見出せるほうに使うのは、生成AIのもう一つの使い道です。（かん）

イラスト制作ツールの開発現場から：CLIP STUDIO PAINT 2.0 に搭載する主な機能と、その需要・要望の背景について（株式会社セルシス）

会社概要

セルシスはコンテンツ制作支援とその過程や体験、そこから生まれるコミュニケーション、そして作品の流通など、クリエイションを取り巻くすべての人をデジタル技術でサポートする会社です。セルシスでは、アニメマンガイラストなどの制作ツール、携帯電話で漫画を読むためのビューワー、グラフィックの編集作業を行うアプリケーションなどの開発を行なっています。

社内環境・インターン

セルシス社内では座席はフリーで、自由に着席できます。金曜日には最新技術についての勉強会や新入社員の学習会が行われます。社内には本棚があって、いろんなプログラミング言語や技術フレームワークの書籍が置いてあります。セルシスのインターンは半数以上(54%)の募集がエンジニアです。製品に実際に搭載する機能の開発に関与することもあります。テレワーク導入率は100%で、居住地が離れていてもインターンに参加できます。

プロダクトの歴史

セルシスの製品は主に創作支援ツールと漫画閲覧ツールの２種類に分かれます。創作支援ツールについては、1993年にアニメーション制作ソフトRETAS STUDIOを発表しました。日本で製作されているほぼすべてのアニメーションに使用されている製品です。2001年にマンガ制作ソフトCOMIC STUDIOを発表しました。2009年にイラスト作成ソフトILLUST STUDIOを発表しました。2012年にCOMIC STUDIOとILLUST STUDIOを統合させ、イラスト・マンガ制作ソフトCLIP STUDIO PAINTを発表しました。

漫画閲覧ツールに関しては、2003年にKDDI（au）「CDMA 1X WIN」において、コミックビューア「ComicSurfing」の商用サービスを開始し、のちに採用サイトが増え、2010年には総合電子書籍ビューア「BookSurfing」の利用が1,000サイトに至りました。2018年に、ComicSurfingとBookSurfingから得た知見を生かし、電子書籍ソリューション「CLIP STUDIO READER」を提供開始しました。

CLIP STUDIO PAINTの新機能

CLIP STUDIO PAINTのVer 2.0は2023年3月中にリリースします。自動陰影機能は筑波大学との共同研究の成果です。この機能は線画と下塗りのレイヤーを使用し、自動的に陰影を描画します。明暗のパラメータや光や影の量を調節することもできます。知覚的な混色機能は、出力された色が思い通りの色にならない問題を解決します。デッサン人形の頭部モデルの自動生成機能も実装されます。デッサン人形の頭部３Dモデルのパラメータをいじることによって、様々なモデルを作り出し、使用者はリアルのデッサン人形に頼らずデッサンの練習ができます。ハンドポーズ機能は、カメラで写している手の形を3Dモデルにリアルタイム反映し、作画の参考になります。他にも歪み機能の改善や、回転機能、テキスト機能の改善などを盛り込んでいます。

漫画の市場がどんどん拡大し、将来は今より漫画作品の更新頻度と消費速度がさらに加速します。クリエーターにとっては作業の効率化が急務になります。そして、伝統的な漫画形式と異なり、スマホ時代に特化したWebtoon形式の漫画が人気を博します。その特徴に合わせて今回のアップデートでは自動陰影や回転ぼかしなどの機能を追加しました。多様な創作スタイルに合わせるべく、すべてのデバイスで適切に使用できるアプリケーションを目指し、Windows macOS iOS Android ChromeOSに対応する予定です。

読者・視聴層の認識分析２

10．会話属性により分類されたアニメ会話を用いた日本語聴解テスト練習支援での妥当性考察
NI YANGDI（立命館大学），SHAN JunJie（立命館大学），韓毅弘（立命館大学），西原陽子（立命館大学）

海外の日本語学習者にとって、日本のアニメは語学の教材になり得るという認識は徐々に高まっています。しかし、エンタメ目的と語学目的の違いで、アニメの選び方や見方も変わってきます。無闇にアニメを見るよりも、セリフの難易度が視聴者の日本語レベルに合うアニメのほうが上達に役立ちます。いままで文法レベルでそのセリフの難易度を分類し、語学者のレベルに合わせて推薦する手法は提案されていますが、文法以外にも、会話の内容、会話の場所、話者の開係性など、会話の理解しやすさに関係する要素がいくつ存在します。この研究はそこに着目して、会話内容・会話場所・話者関係性といった会話の属性が、実際の日本語能力テストで出題される聴解問題文と一致するようなアニメシーンを利用者に提案する手法を提案しました。評価実験では、提案アニメシーンのセリフと試験問題の会話文の間の重複単語数で提案アニメシーンの良し悪しを判定しています。重複率が高いと、提案シーンは問題文のシチュエーションに近いとのことです。

感想：先行研究はあくまでも語学全般に対しての改善策で、「教科書よりアニメ見たほうが自然な日本語に近つけるし楽しいよね！」というコンセプトでしたが、この研究は「ザ・試験対策」の側面が強いと感じます。おかげて評価方法は重複率という基準で簡単に数値化できるけど、英語でも通用するか（TOEIC試験とか）が楽しみです。（かん）

11．漫画内キャラクタの覚えやすさに関する基礎調査
櫻井翼（明治大学），中村聡史（明治大学）

漫画に出てきたキャラクターの名前や顔、イメージなどは忘れることが多く、連載中は漫画の見返しや読み直しがよく発生します。この問題に対して、キャラクターを記憶しやすいようにする手法を開発するための準備段階として、覚えやすいキャラクターと覚えにくいキャラクターの違いを見出す必要があります。この研究はキャラクターの覚えやすさに影響する要因の基礎調査を行いました。あらかじめ実施した記憶テストで覚えられているキャラクターと忘れられやすいキャラクターを分類し、その2つのクラスターの違いを漫画内の要素数で評価しました。その結果、漫画内要素の出現割合や出現箇所が覚えやすさに影響している可能性が示唆されました。

感想：これすごく共感します、1クールに十何部のアニメ作品を追っていると、その十何部の作品に登場している数十人のキャラ名を覚えるのは本当に難しいです。本研究は漫画内の登場率などを中心に分析していますが、個人的にはカタカナの名前は覚えにくいですね。（かん）

12．ファンサイト上のキャラクタの外見属性と内面属性の関係性の基礎分析
中島楓華（関西大学），藤本直樹（関西大学），横井優（関西大学），西明和樹（関西大学），山西良典（関西大学）

漫画やアニメのキャラクターデザインにおいて、キャラクターの身体や服装などの設定からある程度そのキャラクターの性格や職業などの内面的な性質を汲み取ることができることがあります。視聴者や読者は、作品を視聴・読書していなくても、キャラの画像を目にするだけでそのキャラの内面属性をおおよそ想像できることも多いです。こういった事例から、キャラクターの外見属性と内面属性の間には何らかの関連性があると思われます。この研究は、外見属性Aがある場合の内面属性Bの出現する確率を計算することで、外見と内面の関連性を量的分析をしています。さらによく知られている典型的なデフォルメのパターンについても考察して、これからのキャラクターデザインやキャラクター作画の支援に繋がります。

感想：前々から「金髪ツインテールキャラは大体ツンデレ」みたいな定番テンプレの存在は知れ渡っているが、本研究はファンサイトから大量のデータを用意した上で確率でその現象を数値的分析するのは面白いです。（かん）

タイトル／オノマトペの分析

13．マンガ・ラノベの表紙画像データベース及びタイトルの書体推定
石山翔太（神奈川工科大学），酒井弘佑（神奈川工科大学），森稔（神奈川工科大学）

漫画やライトノベルの販促効果には、表紙のデザインの重要性は無視できません。漫画に限らず、表紙は作品の印象を決める重要な要素です。漫画やラノベの表紙というと、キャラクターのイラストに目が行きがちですが、タイトルの書体デザインも作品の雰囲気を出す重要な役割を持っています。この研究は漫画・ラノベの作品内容とその表紙タイトルに使われているフォントとの関連性を探るため、漫画・ラノベの表紙画像データセットを作成し、表紙にある文字以外の要素からタイトルに使われるフォントの推定を試みました。データセットには表紙全体・キャラクター部などでフォントの有無を含めた計5種の画像で構成しました。評価実験の結果、画像からフォント書体の推定精度は70%以上です。

感想：発表スライドに掲載している表紙の画像例を見ると、そもそも使っているフォントが統一していない、異なる種類のフォントが混在するパターンも存在しています。そういう時はAフォント80%、Bフォント20%みたいな割合的な処理（入力も出力も）ができるともっと実用性が上がると思います。そして漫画やラノベにとどまらず、雑誌や一般書籍にも検証を広げてみたいです。さらにいうと、こういう表紙デザインに関する知見を生かして、子供に好かれる教科書表紙のデザイン案を作ってみたら面白いと思います。（かん）

14．漫画読み上げシステムにおけるオノマトペの発音・非発音の分類
大泉壮汰（東京大学大学院）

漫画の内容を読み上げて動画にするという新たな漫画の消費形態が誕生し、その勢いを増しています。さらに自動的に漫画の内容を読み上げるシステムも開発されています。自動化する際に当たって、オノマトベとして描かれたイラスト文字を読み上げるべきかどうかを判定する必要が生じます。この研究は、深層学習の手法を用いて、漫画の場面が現実世界の物理法則に従う場合において、そのオノマトベに相当する音声の出現があるかないかで発音・非発音を判断します。訓練データはManga109を使って構築して、自然言語モデルとマルチモーダルモデルを用いて発音・非発音の分類を行いました。自然言語モデルとマルチモーダルモデル両方とも80%を超える精度が得られました。

感想：自分も学部生時代にオノマトペに関する研究をやってましたが、その時はオノマトペを「擬音語・擬声語」と「擬態語」に分類していました。本研究の発音・非発音の判定もそれに近いと感じます。（かん）

15．COO: きわめて不規則なテキストを含む漫画オノマトペデータセット
白定勳（東京大学），松井勇佑（東京大学），相澤清晴（東京大学）

深層学習の進歩により文字認識の精度が向上しましたが、曲がっている文字など不規則なテキストの認識はまだ完璧ではありません。この状況を打破するため、典型的な不規則テキストである漫画オノマトペを使って、不規則テキストを対象とするOCR技術の性能向上を試みました。そのためのデータセット（Comic Onomatopoeia, COO）構築がこの研究の内容になります。COOは、特殊な形のテキストや、任意の場所に書かれたテキスト、視覚的に離れているが意味的には繋がってるチキストなどを含んでいます。COOデータセットを用いて、漫画オノマトペの意味を把握するために必要な3つのタスク「Text detection」「Text recognition」「Link prediction」を遂行できます。

感想：この研究の目的は実世界のOCR精度向上ですが、使用しているデータセットは漫画から作成しているところは感心しています。漫画といえばフィクションでデフォルメなイメージですが、実世界の問題解決に寄与できているのは新しい発見です。逆に実世界からデータをもらって漫画の研究を推進する可能性も見えてきます。（かん）

第9回コミック工学研究会 参加報告