生成式AI：文字與圖像生成的原理與實務 2025

CGU AICV Lab Computer Vision Lab of the Department of Artificial Intelligence at Chang Gung University

生成式AI：文字與圖像生成的原理與實務 2025

授課教師資訊

開設學校：政治大學授課教師：蔡炎龍班級人數：約2000人 (保留開課學校 500 人，本校上限40人）開課級別：碩士課程 (政大學碩合開)，但長庚列為大一課程

課程概述

「生成式 AI：文字與圖像生成的原理與實務」是一門兼具理論深度與實作樂趣的課程，專為希望深入了解生成式 AI 的技術與應用的學生而設計。不論對 AI 的認識是基礎還是進階，我們都希望透過這門課程，帶領同學探索生成式 AI 的無限可能。學生將會學習神經網路、GAN、Transformer、大型語言模型、RAG、AI Agents、Diffusion Models 等技術，並運用工具如 OpenAI API、LangChain、HuggingFace 及 AutoGen 等等，完成從文字生成到圖像生成的多樣應用。

課程目標

理解生成式 AI 的核心技術，包括神經網路、GAN、Transformer、大型語言模型、RAG、AI Agents、Diffusion Models 等。
實際運用各種工具和框架，例如 OpenAI API、LangChain、AutoGen、HuggingFace、Fooocus，打造多樣的生成式 AI 應用。
探討生成式 AI 的社會與倫理挑戰，從技術層面與實務層面提出創新解決方案。
完成期末專題，整合所學內容，設計並展示一個實用的生成式 AI 系統。

時間與地點

直播時間：每週二下午 16:10-19:00 長庚衛星課程不需實體出席，選課同學自行決定是否要在直播時間上線或是看課程錄影。
網路直播URL Facebook: 政大應數系直播中心 YouTube 課程存放點: Iveai - I’ve AI 炎龍老師的 YouTube 直播頻道

助教與答問時間

劉冠亨 m1261003@cgu.edu.tw
盧睿霆 m1361008@cgu.edu.tw

協同教師與答問時間

楊智淵 cyyang@cgu.edu.tw
週二上午 10:30~11:30 管理大樓14樓 1416室

課程大綱

週次	日期	課程內容	錄影	作業內容
1	2/18	課程介紹與生成式 AI 概述	YouTube	第一週
2	2/25	神經網路的概念	YouTube	第二週
3	3/4	紅極一時的生成對抗網路 GAN	YouTube	第三週
4	3/11	大型語言模型原來這麼簡單	YouTube	第四週
5	3/18	Transformers 全攻略	YouTube	無作業
6	3/25	大型語言模型（LLM）的應用及倫理議題的挑戰	YouTube	第六週
7	4/1	打造自己的對話機器人	YouTube	第七週
8	4/8	檢索增強生成（RAG）的原理及實作	YouTube	第八週
9	4/15	為什麼大家說2025年是AI Agents元年	YouTube	第九週
10	4/22	變分自編碼器（VAE）開始的冒險旅程	YouTube	第十週
11	4/29	文字生圖 AI 的原理及實作	YouTube	第十一週
12	5/6	ControlNet 與 Fooocus	YouTube	第十二週
13	5/13	強化學習與生成式 AI 綜合應用	YouTube	第十三週
14	5/20	政大校慶，無課
15	5/27	生成式 AI 新趨勢	YouTube	無作業
16	6/3	研討會型式的期末專題成果分享

教科書

沒有教科書，只有蔡炎龍老師的錄影。

參考書籍

蔡老師在課程大綱裏說在投影片裏會提及，但我沒有看到。

成績評量方式

作業: 100% 本學期共12次作業，會在5/29日之前繳交截止。學期成績為這12次作業的平均，政大助教有規定每次作業的評分標準。每次作業繳交時間在兩週內，每次作業滿分為 10 分。
期末專案: 0% 蔡炎龍老師的規劃是每個人需完成一個生成式 AI 應用專案。以Gather Town的線上研討會模式呈現，各位同學以投稿方式參與，獲選同學參加期末專案分享，並有額外加分。但因為長庚教務處要求大四的課程需要在5/29日之前上傳學期總成績，以確保6/6起，第一梯次畢業班同學可在領到畢業證書，以參加後續的國考。而今年本班90%的學生是大四生，所以為了符合教務處的規定，我將期末專案的配分從原本的20%改為0%，因為蔡炎龍老師規劃的期末專案繳交日期為6/2，已超過了長庚教務處的學期總成績上傳時間。
上課參與 0% 原本蔡炎龍老師規劃上課參與的配分為5%，以鼓勵同學在「直播」時間參與課程，另外上課互動、參與討論等等，皆會列入考量。但沒有人明確記錄長庚選此門課的同學在直播時留了多少言，是哪一位同學留言，所以我把這項配分的比重設為0%。
額外加分課程有「閃電秀」安排，同學們可自由報名，在每次上課第三節時，以 5 分鐘內的時間，分享自己對生成式 AI 相關的心得。每次上課最多可接受 5 位同學的分享。但我們學期初看到學期末，並沒有長庚的同學參與閃電秀，所以也沒人實際加到分。

課程要求

會使用 Google Colab 雲端運算平台，請同學準備好自己的 Google 帳號。本課程的作業應該免費版就足夠，但可以考慮自己狀況是否升級。
建議 (非要求) 於 https://platform.openai.com/ 儲值使用 OpenAI API 的 credit，應該 5 美金就完全足夠課程的需求。課程中我們還是會提供其他免費的方案，但使用 OpenAI API 可能會比較方便 (特別對技術不是那麼熟悉的同學)。
非常強調不可以抄襲，包括抄襲網路上的作品，或者直接抄襲生成式 AI 產出者，皆是不可接受的。本課程是生成式 AI 課程，使用大型語言模型協作，不但是允許，甚至是鼓勵的。這裡的抄襲是直接下一個 prompt 就能產出的結果，直接當作業是不能接受的。

作業內容

第一週

請在colab中畫一個函數圖形。

繳交期限：3/10 23:59

繳交標題格式：學校學號系級姓名主題 (主題可打可不打) (學校、系級打簡稱即可)

繳交內容必須包含：

colab連結(請記得將共用權限打開) 對此份作業的重點說明此份作業的重點截圖評分標準：

0分：程式連結無法順利開啟，且無截圖。 1分：程式開啟後只有匯入基本套件。 2分：程式連結無法順利開啟，但有部份截圖。 3分：繳交作業與本周主題無關(若貼成別週作業也列在此。) 6分：作業繳交基本分，程式內容與課堂範例十分近似。例如sin(x)改成cos(x)或2sin(x)。 8分：常見一元二次函數。 9分：圖形很有創意(本週老師沒教到的函數都可以)。 10分：圖形很有創意、且有漂亮文字註解 (Markdown)。

註一：若沒有引入老師的固定4行套件，總分 -1。註二：程式連結無法順利開啟包含 1.權限未開啟 2.繳交非colab連結的檔案 3.程式碼無法完整執行

第二週

作業說明：

打造自己的DNN(全連結)手寫辨識。

神經網路不能是三層(可以多，可以少，就是不能三層) 改成自己的樣子(不要一眼就看出來是老師的範例) 過多的說明都拿掉(陳述的內容要修改) 截圖上傳個人訓練過程中「驗証資料/verification data」正確率最高的參數與結果。 (可以多補充個人訓練過程中其它不好的結果與參數之間的觀察) 如果有使用 Gradio，一定要截圖Gradio的結果。修改內容的過程是個人重新疏理，而繳交時個人測試的過程都可以全數保留，也就是說如果有實驗了幾個方式，不需要在繳交的時候只留最終結果。也許參數A用5結果普通，參數A改成10之後結果提升了多少等等，這些修改過程都可以保留在Colab當中。或者使用Markdown記下來。

保留過程讓你在回看的時知道自己有的嘗試，也讓助教知道你有走過這個過程。

繳交期限：3/10 23:59

繳交標題格式：學校學號系級姓名主題 (主題可打可不打) (學校、系級打簡稱即可)

繳交內容必須包含：

colab連結(請記得將共用權限打開) 對此份作業的重點說明此份作業的重點截圖

評分標準：

0分：程式連結無法順利開啟，且無截圖。 1分：程式開啟後只有匯入基本套件。 2分：程式連結無法順利開啟，但有部份截圖。 3分：GPT 水準或繳交作業與本周主題無關(若貼成別週作業也列在此。) 6分：作業繳交基本分，程式內容與課堂範例十分近似。例如僅更改其中一些數字。 8分：看的出來模型架構有大幅更改，但大致內容還是老師的範本。 10分：滿足上述作業說明。

註一：若沒有引入老師的固定4行套件，總分 -1。註二：程式連結無法順利開啟包含 1.權限未開啟 2.繳交非colab連結的檔案 3.程式碼無法完整執行註三：有請生成式AI幫忙的地方請特別說明，加上理解後的說明，並附上截圖(包括Prompt與生成結果)，不然都當抄襲AI。註四：若認定抄襲，除該次作業0分外，總成績-10，再犯再扣，直至總成績扣完為止。註五：若需要上傳的內容不多，請不要上傳PDF檔。

第三週

作業說明：

以下二擇一：請注意繳交細項。

一、找一個GAN模型來實際操作，並且試著多生幾張圖片。(上課沒說過的也可以) 繳交方式：

1、寫明是主題幾。 2、附上該模型來源(連結)，並簡單介紹這個模型。 3、同主題多生成幾張，並且附上輸入/輸出圖。(最多五組) 4、比較看看，為什麼現在較沒有人在使用GAN來生圖？ 5、可以自行增加其他內容。

(為了助教們批改作業時閱讀順利，請將同一組輸入/輸出合併在一起為一張圖片)

—- 以下主題請以 Colab + 截圖的方式繳交，也可以繳交pdf檔。—-

二、研究GAN背後原理，試著用自己的方式解釋Cross Entropy、KL divergence。 (延伸內容：實際計算、比較兩者的效果、程式實驗、使用情境等等)

繳交方式：

1、寫明是主題幾。 2、colab連結(請記得將共用權限打開)or附上pdf檔。 3、請在重點處以 MarkDown 註明，並且貼上重點截圖。 4、也可以自行增加內容。

繳交期限：3/17 23:59

繳交標題格式：學校學號系級姓名主題 (主題可打可不打) (學校、系級打簡稱即可)

繳交內容如同上述說明。

colab連結(請記得將共用權限打開) 對此份作業的重點說明此份作業的重點截圖

評分標準：

主題一：

6分：1-2組圖片(輸入/輸出合併起來為1組)。 7分：3-5組圖片。 8分：完成說明4、5點。

有附上該模型來源(連結)，並清楚介紹這個模型 + 2分

主題二：

0分：作答區中無附檔或無Colab連結(不論是否有附圖)。 0分：程式連結無法順利開啟，且無截圖。 2分：GPT 水準或繳交作業與本周主題無關(若貼成別週作業也列在此。) 3分：程式連結無法順利開啟，但有部份截圖。 8分：(colab)只有一連串程式，沒有MarkDown來說明。(pdf)只有文字，沒有重點標示 10分：(colab)有漂亮的MarkDown來說明。(pdf)是份完美的報告。

第四週

作業說明：

建立自己的benchmarks

建立一組你自己的基準測試(prompts) (可延伸詢問) 主題是你有興趣、有點懂的(才能分辨好壞) 不要考你的LLM(例如「IVE的成員是誰?」) 至少使用兩種以上的LLM來測試寫下你對這些模型回答的看法，你比較喜歡哪一個、為什麼請以 Colab + 截圖的方式或以pdf繳交。繳交方式：

1、寫明是主題幾。 2、colab連結(請記得將共用權限打開)+重點截圖or附上pdf檔。 4、也可以自行增加內容。

繳交期限：3/24 23:59

繳交標題格式：學校學號系級姓名主題 (主題可打可不打) (學校、系級打簡稱即可)

繳交內容如同上述說明。

評分標準：

0分：作答區中無附檔或無Colab連結(不論是否有附圖)。 0分：程式連結無法順利開啟，且無截圖。 1分：與老師問一樣的問題。 2分：GPT 水準或繳交作業與本週主題無關(若貼成別週作業也列在此。) 3分：程式連結無法順利開啟，但有部份截圖。 4分：只有比較一個LLM。 6分：(基本繳交分)有比較兩個LLM，但問題過於簡單。 8~10分：達成以上作業說明。

第五週無作業

第六週

用OpenAI API打造自己的對話機器人。

作業說明：

和你的 ChatGPT 對話，若不滿意 ChatGPT 的答覆，請試著微調對話機器人，直到找到你想實作的人設/背景設定。申請自己的 API 金鑰。再到colab中修改老師的範例進行程式實作。 Gradio展示。備註記得看。繳交期限：4/7 23:59

繳交標題格式：學號系級姓名主題 (主題可打可不打) (系級打簡稱即可)

繳交內容必須包含：

colab連結(請記得將共用權限打開)，請在重點處以 MarkDown 註明。此份作業的重點截圖人設/背景設定 Gradio的對話結果其他也可以自行增加其他內容評分標準：

0分：程式連結無法順利開啟，且無截圖。 1分：與老師範例一樣。 2分：GPT 水準或繳交作業與本周主題無關(若貼成別週作業也列在此。) 4分：程式連結無法順利開啟，但有部份截圖。 6分：主題與老師的範例相似。(例如員瑛式思考改成悲觀式思考、數學推薦改成物理推薦之類) 7~9分：達成大致作業要求。 10分：完美！

註一：若沒有引入老師的固定套件，總分 -1。註二：程式連結無法順利開啟包含。 1.權限未開啟 2.繳交非colab連結的檔案 3.程式碼無法完整執行註三：有請生成式AI幫忙的地方請特別說明，加上理解後的說明，並附上截圖(包括Prompt與生成結果)，不然都當抄襲AI。註四：若認定抄襲，除該次作業0分外，總成績-10，再犯再扣，直至總成績扣完為止。註五：繳交區沒打標題、重點說明、重點截圖會斟酌扣分。註六：若覺得自己重點的東西很多，說明或截圖也可整理成pdf檔。

第七週

打造自己的對話機器人-進階版。

作業說明：以下主題二擇一即可

主題一

延續上週作業，參考老師的範例，更改成可以持續對話的版本。 Gradio展示。主題二

製作兩個不同模型互相對話的機器人。 Gradio展示。繳交期限：4/14 23:59

繳交標題格式：學號系級姓名主題 (主題可打可不打) (系級打簡稱即可)

繳交內容必須包含：

colab連結(請記得將共用權限打開)，請在重點處以 MarkDown 註明。此份作業的重點截圖人設/背景設定使用的模型 Gradio的對話結果其他也可以自行增加其他內容評分標準：

0分：程式連結無法順利開啟，且無截圖。 1分：與老師範例一樣。 2分：GPT 水準或繳交作業與本周主題無關(若貼成別週作業也列在此。) 4分：程式連結無法順利開啟，但有部份截圖。 6分：主題與老師的範例相似。(例如溫暖的對話機器人、員瑛式思考機器人、數學推薦機器人之類) 7~8分：達成大致作業要求。 9分：達成作業要求。

繳交區沒打標題、重點說明、重點截圖會斟酌扣分。主題有趣+1分。

註一：若沒有引入老師的固定套件，總分 -1。註二：程式連結無法順利開啟包含。 1.權限未開啟 2.繳交非colab連結的檔案 3.程式碼無法完整執行註三：有請生成式AI幫忙的地方請特別說明，加上理解後的說明，並附上截圖(包括Prompt與生成結果)，不然都當抄襲AI。註四：若認定抄襲，除該次作業0分外，總成績-10，再犯再扣，直至總成績扣完為止。註五：若覺得自己重點的東西很多，說明或截圖也可整理成pdf檔。

第八週

實作RAG系統。

作業說明：

準備一份自己練習的資料。參考老師程式碼，修改成自己的樣子。程式碼記得加上讀你的zip檔網址的程式(助教才能執行)。雲端轉成可下載的網址Links to an external site. Gradio展示。繳交期限：4/21 23:59

繳交標題格式：學號系級姓名主題 (主題可打可不打) (系級打簡稱即可)

繳交內容必須包含：

colab連結(請記得將共用權限打開)，請在重點處以 MarkDown 註明。交第二份的程式碼即可。說明你所使用的資料為何。此份作業的重點截圖人設/背景設定 Gradio的對話結果其他也可以自行增加其他內容評分標準：

0分：程式連結無法順利開啟，且無截圖。 1分：與老師範例一樣。 2分：GPT 水準或繳交作業與本周主題無關(若貼成別週作業也列在此。) 4分：程式連結無法順利開啟，但有部份截圖。 6分：主題與老師的範例相似。(校園社團資料) 7~8分：達成大致作業要求。 9分：達成作業要求。

繳交區沒打標題、重點說明、重點截圖會斟酌扣分。主題有趣+1分。

註一：若沒有引入老師的固定套件，總分 -1。註二：程式連結無法順利開啟包含。 1.權限未開啟 2.繳交非colab連結的檔案 3.程式碼無法完整執行註三：有請生成式AI幫忙的地方請特別說明，加上理解後的說明，並附上截圖(包括Prompt與生成結果)，不然都當抄襲AI。註四：若認定抄襲，除該次作業0分外，總成績-10，再犯再扣，直至總成績扣完為止。註五：若覺得自己重點的東西很多，說明或截圖也可整理成pdf檔。

第九週

AI Agents：打造你專屬的超級代理人。

(Planning模式：CoT改寫版 / Reflection模式)

作業說明：

兩種設計模式二擇一即可。

參考老師【Demo07a】或【Demo07c】程式碼，修改成自己的樣子。 (Planning模式) 思考一下自己的原始任務是什麼，並想一下怎麼去計劃自己的二階段推理過程。 (Reflection模式) 思考一下自己的原始任務是什麼，並想一下怎麼去安排Reflection的任務設計。 Gradio展示。繳交期限：4/28 23:59

繳交標題格式：學號系級姓名主題 (主題可打可不打) (系級打簡稱即可)

繳交內容必須包含：

繳交標題 colab連結(請記得將共用權限打開)，請在重點處以 MarkDown 註明。交第二份的程式碼即可 CoT 改寫版本的兩階段(思考/產文階段)人設設定或Reflection的寫手/評估者人設設定。此份作業的重點截圖 Gradio的對話結果其他也可以自行增加其他內容評分標準：

0分：程式連結無法順利開啟，且無截圖。 1分：與老師範例一樣。 2分：GPT 水準或繳交作業與本周主題無關(若貼成別週作業也列在此。) 4分：程式連結無法順利開啟，但有部份截圖。 6分：主題與老師的範例相似。(任務為思考類型、兩階段思考請他五選一、設計生成發文模型等等) 7~8分：達成大致作業要求。 9分：達成作業要求。

繳交區沒打標題、重點說明、重點截圖會斟酌扣分。主題有趣+1分。

註一：若沒有引入老師的固定套件，總分 -1。註二：程式連結無法順利開啟包含。 1.權限未開啟 2.繳交非colab連結的檔案 3.程式碼無法完整執行註三：有請生成式AI幫忙的地方請特別說明，加上理解後的說明，並附上截圖(包括Prompt與生成結果)，不然都當抄襲AI。註四：若認定抄襲，除該次作業0分外，總成績-10，再犯再扣，直至總成績扣完為止。註五：若覺得自己重點的東西很多，說明或截圖也可整理成pdf檔。

第十週

利用Bing 進行文字生圖。(Diffusion modle)

作業說明：

選定一種風格，試著生出各種圖片。 Bing一個帳號每天會有15次快速生成，每次都會生成4張圖片。用完快速生成次數後依然是免費生圖，但速度會慢許多。其餘延伸由同學自由發揮。可以繳交colab連結，也可以繳交PDF檔。繳交期限：5/5 23:59

繳交標題格式：學號系級姓名主題 (主題可打可不打) (系級打簡稱即可)

繳交內容必須包含：

繳交標題生圖使用的風格多組風格一致的生成圖(輸入/輸出合併起來為1組) 輸入：prompt 輸出：4張生出的圖選一張最滿意的。也可以自行增加其他內容評分標準：

2分：與老師的prompt一模一樣。 4分：僅繳交生成圖片。 6分：3組圖片。 7-10分：4組以上圖片且達成作業要求。(依照創意程度給分)

繳交區中缺少任何繳交內容或生成使用的風格不一致都會斟酌扣分。

註一：程式連結無法順利開啟包含 1.權限未開啟 2.繳交非colab連結的檔案 3.程式碼無法完整執行註二：有請生成式AI幫忙的地方請特別說明，加上理解後的說明，並附上截圖(包括Prompt與生成結果)，不然都當抄襲AI。註三：若認定抄襲，除該次作業0分外，總成績-10，再犯再扣，直至總成績扣完為止。

第十一週

打造自己的圖像生成Web App!

(利用hugging face內的SD1.5模型進行文字生圖。)

作業說明：

選定一個合適的模型，試著生出各種圖片。修改prompt，甚至可以推薦prompts給使用者。其餘延伸由同學自由發揮。可以繳交colab連結，也可以繳交PDF檔。模型也可以至https://civitai.com/models搜尋，找到心儀的模型後再到hugging face中搜尋。(找不到或許在hugging face上沒有) 繳交期限：5/12 23:59

繳交標題格式：學號系級姓名主題 (主題可打可不打) (系級打簡稱即可)

繳交內容必須包含：

繳交標題 colab連結/pdf檔生圖使用的模型多組生成圖(輸入/輸出合併起來為1組) 輸入：prompt/其餘設定輸出：生成的圖。也可以自行增加其他內容評分標準：

2分：與老師的使用的模型/prompt一模一樣。 4分：僅繳交生成圖片。 6分：與老師示範程式大同小異。 7-10分：4組以上圖片且達成作業要求。(依照創意程度給分)

繳交區中缺少任何繳交內容會斟酌扣分。

第十二週

AI 圖像生成創作任務：打造你的 Fooocus Workflow !

(使用fooocus進行文字生圖。)

作業說明：

設想一個應用情境，並使用 Fooocus 生成圖像。 (應用情境可能是：社群平台用圖、簡報圖、網站視覺元素、個人品牌圖像等。) 請至少生成3組圖像，同一張圖的輸入/輸出視為一組。輸入：為每張圖撰寫簡短說明，例如：使用到 Fooocus 的哪些功能。(prompt 設定、Style、Inpaint、Canny 等）輸出：生成的圖。請簡要整理你這份作業的創作流程(文字敘述或流程圖均可)，讓助教/老師能了解你從靈感、設定、試圖改善到輸出圖片的步驟。整體使用心得分享。其餘延伸由同學自由發揮。可以繳交colab連結，也可以繳交PDF檔。繳交期限：5/19 23:59

繳交標題格式：學號系級姓名主題 (主題可打可不打) (系級打簡稱即可)

繳交內容必須包含：

繳交標題 colab連結/pdf檔也可以自行增加其他內容評分標準：

0分：程式連結無法順利開啟，且無截圖。 2分：與老師使用的設定/prompt一模一樣。 4分：僅繳交生成圖片。 6分：與老師示範程式大同小異。 7-10分：3組以上圖片且達成作業要求。(依照創意程度給分)

繳交區中缺少任何繳交內容會斟酌扣分。

第十三週

期末專案提案。

作業說明：

藉由此份作業來幫助同學提早對期末專案進行發想，以及讓助教們有提早引導同學的機會。寫下你預期的期末專案樣子。已經開始動工的同學，可以附上連結或截圖。若助教認為需要更正的題目，會在評論區進行回覆。繳交期限：5/26 23:59

繳交標題格式：學號系級姓名主題 (主題可打可不打) (系級打簡稱即可)

繳交內容必須包含：

繳交標題作業說明中所需的東西也可以自行增加其他內容評分標準：

0分：沒有交作業。 2分：應付了事。 7~10分：說明專案預期想呈現的。(越能夠完整表達自己想法，分數越高)