—·
Saat perusahaan beralih dari chat ke penggunaan tool berbasis agent, pembeda bergeser dari skor benchmark menjadi permissioning, kontrol tool-invocation, dan alur kerja yang siap diaudit.
Gelombang adopsi AI perusahaan sebelumnya memberi penghargaan kepada organisasi yang menjunjung akurasi. Gelombang kali ini menghargai eksekusi. Ketika asisten—mulai dari copilots—berkembang menjadi tool agentic yang bisa memanggil sistem, menyusun berkas hukum, membuat perubahan kode, atau meringkas peristiwa klinis, pertanyaan operasional berubah dari “Apakah modelnya cerdas?” menjadi “Bisakah dibuktikan apa yang dikerjakan, siapa yang memberi izin, dan apa yang terjadi setelahnya?”
Bukti operasional itu tidak bersifat opsional. Dalam workflow yang sarat pengetahuan, kegagalan kecil cepat menjalar: sitasi yang keliru menjadi risiko hukum; transaksi yang salah kategori berubah menjadi masalah jejak audit; modifikasi perangkat yang tidak aman memicu isu peninjauan regulatori; perubahan rekayasa yang cacat berujung pada insiden reliabilitas. Karena itu, sistem agentic memaksa pembentukan control plane di sekitar siklus hidup agen: permissioning, governance untuk tool-calling, serta audit trail yang bisa direkonstruksi setelah kejadian.
Open model dan platform enterprise merespons realitas tersebut dengan fitur yang mengasumsikan governance sudah ada. Alibaba Cloud’s Model Studio, misalnya, menempatkan model Qwen3.5 untuk kapabilitas agent dan penempatan produksi dalam lingkungan yang dikelola, sekaligus menyediakan dokumentasi yang menekankan ketersediaan model dan bagaimana perilakunya saat digunakan melalui Model Studio. (Alibaba Cloud Model Studio home; Alibaba Cloud Model Studio “Models” documentation)
Alibaba Cloud’s Model Studio menyediakan jalur terkelola untuk menempatkan model keluarga Qwen serta kapabilitas terkait, sekaligus menyoroti hasil yang dicapai pelanggan berdasarkan Qwen dan Model Studio. Yang menonjol, Alibaba Cloud menggambarkan sistem ringkasan adverse event AstraZeneca yang dibangun menggunakan Tongyi Qwen LLM dan “Dedicated Model Studio,” dengan fokus pada peningkatan akurasi dan efisiensi pelaporan di industri farmasi. (Alibaba Cloud customer story page)
Mengapa ini relevan bagi governance workflow? Karena pelaporan adverse event sejak desainnya “sensitif bukti.” Regulator dan tim keselamatan internal mengharapkan input yang bisa dilacak (catatan kejadian atau literatur apa yang dilihat sistem), transformasi yang transparan (bagaimana sistem meringkas atau menormalisasi teks), dan serah-terima yang bisa dipertanggungjawabkan (siapa yang meninjau serta menyetujui narasi akhir). Dalam penataan agentic, ekspektasi tersebut berubah menjadi kewajiban runtime yang spesifik: workflow harus mencatat setiap retrieval atau tool call, mempertahankan pengenal sumber yang dipakai untuk tiap bagian output, serta merekam titik keputusan saat sistem melanjutkan—atau mengalihkan ke manusia.
Isyarat komersial dari Model Studio juga memperkuat arah yang sama: adopsi diukur dari penggunaan produksi, bukan sekadar ketersediaan model. Blog Alibaba Cloud sendiri mengklaim penerapan Qwen dalam skala melalui Model Studio, menyatakan “lebih dari 90.000 deployment enterprise” dalam tahun pertama. (Alibaba Cloud blog) Angka itu bukan benchmark yang ditinjau sejawat, tetapi cukup menunjukkan bahwa Model Studio diperlakukan sebagai lingkungan operasional, bukan semata “sandbox” eksperimen—kondisi persis yang membuat kebutuhan governance mengeras.
Pada praktiknya, workflow Qwen 3.5 mendorong perusahaan membangun tiga fondasi governance:
Detail governance berbeda antarindustri, tetapi lapisan eksekusinya konsisten di hukum, keuangan, rekayasa, maupun kesehatan.
Dalam sistem agentic, “audit trail” berhenti menjadi renungan kepatuhan dan berubah menjadi kebutuhan runtime. Jika rantai peristiwa tidak bisa direkonstruksi, tanggung jawab tidak bisa ditetapkan, drift proses tidak bisa diperbaiki, dan pilihan workflow tidak bisa dipertahankan di hadapan regulator, klien, maupun tim risiko internal.
Kasus terkuat untuk auditabilitas bukanlah sesuatu yang abstrak. Ia adalah jenis pertanyaan yang sama yang diajukan tim engineering ketika sebuah test gagal—hanya saja dialihkan ke bahasa governance. Contohnya: tool call apa saja yang dilakukan sebagai respons terhadap permintaan pengguna ini? Dokumen atau catatan apa yang diambil (dan versi apa)? Versi kebijakan apa yang memutuskan apakah proses otomatis boleh berjalan? Ke mana workflow bercabang—review manusia, eskalasi, retry, atau fallback—dan mengapa? Jika sebuah agent mampu meringkas, menyusun draf, dan mengirim, maka “audit trail” harus mencakup dua jalur: jalur bukti (retrieval dan transformasi) serta jalur kontrol (keputusan kebijakan dan persetujuan).
Dua ekosistem governance menggambarkan bagaimana “auditability” kini menjadi arus utama. Dalam konteks kesehatan, pendekatan FDA terhadap perangkat medis berbasis AI/ML menekankan rencana change control yang sudah ditetapkan sebelumnya (PCCPs), dimaksudkan agar perangkat lunak AI/ML dapat dimodifikasi dengan aman dan cepat sebagai respons terhadap data baru. FDA mengumumkan prinsip panduan untuk PCCP pada Oktober 2023, memposisikan PCCP sebagai mekanisme untuk mengelola modifikasi tanpa harus memulai ulang setiap tahap siklus peninjauan. (FDA announcement on PCCP guiding principles)
Lebih luas pada perlindungan data dan governance, UK Information Commissioner’s Office (ICO) secara eksplisit membahas pembangunan “comprehensive audit trails” untuk mencatat dan memantau akses ke dataset sebagai bagian dari governance dan akuntabilitas untuk sistem AI. (ICO governance and accountability in AI)
Ini bukan pernyataan kepatuhan generik. Ia memetakan langsung ke workflow agentic: akses dataset, invocation tools, dan keputusan runtime semuanya memerlukan logging yang terstruktur. Sistem agentic memperbesar problem logging karena satu permintaan pengguna bisa memicu banyak tool call, dan tiap tool call dapat menyentuh masukan yang diatur. Implikasi praktisnya: log audit harus dirancang sebagai graf sebab-akibat—bukan transkrip teks datar—agar penyelidik bisa menelusuri sisi dari keputusan kebijakan → tool call → artefak → bagian output.
Perangkat enterprise OpenAI juga mencerminkan pola pikir operasional ini dengan menyediakan “Admin and Audit Logs API” untuk platform API, mendeskripsikannya sebagai log peristiwa yang “immutable, auditable” yang ditujukan untuk membantu tim keamanan mengidentifikasi isu keamanan serta risiko kepatuhan—dan celah dalam prosedur operasional. (OpenAI Help Center: Admin and Audit Logs API)
Bagi firma profesional, poin kuncinya bukan apakah satu platform tertentu mencatat semuanya. Poinnya adalah bahwa workflow agentic kini menuntut standar minimum: catatan penggunaan tool dan status eksekusi yang dapat diaudit, cukup untuk merekonstruksi apa yang terjadi—dan menentukan apakah tindakan sistem mematuhi kebijakan serta konfigurasi yang telah disetujui.
Pertanyaan tanggung jawab profesional tidak muncul hanya setelah hasil yang merugikan. Pertanyaan itu mulai sejak izin diberikan agar sistem AI melakukan lebih dari sekadar menyusun draf.
Ketika agent memanggil tools—terutama tools yang memengaruhi pihak eksternal—tanggung jawab menjadi terdistribusi: organisasi yang mengotorisasi agent, vendor yang menyediakan perilaku model serta kontrol platform, dan tim pengembang yang merakit urutan tool invocation. Semakin otonom rantai tool tersebut, semakin organisasi perlu menunjukkan governance dan pengawasan.
Struktur regulatori mulai mencerminkan ini. Panduan PCCP FDA, misalnya, dirancang untuk mengelola perubahan secara aman beserta dokumentasi yang terikat pada protokol modifikasi dan ekspektasi penilaian dampak. Struktur itu secara implisit memperlakukan auditabilitas dan manajemen siklus hidup yang terkontrol sebagai bagian dari keselamatan. (FDA announcement on PCCP guiding principles)
Dalam dunia perangkat lunak dan platform, dokumentasi Microsoft Purview untuk audit Copilot dan aplikasi AI menyoroti ketersediaan audit logs yang mencatat interaksi berbasis AI dan dapat digunakan oleh tim keamanan serta kepatuhan. Dokumentasi itu menjelaskan cara mengakses audit logs melalui Purview dan memfilternya berdasarkan nama operasi dan properti untuk mencari catatan. (Microsoft Learn: Audit logs for Copilot and AI applications)
Implikasi hukum bagi organisasi yang sarat pengetahuan menjadi cukup jelas, meski detail yurispudensi dapat berbeda: jika rantai tool bisa ditunjukkan, dicatat, dan dikelola, maka pembahasan tanggung jawab bergeser dari “model melakukan sesuatu yang tak terduga” menjadi “workflow resmi bisa ditinjau langkah demi langkah.” Dengan kata lain, audit trail menjadi instrumen tanggung jawab, bukan hanya instrumen kepatuhan.
Sistem ringkasan adverse event AstraZeneca adalah salah satu contoh paling terang dari prinsip “eksekusi, bukan bobot” dalam workflow pengetahuan yang teregulasi. Alibaba Cloud menjelaskan bahwa AstraZeneca membangun sistem ringkasan adverse event menggunakan Tongyi Qwen LLM dan Dedicated Model Studio, dengan menekankan peningkatan akurasi dan efisiensi pelaporan. (Alibaba Cloud customer story page)
Secara kronologis, customer story publik Alibaba Cloud tidak selalu memuat tanggal peluncuran spesifik dalam cuplikan, tetapi menyediakan asosiasi terdokumentasi antara workflow dan kapabilitas platform. Untuk kepentingan editorial, yang lebih penting adalah pergeseran ekspektasi perusahaan yang mengikuti sistem seperti itu: tim harus mengubah penyusunan draf berbantuan model menjadi pipeline yang bisa diulang, lengkap dengan penanganan bukti dan gerbang review.
Agar “lapisan eksekusi” menjadi konkret, persyaratan governance yang biasanya membedakan uji internal dari workflow adverse-event yang siap diaudit tampak seperti berikut:
Kasus penggunaan yang dijelaskan AstraZeneca menunjukkan bagaimana adopsi bergerak dari “coba model” menjadi “jalankan pipeline”—bukan dengan membuktikan model akurat, melainkan dengan membuat setiap langkah workflow bisa diperiksa setelah kejadian.
Kesehatan termasuk arena paling tajam bagi liability workflow agentic, karena perilaku model dapat memengaruhi keselamatan dan dukungan keputusan klinis.
Pengumuman FDA pada Oktober 2023 tentang predetermined change control plans menyoroti pendekatan untuk mengelola pembaruan dan modifikasi perangkat medis berbasis AI/ML. FDA memposisikan PCCP sebagai mekanisme untuk memastikan keselamatan dan efektivitas ketika model berkembang merespons data baru. (FDA announcement on PCCP guiding principles)
Bahkan jika produk tertentu tidak melibatkan “tool calling” dalam arti chatbot, logika governance yang mendasarinya tetap berpindah langsung ke workflow agentic: jika perubahan runtime diizinkan, jalur modifikasi harus dikendalikan, didukung dokumentasi, dan dibuat terlacak.
Bagi perusahaan yang mengadopsi agent dalam operasi klinis, pelajaran editorialnya adalah disiplin siklus hidup yang sama untuk pembaruan model perangkat medis harus diterjemahkan ke rantai tool agent: konfigurasi tool berbasis versi, catatan eksekusi yang siap diaudit, serta ekspektasi pengawasan yang sudah ditetapkan sebelumnya untuk perubahan.
Di lintas hukum dan keuangan, salah satu hambatan adopsi yang paling bertahan bukanlah performa model. Hambatan tersebut adalah operational observability: kemampuan tim keamanan dan kepatuhan untuk menjawab “apa yang terjadi?” setelah insiden.
Dokumentasi Microsoft Purview mengenai audit logs untuk Copilot dan aplikasi AI menunjukkan bahwa organisasi dapat menggunakan audit logs dan fitur pencarian untuk menemukan peristiwa terkait AI, dengan panduan yang mencakup pemfilteran berdasarkan nama operasi serta properti terkait. (Microsoft Learn: Audit logs for Copilot and AI applications) Microsoft juga mendokumentasikan audit logging untuk Copilot Studio, termasuk bagaimana peristiwa audit dan transkrip dicatat serta di mana administrator dapat mengakses log tersebut. (Microsoft Learn: View audit logs for admins, makers, and users of Copilot Studio)
Ini penting bagi pergeseran “agentic” karena begitu sebuah agent diizinkan memanggil tools, organisasi membutuhkan posture observability tingkat platform yang sebanding dengan manajemen perubahan perangkat lunak. Dalam banyak perusahaan, itu berarti menggabungkan audit logs AI dengan sistem governance yang lebih luas seperti eDiscovery, alur kerja data loss prevention, dan manajemen insiden internal.
Untuk tim hukum, rekayasa, dan keuangan, pola adopsi praktis yang kian sering terjadi juga mulai menyatu: jalankan pilot untuk copilot, tetapi jangan skalakan sampai audit logs untuk rantai tool tersedia, serta organisasi bisa mengekspor atau menanyakannya secara berulang.
Perangkat enterprise OpenAI secara eksplisit membingkai audit logs dan ekspor kepatuhan sebagai sesuatu yang bisa dioperasionalkan oleh perusahaan.
Pada Juli 2024, OpenAI menjelaskan alat-alat baru untuk ChatGPT Enterprise, termasuk pembaruan yang menempatkan “ChatGPT Compliance API” ke dalam “Compliance Logs Platform,” serta menekankan ekspor data observability dan kepatuhan melalui “immutable, time-windowed JSONL log files.” OpenAI juga menyatakan bahwa integrasi mendukung industri teregulasi seperti keuangan, kesehatan, dan layanan hukum. (OpenAI: New compliance and administrative tools for ChatGPT Enterprise)
Argumen editorial ini sejalan: ketika lapisan agentic meluas, logging menjadi bagian dari pengalaman produk. Ini bukan sekadar “monitoring”; ini adalah kemampuan perusahaan untuk membuktikan eksekusi.
Pola adopsi yang terlihat di sini tampak dari cara platform mendeskripsikan fitur: mereka mempromosikan output governance (audit logs, rekaman peristiwa yang immutable, ekspor kepatuhan) karena perusahaan telah mengubah apa yang dianggap penting.
Pola adopsi dalam pekerjaan berbasis pengetahuan semakin “berbasis pipeline.” Tim menerapkan copilots dalam workflow yang sempit terlebih dahulu, lalu memperluas kapabilitas hanya ketika fondasi governance sudah terbukti.
Secara kuantitatif, laporan KPMG 2024 tentang adopsi AI di fungsi keuangan AS menunjukkan bahwa 62% perusahaan AS menggunakan AI dalam tingkat moderat atau besar, 58% melakukan pilot atau menerapkan generative AI, dan 52% menggunakan AI khusus untuk pelaporan keuangan. (KPMG US: AI adoption across US finance functions reaches highest levels) Angka-angka tersebut memperlihatkan dua hal sekaligus: dorongan adopsi sudah besar, namun perbedaan antara “pilot” dan “produksi” sering berkorelasi dengan kematangan governance—termasuk kemudahan untuk direview dan adanya kontrol.
Dari sisi rekayasa, kebutuhan observability juga tampak dalam cara vendor platform mendefinisikan retensi dan visibilitas admin. Changelog GitHub menunjukkan pembaruan kebijakan retensi untuk field user-management API, termasuk pergeseran penyimpanan “last_activity_at” dengan pendekatan retensi 90 hari untuk public preview endpoint API tersebut. (GitHub Changelog: retention period to 90 days)
Di lintas industri ini, polanya konsisten: organisasi bisa menoleransi ketidakpastian model dalam penulisan draf, tetapi tidak toleran terhadap ketidakpastian dalam eksekusi tool. Karena itu, governance menjadi gerbang untuk skala.
Untuk mengoperasionalkan workflow agent, perusahaan makin banyak mengadopsi indikator governance kuantitatif yang menerjemahkan kebijakan menjadi metrik engineering. Meskipun metrik persisnya berbeda antar vendor dan kerangka kepatuhan, tiga data point menggambarkan tren governance dan ekspektasinya:
Angka-angka ini tidak bisa saling ditukar, tetapi semuanya mengarah pada realitas yang sama: perusahaan bergerak dari eksperimen menuju integrasi workflow, dan langkah itu menuntut engineering governance serta auditabilitas.
Jika “bobot” adalah otak model, maka “pipeline siklus hidup agent” adalah sistem saraf organisasi. Pipeline ini mencakup pembuatan, persetujuan, pengujian, penempatan, kontrol runtime, respons insiden, hingga pensiun sistem (decommissioning).
Pembingkaian Alibaba Cloud mengenai Model Studio sebagai lingkungan operasional untuk model Qwen membuat cara pandang berbasis pipeline ini masuk akal bagi perusahaan yang ingin menstandarkan penempatan. (Alibaba Cloud Model Studio home; Alibaba Cloud Model Studio models documentation) Sementara itu, dokumentasi platform dari Microsoft dan OpenAI menunjukkan bahwa audit logs dan transkrip kini menjadi output enterprise kelas utama, bukan jejak yang disembunyikan. (Microsoft Learn: Audit logs for Copilot and AI applications; OpenAI Help: Admin and Audit Logs API)
Jadi, apa yang seharusnya dioperasionalkan perusahaan ketika mengadopsi tool-calling agentic bergaya Qwen 3.5?
Dalam pekerjaan berbasis pengetahuan yang teregulasi, permissioning bukan sekadar pengaturan IT. Ia adalah kontrak tentang apa yang boleh dilakukan agent atas nama organisasi.
Perusahaan yang ingin melakukan skala dengan aman dapat memakai aturan sederhana: tidak ada tool invocation agentic tanpa artefak governance yang siap diaudit.
Rekomendasi (kebijakan dan operating model): CFO, kantor GC (General Counsel), CIO, dan CISO harus mensyaratkan agar setiap workflow agentic di hukum, keuangan, rekayasa, dan kesehatan menghasilkan catatan eksekusi yang bisa diaudit—mencakup peristiwa tool invocation, jejak keputusan kebijakan, serta konfigurasi workflow yang berbasis versi pada saat eksekusi. Secara konkret, pimpinan perlu menetapkan “audit completeness” sebagai tanda-tangan yang menjadi bagian dari daftar periksa penempatan, dengan memakai audit logs platform bila tersedia (misalnya audit logs Microsoft Purview untuk Copilot/AI dan kapabilitas OpenAI berupa Admin and Audit Logs API). (Microsoft Learn: Audit logs for Copilot and AI applications; OpenAI Help: Admin and Audit Logs API)
Prediksi (timeline): Dalam 12 bulan sejak 20 Maret 2026, organisasi di layanan profesional yang teregulasi kemungkinan akan mempercepat transisi dari “pilot copilot” menuju “standarisasi agent pipeline,” karena audit logs dan kontrol governance semakin menjadi faktor pengunci untuk rilis produksi. Alasannya bersifat struktural: pola adopsi sudah luas di keuangan (angka KPMG 2024 menunjukkan lebih dari setengah melakukan pilot atau deploy GenAI), dan tekanan skala memaksa tim memformalkan governance atau terjebak dalam siklus pengerjaan ulang serta respons insiden. (KPMG US report)
Dalam periode ini, organisasi yang menang tidak selalu yang memiliki benchmark terbaik. Mereka adalah yang bisa membuktikan eksekusi.
Dan itulah intinya: eksekusi yang bisa ditunjukkan—bukan klaim performa yang bersifat umum.